Angefangen hat es mit dem Papst. Als sich im März 2023 in rasantem Tempo ein Foto verbreitete, auf dem der mittlerweile verstorbene Franziskus in schneeweißem Daunen-Parka, der aus der aktuellen Balenciaga-Kollektion stammen könnte, über die Straße zu laufen schien, wurde deutlich, zu welchen Schandtaten die KI bereit sein würde.
Denn dass es sich hierbei nicht um das tatsächliche Oberhaupt der katholischen Kirche, sondern um den Einfall eines 31-jährigen Bauarbeiters aus dem Großraum Chicago handelte, war nicht allen klar, die das Bild verbreiteten. Der kam übrigens auf die Idee, nachdem er in der Woche zuvor psychoaktive Pilze gegessen hatte. Nach aktuellem Stand der Technik wäre es sogar möglich, den vermeintlichen Papst singend durch den Baumarkt spazieren zu lassen.
Auf der Entwicklerkonferenz Google I/O ist kürzlich Veo 3 vorgestellt worden, das neue Video-Modell des Technologieunternehmens. Das Besondere daran: Veo 3 kann aus nur wenigen Texteingaben realistisch wirkende Videoclips erzeugen – mit Tonspur, Gesichtsbewegungen, sogar mit passendem Akzent.
Mundbewegungen stimmen, Stimmen klingen erstaunlich natürlich, auch die Emotionen lassen sich gezielt steuern. Das neue Modell kombiniert Bild und Ton auf eine Weise, die bisherigen KI-Videos einen deutlichen Schritt voraus ist. Grund genug, damit rumzuspielen.
Seit der Vorstellung kursieren zahlreiche Clips auf Social Media. Viele davon wirken auf den ersten und sogar auf den zweiten und dritten Blick täuschend echt. Sie werden millionenfach geteilt.
So gibt es beispielsweise Videos, in denen Nachrichtensprecher:innen den Tod von "Harry-Potter"-Autorin J.K. Rowling verkünden, die auf ihrer Yacht von einem Orca gerammt worden sei. Andere zeigen Straßenumfragen oder fiktive Musikvideos.
Zwar versieht Google selbst seine Videos mit einem unsichtbaren Wasserzeichen, ob allerdings die zwangsläufig abfallenden Imitatoren vergleichbare Schutzmaßnahmen einbauen werden, ist fraglich.
Google betont die kreativen Möglichkeiten von Veo 3. So kooperiert der Konzern etwa mit dem Regisseur Darren Aronofsky, dessen Studio gerade an Kurzfilmen arbeitet, die reale Aufnahmen mit KI-generierten Elementen kombinieren. Parallel wurde "Flow" veröffentlicht, ein Bearbeitungstool, mit dem Kameraeinstellungen und Stilrichtungen weiter angepasst werden können.
Es bleiben aber – wie so häufig bei KI – viele Fragen offen: zur Herkunft der Trainingsdaten oder zum Umgang mit solchen Videos.
Weil das Interesse derart groß war, steht Veo 3 nach dem Launch in den USA mittlerweile auch in Europa zur Verfügung. Dafür wird das "Google AI Pro"-Paket benötigt, das bis zuletzt noch unter dem Namen Gemini "Advanced" firmierte. Zehn Video-Generierungen sind dadurch pro Monat möglich.