OpenAI-Logo auf einem Smartphone.

KI-Fortschritte ChatGPT macht aus Texten Videos

Stand: 16.02.2024 09:53 Uhr

Der Chatbot ChatGPT wird künftig aus Textvorgaben kurze Videos erstellen können. Zunächst ist das KI-Modell in der Erprobung, um Sicherheitsrisiken und Fälschungsgefahren auszuloten.

Die Macher des Chatbots ChatGPT haben eine Software entwickelt, die Videos aus Text-Vorgaben erzeugen kann. Das KI-Modell mit dem Namen Sora werde zunächst ausgewählten Kreativen zur Verfügung gestellt, schrieb OpenAI-Chef Sam Altman auf der Online-Plattform X (ehemals Twitter). Auch sollen Experten Sicherheitsrisiken ausloten, bevor das Programm breit genutzt werden kann.

KI-Technologie, die bewegte Bilder aus Text-Vorgaben generiert, könnte mit der Zeit die Videoproduktion verändern. Aber die Sorgen sind groß, dass mit dieser Technologie in großem Stil Fake-Videos erzeugt werden können, die von echten Aufnahmen kaum zu unterscheiden wären. Die Entwickler der Technologie arbeiten deshalb an Wegen, in die Videos eindeutige Erkennungsmerkmale wie Wasserzeichen einzubauen.

Fehler bei physikalischen Gesetzen

Von Sora erstellte Videos können bis zu eine Minute lang sein. Es soll erkennbar sein, dass sie von KI erstellt wurden. Auf der Webseite zur Software veröffentlichte OpenAI mehrere Beispiele zusammen mit der Beschreibung, die ihnen zugrunde lag. Eins davon etwa zeigt eine Frau, die über eine Straße läuft.

Das Video wurde komplett von Künstlicher Intelligenz generiert, mit der Text-Vorgabe, die Frau solle eine Lederjacke und ein rotes Kleid tragen und die Straße solle an Tokio erinnern und viel Neon-Leuchtreklame haben, die sich zudem in Pfützen spiegele.

Mehrere andere Unternehmen entwickelten bereits Software, die Videos aus Text erzeugen kann. OpenAI schränkt eine, dass Sora noch Schwächen habe: So mache das Modell manchmal Fehler bei der Umsetzung von physikalischen Gesetzen. Auch könne es zum Beispiel passieren, dass jemand im Video von einem Keks abbeiße - und der Keks später immer noch ganz aussehe.

Google macht Fortschritte im Analysebereich

Im Wettlauf bei Software mit Künstlicher Intelligenz berichtet Google ebenfalls von einer Verbesserung, aber im Bereich Video und Analyse. Der Internetkonzern stellte die Weiterentwicklung Gemini 1.5 vor, die unter anderem längere Videos und Texte auswerten kann. So habe man die Software als Test nach lustigen Momenten im gut 400-seitigen Protokoll der Unterhaltungen der Apollo-11-Raumfahrtmission zum Mond suchen lassen, schrieb Google in einem Blogeintrag. Gemini 1.5 habe drei davon gefunden.

Nachdem ohne weitere Kommentare die Zeichnung eines Stiefels hochgeladen worden sei, habe die Software dies automatisch mit dem Moment in Verbindung gebracht, in dem Neil Armstrong den ersten Schritt auf dem Mond gemacht habe.

Gemini 1.5 Pro könne bis zu einer Stunde Video, bis zu elf Stunden lange Audioaufnahmen, Texte mit einer Länge bis zu 700.000 Wörtern sowie bis zu 30.000 Zeilen Software-Code erfassen und analysieren, erläuterte Google. Unter dem Markennamen Gemini fasste Google jüngst seine Apps und Dienste mit KI zusammen. Das Modell Gemini 1.5 wird zunächst für Entwickler und Unternehmenskunden verfügbar sein, bevor alle davon profitieren können.