Nach KI generierten Bildern mischt die Künstliche Intelligenz aktuell die Videoproduktion auf. Das wirft eine grundsätzliche Frage auf: Wie viel versteht eine solche KI wirklich von der Welt, die sie darzustellen versucht? Eine aktuelle Studie von Bytedance Research und der Tsinghua University versucht, diese Frage zu klären.
Die Studie hat sich KI-Modelle wie Sora von OpenAI genauer angeschaut. Obwohl diese Modelle große Fortschritte in der visuellen Darstellung gemacht haben, bleibt ihre Fähigkeit, physikalische Prinzipien zu verstehen und korrekt anzuwenden, stark begrenzt.
Die Funktionsweise von KI-Videogeneratoren
KI-Videogeneratoren versuchen – wie alle KI Modelle – Muster in den Datensätzen erkennen, auf denen sie trainiert wurden, um anschließend neue Inhalte zu generieren. Diese Methode der Bilderzeugung basiert auf Wahrscheinlichkeiten und berechnet, welche Bildpixel zu welchen Zeitpunkten erscheinen könnten. Was diesen Modellen aber fehlt, ist das Verständnis der realen Kräfte und Gesetze, die diese Bewegungen in der physischen Welt regeln.
Ohne die Fähigkeit, physikalische Gesetze korrekt abzubilden, enden viele Anwendungen der KI im Videobereich als oberflächliche Darstellungen, die realistischer wirken, als sie tatsächlich sind. Dies hat Auswirkungen auf Bereiche wie Animationen, Spezialeffekte und Simulationen, wo genaue physikalische Nachbildungen entscheidend sind. Dennoch bietet die aktuelle Forschung wichtige Einblicke, die künftige Entwicklungen inspirieren könnten.
Die Studie kommt zu dem Schluss, dass KI-Videogeneratoren momentan keine vollständigen Weltmodelle darstellen und so nicht als Ersatz für physikalisches Verständnis dienen können. Diese Erkenntnis unterstreicht die Notwendigkeit, weiterhin in die Forschung zu investieren, um KI-Systeme zu entwickeln, die nicht nur sehen können, sondern auch verstehen.
Du willst auf dem Laufenden bleiben über die neuesten Entwicklungen in der Künstlichen Intelligenz für Video- und Bildverarbeitung? Dann solltest du unseren Newsletter abonnieren: