Kling AI generiert jetzt auch Videos mit lippensynchronen Texten! Kling AI ist bereits unser Testsieger im großen KI-Videogeneratoren-Vergleich und hat vor kurzem erst Version 1.5 eingeführt. Jetzt reicht der Anbieter auch noch die spannende und nützliche LipSync Funktion nach, die bisher Runway Gen-3 bisher exklusiv hatte.
Inhalte
Was bedeutet LipSync?
Mit LipSync könnt Ihr Personen in einem Video das Sprechen beibringen. In einem generierten Video werden die Lippen dieser Person mit einem gesprochenen (oder gesungenen) Text synchronisiert. Damit könnt Ihr nun richtige Dialoge in Eure KI generierten Geschichten einbauen.
Völlig unkompliziert: LipSync verwenden
Die Vorgehensweise ist dabei denkbar einfach:
- Bild einer Person als Vorlage hochladen
- Einfacher Prompt
- Vorläufiges Video generieren
- Audio-Datei mit Sprechertext hochladen
- Mit LipSync Ton und Video synchronisieren
Hier die Anleitung im Detail:
Bild einer Person als Vorlage nutzen
Ihr startet Kling AI und geht zu dem Image-to-Video Bereich und ladet dort das Bild einer Person oder auch nur eines Gesichts hoch – falls Ihr nicht wisst wie das geht, schaut gerne einmal bei unserem ausführlichen Kling Tutorial vorbei.

Ein einfacher Prompt genügt
Generell könnt Ihr in Kling AI die Image-to-Videos ohne Prompt generieren. Kling AI entscheidet dann selbst, was und wie animiert wird. Für die LipSync-Funktion empfiehlt es sich, als Basis ein Video ohne oder mit nur ruhigen Bewegungen zu generieren. Dazu könnt Ihr im Prompt z.B. ein static shot of verwenden. Zudem habe ich meinen Videos fast immer noch ein a [man, woman, witch, …] is speaking im Prompt mitgegeben.

Video generieren
Nun lasst Ihr das Video ganz normal generieren, wobei ich dabei immer den Profi-Modus nutze. Zudem könnt Ihr noch zwischen einem 5s oder 10s Video wählen, das hängt davon ab, wie lange Euer gesprochener Text ist.
LipSync funktioniert übrigens mit dem älteren 1.0 sowie mit dem aktuellen 1.5 Modell!
Neuer Button: Match Mouth Type
Wenn das Video fertig generiert ist, wird Euch darunter der neue Button Match Mouth Type angezeigt. Dieser bereitet das Video auf das LipSync vor bzw. prüft, ob das LipSync mit dem Video funktioniert. Dabeio erscheint ein Identifying auf dem Button. Mit Tieren funktioniert es gar nicht, mit Comic-/Animefiguren manchmal.

Gesprochenen Text generieren
Wenn das Video LipSync tauglich ist, öffnet sich ein entsprechendes Popup-Fenster. Dort könnt Ihr die Datei mit dem gesprochenen Text hochladen.

Ich habe für die Videos sowohl selbst aufgenommene Sprache und als auch mit ElevenLabs KI gesprochene Texte verwendet.


Mit LipSync Ton und Video synchronisieren
Sollte der gesprochene Text länger als das generierte Video sein, so erhaltet Ihr ein weiteres Fenster angezeigt, in dem Ihr einen entsprechend zeitlich passenden Abschnitt in Eurem Audiofile auswählen und zuschneiden könnt.

Anschließend wählt Ihr noch den Button Lip Sync und lasst das vertonte Video generieren – was noch einmal 5 Credits extra kostet.

Ihr bekommt dann die Meldung, dass der Vorgang 5 bis 10 Minuten dauert. Bei mir waren es allerdings meist eher 5 als 10 Minuten.

LipSync mit zwei Personen in einem Video
Wenn zwei Personen in einem Video zu sehen sind, dann entscheidet Kling welche Person spricht. Das heißt, man kann weder zwei Personen miteinander sprechen lassen noch bestimmen, welche Person in dem Video redet. Dabei wird auch eine weibliche Stimme nicht automatisch einer weiblichen Person zugeordnet, wie Ihr im Beispielvideo seht.
Fazit: Fehler im Detail, aber jetzt schon beeindruckend!
Bei meinen eigenen Videos muss ich gestehen, dass es in den Lippenbewegungen ein paar merkwürdige Verzerrungen gibt. Auch passen die Zähne nicht. Wobei das auch kein wirklich fairer Vergleich ist, da Kling AI ja nicht mit mir trainiert wurde.
Bei den KI generierten Vorlagen sind auch immer mal wieder ganz kurze Sequenzen dabei, bei denen gesprochener Text und Lippenbewegungen nicht völlig synchron sind. Aber in den meisten Fällen klappt der LipSync wirklich gut. Begeistert bin ich vor allem von den Passagen, in den sich das Gesicht in eine andere Richtung oder gar weg dreht. Auch dort werden die Lippen weiterhin synchron animiert.
Aus meiner Sicht ist Kling AI LipSync daher schon jetzt ein sehr brauchbares Tool, und ich freue mich schon darauf, meinen ersten mit gesprochenen Texten versehenen KI-Film zu drehen, äh generieren.
Zudem bin ich mir sicher, dass mit der nächsten Version die Synchronisierung noch fehlerfreier funktionieren wird. Und dann sicher auch für mehrere Personen in einem Bild und vielleicht sogar mit Tieren.
Leider funktioniert dies bisher nur, wenn die Lippen von der ki ordentlich erkannt werden können. Ironischer Weise kann ich Fantasy-Charakter zwar per prompt im Video sprechen lassen, aber dass dann wiederum lipsync dafür genutzt werden kann klappt wieder nicht. Wenn da zu viel Fell zum Beispiel um den Mund oder die Schnauze ist, wird’s Nix.
Ist mir zwar dezent ein Rätsel, da ja letzten Endes die reine sprechanimation dann auch weniger bis garnicht klappen sollte, aber naja… mal schauen ob es da weitere Optimierungen geben wird in der Zukunft.
Hey, das stimmt, manchmal klappt es auch bei nicht realen Figuren, manchmal nicht – wobei Kling AI da deutlich besser performt als z.B. Runway. Aber ich bin mir sicher, dass man in naher Zukunft auch Tieren das Sprechen beibringen werden kann 😉