Mit der KI-Applikation Hedra AI kann man aus einem einzigen Bild in kürzester Zeit ein Video einer sprechenden oder singenden Person generieren. Wie das geht, habe ich Euch vor einiger Zeit bereits in unserem Singender Avatar in 10 Minuten Artikel gezeigt.
Vor kurzem hat Hedra, zumindest nach eigenen Angaben, seine Software noch einmal deutlich verbessert. Für mich war das der Anlass, das Tool noch einmal auszuprobieren und zu schauen, ob ich die 10 Minuten noch einmal unterbieten kann.
Insgesamt habe ich dazu vier unterschiedliche Tools genutzt:
- Midjourney für das Ausgangsbild
- ChatGPT für den Text
- Elevenlabs, um die Stimme zu generieren
- Hedra AI, um schließlich den Avatar zu generieren
Inhalte
Bildgenerierung mit Midjourney
Zum Testen habe ich mir mit Midjourney das Portrait eines Astronauten generiert.
portrait of an astronaut, looking directly into the camera, black short stubble hair, round glasses --ar 3:2 --style raw --sref 3709133334 --v 6.1
Dauer: 1 Minute.
Textgenerierung mit Chat GPT
Dieses Bild habe ich anschließend bei ChatGPT hochgeladen und um einen kleinen Monolog gebeten…
Bitte denke Dir zu diesem Bild eine kurze Geschichte aus und schreibe entsprechend einen kurzen Monolog, den dieser Astronaut hält.
…und folgendes Ergebnis erhalten:
"Seit meiner Kindheit rufen mich die Sterne, die unendliche Weite und das Geheimnisvolle hinter jedem Lichtpunkt. Jetzt, in diesem Moment, stehe ich an der Schwelle zu einem neuen Abenteuer. Die Erde ist nur noch ein Punkt im Schwarz, und ich fühle mich ruhig. Ich bin bereit, das Unbekannte zu erkunden, neue Welten zu entdecken. Meine Neugier kennt keine Grenzen, und selbst die tiefste Dunkelheit schreckt mich nicht. Denn in jedem Stern wartet ein neues Geheimnis darauf, entdeckt zu werden."
Dauer: 1 Minute.
Gesprochener Text mit ElevenLabs
Bei ElevenLabs habe ich mir unter der Funktion Text-to-Speech eine passende Stimme ausgesucht (das hat in der Tat am längsten gedauert), den leicht gekürzten Monolog (Hedra AI unterstützt in der kostenlosen Variante nur Texte bis zu einer Länge von 30 Sekunden) kopiert und mit der gewählten Stimme generiert.
Dauer: 2 Minuten.
Kombination in Hedra AI zu einem sprechenden Avatar
Hedra AI befindet kann derzeit noch kostenlos genutzt werden. Ihr müsst Euch dazu nur einen Account anlegen bzw. Euch mit Eurem Google-Account einloggen. Das User Interface (UI) ist absolut einfach und selbsterklärend in drei Boxen aufgeteilt.
- Im mittleren Bereich ladet Ihr Eure Grafik hoch, also in diesem Fall das Portrait des Astronauten.
- Im linken Bereich könnt Ihr entweder einen Text direkt aufnehmen oder, wie in meinem Fall, das Audiofile von ElevenLabs hochladen.
- Anschließend müsst ihr nur noch im rechten Bereich auf Generate Video drücken, kurz warten, und erhaltet den sprechenden Avatar.
Noch nicht perfekt, aber schon beeindruckend. Natürlich muss der Text noch besser und lebendiger gesprochen sein, aber ich wollte in diesem Fall ja insbesondere schauen, ob sich das kleine Avatar-Projekt tatsächlich in wenigen Minuten realisieren lässt.
Und da dieser Schritt tatsächlich auch nur ungefähr eine Minute gedauert hat, stehe ich zu den im Titel genannten fünf Minuten für die rein auf KI-Tools basierende Erstellung meines Astronauten.
Comic-Avatar
Der komplette Prozess funktioniert übrigens auch mit einer Figur im Comic-Stil. Dazu habe ich den Astronaut in Midjourney in einem entsprechenden Stil generiert, das Vorgehen ist ansonsten identisch.
Hat sich die Qualität wirklich verbessert?
Natürlich wollte ich aber auch wissen, ob sich die Qualität mittlerweile tatsächlich gegenüber meinem ersten Versuch verbessert hat. Daher habe ich meinen singenden Avatar noch einmal aktuell generieren lassen.
Ich finde, die Qualität hat sich in der Tat verbessert, so sind z.B. die komischen Gesichtsbewegungen zwischen dem Gesang weg.
Was denkt Ihr?