KI Bilder mit der gleichen Person sind der ‘heilige Gral’ der KI Bildgenerierung. Man möchte sich selbst oder einen generierten Charakter (Person, Maskottchen, Roboter…) in verschiedenen Szenen, Umgebungen und Aktionen erstellen. Anwendungen wären Werbung, Tutorials, Comics und viele mehr.
Da jedes KI Bild jedoch von Grund auf neu generiert wird bzw. die Programme nicht verstehen was sie generieren, sondern nur auf trainiertes Bildmaterial zurückgreifen – die Software weiß wie eine Hand aussieht, aber nicht wozu sie da ist. Daher kann sie auch nicht erkennen, ob sie anatomisch korrekt generiert wird oder nicht – sind Serien konsistenter Charaktere bisher noch nicht bzw. nur auf Umwegen und nicht perfekt möglich.
UPDATE: Einen aktuellen (Sommer 2024) Vergleich der sogenannten Character Reference findet Ihr in unserem ausführlichen Artikel.
In dieser Übersicht zeige ich Euch, wie Ihr Euch mit den verschiedenen Programmen wie Midjourney, Leonardo AI, Stable Diffusion und Dall-E3 solchen Bildern zumindest nähern könnt.
Inhalte
Midjourney
In Midjourney empfiehlt sich der folgende Workflow:
- Bild eines Charakters generieren/ Foto eines Charakters suchen
- Dieses Bild/ Foto als Vorlage nutzen und den Charakter mit anderen Gesichtsausdrücken und mit anderen Posen erstellen
- Diese Bilder jeweils wiederum als Vorlage nutzen und mit Szenen kombinieren.
Verständlich? Nein, natürlich nicht 😉 Das Vorgehen im Detail mit vielen Beispielen erklärt findet Ihr daher hier:
Midjourney selbst hat das Thema konsistente Charaktere übrigens auf seiner Roadmap. Wie und wann das umgesetzt werden soll steht allerdings noch nicht fest.
Achja, falls Ihr zudem noch mit Eurem eigenen Gesicht arbeiten möchtet empfehle ich die Verwendung von InsightFaceSwap.
Stable Diffusion
Stable Diffusion ist sicher der mächtigste Bildgenerator, aber auch der komplizierteste. Mit lokaler Installation, Verknüpfungen, diversen Oberflächen und mehr ist die Installation wie auch die Nutzung der vielen Möglichkeiten eher etwas für IT-Nerds.
Praktischerweise ist Andreas ein solcher und arbeitet sich aktuell in Tools wie Fooocus und Odyssey ein. Demnächst werden wir hier also auch für Stable Diffusion Tipps zu konsistenten Charakteren hier geben.
Leonardo
Leonardo AI ist so etwas wie “Stable Diffusion für Arme” 🙂 Im Ernst, Leonardo bietet eine sehr übersichtliche Oberfläche und greift auf viele Stable Diffusion Modelle, Funktionen und Parameter zu. So auch auf die Image Guidance genannten Möglichkeiten, Bilder als vielfältige Vorlagen (Image to Image, Edge to Image, Pose to Image) zu verwenden und sich mit deren Hilfe an konsistenten Bildern zu versuchen.
Zudem kann man auch mit Leonardo eigene Modelle trainieren, die Anleitung folgt.
Dall-E3 (Bing)
In Dall-E3 (kann über Chat GPT wie auch Microsoft Copilot/ Bing genutzt werden) könnt Ihr konsistente Charaktere zumindest in einem Schwung erstellen. Meint einen Prompt, welcher eine Person in einem Bild in mehreren Szenarien generiert.
Die Bilder müsstet Ihr dann aber aus dem einen generierten Bild ausschneiden und vergrößern. Dafür gibt es mittlerweile eine große Anzahl an Upscalern bzw. könntet Ihr die Bilder auch mit Adobe Photoshop bearbeiten und erweitern.
Man kann in Dall-E3 zudem mit einem sogenannten seed arbeiten, die Methode werde ich mir demnächst in Ruhe anschauen und darüber schreiben.
Fazit
Es gibt viele gute Ansätze, um KI Bilder mit immer der gleichen Person zu generieren, aber noch keine ‘out of the box’ Lösung. Das dürfte allerdings nur noch eine Frage der Zeit sein.
Kennt Ihr noch weitere oder alternative Ansätze, so schreibt uns diese sehr gerne in die Kommentare. Damit habt Ihr dann sogar die Chance, in einem der nächsten Newsletter erwähnt zu werden.