Bisher habe ich hauptsächlich mit dem KI-Bildgenerator Midjourney gearbeitet. Aus meiner Sicht bot dieser bis dato die beste Bildqualität und den größten Umfang an Tools. Daneben war Leonardo.ai noch wirklich gut, Adobe Firefly sowie Dall-E2 jedoch eher ‘naja’ bis ‘nein danke’.
Mit dem Versprechen von OpenAI’s Dall-E3, per Dialog und nicht mehr per reinem Prompting Bilder generieren zu können bin ich aber noch einmal neugierig geworden. Das musste ich natürlich ausprobieren.
Und was soll ich sagen, gleich der erste Versuch war ein Volltreffer. Getestet habe ich eines meiner Lieblings- und gleichzeitig schwierigsten Midjourney-Motive, einen feuerspeienden Drachen. Eingegeben habe ich folgenden Text in Chat GPT4 (alternativ sollte es auch in Microsoft Bing funktionieren):
Create a photo from a fire breathing dragon sitting on a pile of dirty gold in a lava cave
O.k., der zweite Versuch war ein Volltreffer, der erste Versuch ließ mich gleich einmal an der sehr restriktiven Politik von Dall-E3 scheitern mit dem Begriff “pile of bloody gold” und der Antwort “I apologize, but I was unable to generate images based on your request due to our content policy. Please provide a different description or let me know how I can assist you in another way.” 🤪
Der zweite oben genannte Versuch saß aber:
Ein Volltreffer war es für mich insbesondere darum, weil alle vier Drachen Feuer spucken. In Midjourney habe ich das seit Wochen immer mal wieder mit unterschiedlichen Prompts, Inpainting, Remix und was weiß ich versucht. Mit dem Ergebnis, dass von mehr als 30 Versuchen gerade mal ein Drache mehr oder weniger Feuer spuckt.
Der Start mit Dall-E3 war also schon einmal mehr als gut, aber es ging fast noch besser weiter. Tatsächlich ganz einfach per Dialog in Chat GPT habe ich das Bildformat ändernkönnen und ein bisschen Magie und sogar einen Babydrachen in das Bild gebracht (ich verzichte an der Stelle darauf, die Zwischenergebnisse zu zeigen, hier geht es erst einmal um das grundsätzliche Prinzip):
Make Dragon looking more angry and less colorful, add some coins all over the ground, some gold coins on the pile should twinkle, add more lava and some fire all over the cave, change to dark cinematic lighting
Make the dragon fire breathing as in the original image and add floating and glowing lava
The dragon should have red glowing eyes and please add a baby dragon, also breathing a bit of fire
Dragon should breathe more fire and the baby dragon at least a bit, otherwise stay as close to that last picture as possible
Ich habe also tatsächlich in sinnvollen Sätzen mit Chat GPT kommunizieren können ohne irgendeine Art von Prompting/ Prompt-Kenntnisse. Das einzige Problem war, dass die Bilder trotz nur einer winziger Änderung in der Vorgabe teilweise völlig unterschiedlich aussahen. Zwischen diesen beiden Bilder liegt nur das (s.o.):
Make Dragon looking more angry and less colorful, add some coins all over the ground, some gold coins on the pile should twinkle, add more lava and some fire all over the cave, change to dark cinematic lighting
Update: Mittlerweile kann man aber mit dem sogenannten ‘seed’ arbeiten.
Aber eigentlich will ich gar nicht das Drachenmotiv hier vorstellen. Daher nur noch kurz das finale Ergebnis:
und rechts der gleiche Versuch in Midjourney. In Bezug auf das Motiv ist das fast eine glatte 6.
Damit war es Zeit für einen richtigen Vergleich, heißt ein vorab klar definiertes Motiv mit dem Ziel, dieses in beiden Generatoren zu erstellen. Für solche Vergleiche nehme ich immer gerne eine Kombi aus realen und Fantasy-Motiven, um zum einen den Realismus wie auch das Umgehen mit Motiven zu testen, zu denen es weniger gezieltes Bildtrainingsmaterial gibt. In diesem Fall ist dies ein im Dschungel sitzender, Pizza essender, von Glühwürmchen umschwirrter Hase mit Zauberhut 🙂
Starten wir mit Dall-E3:
Please generate a photo of a rabbit which is eating a slice of salami pizza. Rabbit wears a magical hat. It sits during twilight in the rainy amazonian jungle with many orange glowing glowworms flying around.
Das Motiv war wie schon bei dem Drachen sehr genau umgesetzt. Also konnte ich mich gleich an das Finetuning setzen:
Love picture 1, please generate it again in wide landscape format and make it a bit more wide angle looking.
Grundsätzlich gefiel mir dieses Ergebnis schon sehr gut. Einzig ist es ein wenig unglaubwürdig, dass der Hase ein Stück Pizza in den Pfoten hält, die Pizza aber noch unberührt am Boden liegt:
Please zoom out a bit and the large pizza on the ground must miss at least one slice. Make the jungle more dense and the lighting more misty.
Hm, die Pizza ist immer noch unberührt und der Hase isst nun gar nicht mehr davon:
Pizza on the ground should be only a half one and rabbit should eat a slice of it.
Perfekt, jetzt passte es. Der Hase hat zwar eine etwas merkwürdige Position, die Gliedmaßen passen nicht wirklich und auch der Zauberhut sitzt irgendwie komisch – was bei allen Versionen vorher meist auch schon so war. Aber vom Grundmotiv her ist es sehr schön umgesetzt.
Es war also Zeit für Midjourney zu zeigen was es drauf hat. Begonnen habe ich mit diesem Prompt:
rabbit which wears a magical hat is eating a slice of salami pizza in the rainy dense amazonian jungle with many orange glowing glowworms flying around. Misty lighting, wide angle shot --ar 3:2 --style raw
Ui, was ist das denn. Die Lichtstimmung ist super, der Hase deutlich realistischer und mit viel mehr Details. Aber das Motiv? Pilzhut? Flying Pizza? Hübsch anzusehen, aber ein völliges Motivchaos.
UPDATE V6: Auch ein erster kurzer Test mit Midjourney V6 bringt kein besseres Ergebnis. Das Promptverständnis ist eigentlich deutlich besser als bei V5, aber ein Zauberhut scheint immer noch eine echte Herausforderung für Midjourney zu sein.
(Weiter wieder mit V5) Im nächsten Schritt habe ich mir das finale Dall-E3 Bild genommen und per /describe Befehl in Midjourney beschreiben lassen.
Spaßeshalber habe ich daraus erst einmal einen Prompt gebaut, den ich selbst so nie geschrieben hätte. Aber wer weiß:
a rabbit with a witch hat eating pizza in the forest, in the style of vray tracing, hyper-realistic animal illustrations, luminous and dreamlike scenes, rain and mist, surrealistic installations, junglepunk, lively illustrations --ar 3:2
Hm, Bild 2 kommt der Sache schon näher. Der Rest hätte was für eine Geschichte über eine Zauberwelt, liegt aber noch ziemlich weit neben dem gewünschten Motiv. Also wieder zurück zu einem simpleren Prompt:
a rabbit with a witch hat eating pizza in the dense jungle, glowworms flying around, rainy and misty atmosphere, wide angle shot --ar 3:2
Tja, irgendwie hat es immer noch viel von Zauberwelt. Mit dem /shorten Befehl habe ich mir daher einmal den Prompt analysieren lassen:
Eigentlich sind alle relevanten Begriffe berücksichtig. So komme ich nicht weiter. In einem nächsten Schritt habe ich daher dem Prompt noch das Dall-E3 Bild als Vorlage mitgegeben:
URL_DallE3_Bild a rabbit with a witch hat eating pizza in the dense jungle, glowworms flying around, rainy and misty atmosphere, wide angle shot --ar 3:2
Endlich kommen wir der Sache näher – auch wenn wir hier ja eigentlich mit der Vorgabe des Dall-E3 Bildes schon den reinen Midjourneypfad verlassen haben. Aber erst mal egal, Bild 2 sieht eigentlich ganz gut aus bzw. haben die anderen Bilder wieder das “Die Pizza liegt noch unberührt am Boden”-Problem sowie wurde aus den Glühwürmchen irgendwie Kerzen. Bild 2 habe ich mir daher vergrößern lassen und per Inpainting (Vary (Region) Funktion) die Kopf-/Ohrenregion mit folgendem Prompt durch einen Zauberhut ersetzt:
URL_DallE3_Bild blue wizard hat with white stars
Kann ich gelten lassen. Der Wald ist zwar mehr Wald denn Dschungel und Glühwürmchen hat es auch nicht. Aber Hut und Hase sind klasse.
Für eine weitere Verwendung müssten beide Ergebnisse noch ausgearbeitet werden. Für den Vergleich passt das aber so und bringt mich zu folgendem Fazit:
Dall-E3 hat ganz klar und eindeutig die Nase vorne beim Textverständnis und in der Bedienung. Es ist dafür aber deutlich restriktiver in den inhaltlichen Richtlinien, auch was lizenzkritische Motive betrifft.
Midjourney gewinnt in der Bildqualität, hat aber trotz vieler Funktionen und Parameter definitiv das Nachsehen im Promptverständnis.
Ich bin daher gespannt, ob Dall-E3 zuerst in der Qualität oder Midjourney im Textverständnis aufholt. Im Moment ist für mich die Kombination aus beiden Tools häufig das Mittel der Wahl.