Zum Inhalt springen

Empfohlene Beiträge

Geschrieben

Bisher habe ich hauptsächlich mit dem KI-Bildgenerator Midjourney gearbeitet. Aus meiner Sicht bot dieser bis dato die beste Bildqualität und den größten Umfang an Tools. Daneben war Leonardo.ai noch wirklich gut, Adobe Firefly sowie Dall-E2 jedoch eher ‘naja’ bis ‘nein danke’.

Mit dem Versprechen von OpenAI's Dall-E3, per Dialog und nicht mehr per reinem Prompting Bilder generieren zu können bin ich aber noch einmal neugierig geworden. Das musste ich natürlich ausprobieren.

Und was soll ich sagen, gleich der erste Versuch war ein Volltreffer. Getestet habe ich eines meiner Lieblings- und gleichzeitig schwierigsten Midjourney-Motive, einen feuerspeienden Drachen. Eingegeben habe ich folgenden Text in Chat GPT4 (alternativ sollte es auch in Microsoft Bing funktionieren):

“Create a photo from a fire breathing dragon sitting on a pile of dirty gold in a lava cave”

O.k., der zweite Versuch war ein Volltreffer, der erste Versuch ließ mich gleich einmal an der sehr restriktiven Politik von Dall-E3 scheitern mit dem Begriff “pile of bloody gold” und der Antwort “I apologize, but I was unable to generate images based on your request due to our content policy. Please provide a different description or let me know how I can assist you in another way.” 🤪

Der zweite oben genannte Versuch saß aber:

image.jpeg
 

Ein Volltreffer war es für mich insbesondere darum, weil alle vier Drachen Feuer spucken. In Midjourney habe ich das seit Wochen immer mal wieder mit unterschiedlichen Prompts, Inpainting, Remix und was weiß ich versucht. Mit dem Ergebnis, dass von mehr als 30 Versuchen gerade mal ein Drache mehr oder weniger Feuer spuckt.

Der Start mit Dall-E3 war also schon einmal mehr als gut, aber es ging fast noch besser weiter. Tatsächlich ganz einfach per Dialog in Chat GPT habe ich das Bildformat ändern können und ein bisschen Magie und sogar einen Babydrachen in das Bild gebracht (ich verzichte an der Stelle darauf, die Zwischenergebnisse zu zeigen, hier geht es erst einmal um das grundsätzliche Prinzip):

“Make Dragon looking more angry and less colorful, add some coins all over the ground, some gold coins on the pile should twinkle, add more lava and some fire all over the cave, change to dark cinematic lighting”

“Make the dragon fire breathing as in the original image and add floating and glowing lava”

“The dragon should have red glowing eyes and please add a baby dragon, also breathing a bit of fire”

“Dragon should breathe more fire and the baby dragon at least a bit, otherwise stay as close to that last picture as possible”

Ich habe also tatsächlich in sinnvollen Sätzen mit Chat GPT kommunizieren können ohne irgendeine Art von Prompting/ Prompt-Kenntnisse. Das einzige Problem war, dass die Bilder trotz nur einer winziger Änderung in der Vorgabe teilweise völlig unterschiedlich aussahen. Zwischen diesen beiden Bilder liegt nur das (s.o.):

“Make Dragon looking more angry and less colorful, add some coins all over the ground, some gold coins on the pile should twinkle, add more lava and some fire all over the cave, change to dark cinematic lighting”

image.jpeg
image.jpeg

Update: Mittlerweile kann man aber mit dem sogenannten ‘seed’ arbeiten.

Aber eigentlich will ich gar nicht das Drachenmotiv hier vorstellen. Daher nur noch kurz das finale Ergebnis:

image.jpeg
image.jpeg

und rechts der gleiche Versuch in Midjourney. In Bezug auf das Motiv ist das fast eine glatte 6.

Damit war es Zeit für einen richtigen Vergleich, heißt ein vorab klar definiertes Motiv mit dem Ziel, dieses in beiden Generatoren zu erstellen. Für solche Vergleiche nehme ich immer gerne eine Kombi aus realen und Fantasy-Motiven, um zum einen den Realismus wie auch das Umgehen mit Motiven zu testen, zu denen es weniger gezieltes Bildtrainingsmaterial gibt. In diesem Fall ist dies ein im Dschungel sitzender, Pizza essender, von Glühwürmchen umschwirrter Hase mit Zauberhut 🙂

Starten wir mit Dall-E3:

“Please generate a photo of a rabbit which is eating a slice of salami pizza. Rabbit wears a magical hat. It sits during twilight in the rainy amazonian jungle with many orange glowing glowworms flying around.”

image.jpeg
 

Das Motiv war wie schon bei dem Drachen sehr genau umgesetzt. Also konnte ich mich gleich an das Finetuning setzen:

“Love picture 1, please generate it again in wide landscape format and make it a bit more wide angle looking.”

image.jpeg
 

Grundsätzlich gefiel mir dieses Ergebnis schon sehr gut. Einzig ist es ein wenig unglaubwürdig, dass der Hase ein Stück Pizza in den Pfoten hält, die Pizza aber noch unberührt am Boden liegt:

“Please zoom out a bit and the large pizza on the ground must miss at least one slice. Make the jungle more dense and the lighting more misty.”

image.jpeg
 

Hm, die Pizza ist immer noch unberührt und der Hase isst nun gar nicht mehr davon:

“Pizza on the ground should be only a half one and rabbit should eat a slice of it.”

image.jpeg
 

Perfekt, jetzt passte es. Der Hase hat zwar eine etwas merkwürdige Position, die Gliedmaßen passen nicht wirklich und auch der Zauberhut sitzt irgendwie komisch - was bei allen Versionen vorher meist auch schon so war. Aber vom Grundmotiv her ist es sehr schön umgesetzt.

Es war also Zeit für Midjourney zu zeigen was es drauf hat:

“rabbit which wears a magical hat is eating a slice of salami pizza in the rainy dense amazonian jungle with many orange glowing glowworms flying around. Misty lighting, wide angle shot --ar 3:2 --style raw”

image.jpeg

Ui, was ist das denn. Die Lichtstimmung ist super, der Hase deutlich realistischer und mit viel mehr Details. Aber das Motiv? Pilzhut? Flying Pizza? Hübsch anzusehen, aber ein völliges Motivchaos.

Im nächsten Schritt habe ich mir das finale Dall-E3 Bild genommen und per /describe Befehl in Midjourney beschreiben lassen.

image.jpeg
 

Spaßeshalber habe ich daraus erst einmal einen Prompt gebaut, den ich selbst so nie geschrieben hätte. Aber wer weiß:

“a rabbit with a witch hat eating pizza in the forest, in the style of vray tracing, hyper-realistic animal illustrations, luminous and dreamlike scenes, rain and mist, surrealistic installations, junglepunk, lively illustrations --ar 3:2 ”

image.jpeg
 

Hm, Bild 2 kommt der Sache schon näher. Der Rest hätte was für eine Geschichte über eine Zauberwelt, liegt aber noch ziemlich weit neben dem gewünschten Motiv. Also wieder zurück zu einem simpleren Prompt:

“a rabbit with a witch hat eating pizza in the dense jungle, glowworms flying around, rainy and misty atmosphere, wide angle shot --ar 3:2”

image.jpeg
 

Tja, irgendwie hat es immer noch viel von Zauberwelt. Mit dem /shorten Befehl habe ich mir daher einmal den Prompt analysieren lassen:

image.jpeg
 

Eigentlich sind alle relevanten Begriffe berücksichtig. So komme ich nicht weiter. In einem nächsten Schritt habe ich daher dem Prompt noch das Dall-E3 Bild als Vorlage mitgegeben:

“URL_DallE3_Bild a rabbit with a witch hat eating pizza in the dense jungle, glowworms flying around, rainy and misty atmosphere, wide angle shot --ar 3:2”

image.jpeg
 

Endlich kommen wir der Sache näher - auch wenn wir hier ja eigentlich mit der Vorgabe des Dall-E3 Bildes schon den reinen Midjourneypfad verlassen haben. Aber erst mal egal, Bild 2 sieht eigentlich ganz gut aus bzw. haben die anderen Bilder wieder das “Die Pizza liegt noch unberührt am Boden”-Problem sowie wurde aus den Glühwürmchen irgendwie Kerzen. Bild 2 habe ich mir daher vergrößern lassen und per Inpainting (Vary (Region) Funktion) die Kopf-/Ohrenregion mit folgendem Prompt durch einen Zauberhut ersetzt:

“URL_DallE3_Bild blue wizard hat with white stars”

image.jpeg
 

Kann ich gelten lassen. Der Wald ist zwar mehr Wald denn Dschungel und Glühwürmchen hat es auch nicht. Aber Hut und Hase sind klasse.

Für eine weitere Verwendung müssten beide Ergebnisse noch ausgearbeitet werden. Für den Vergleich passt das aber so und bringt mich zu folgendem Fazit:

Dall-E3 hat ganz klar und eindeutig die Nase vorne beim Textverständnis und in der Bedienung. Es ist dafür aber deutlich restriktiver in den inhaltlichen Richtlinien, auch was lizenzkritische Motive betrifft.

Midjourney gewinnt eindeutig in der Bildqualität, hat aber trotz vieler Funktionen und Parameter definitiv das Nachsehen im Promptverständnis.

image.jpeg

 

image.jpeg

Ich bin daher gespannt, ob Dall-E3 zuerst in der Qualität oder Midjourney im Textverständnis aufholt. Im Moment ist für mich die Kombination aus beiden Tools häufig das Mittel der Wahl.

 

Dein Kommentar

Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.
Hinweis: Dein Beitrag muss vom Moderator freigeschaltet werden, bevor er sichtbar wird.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Nur 75 Emojis sind erlaubt.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...