Update 23. Februar 2024: Aktuell ist die Bilderstellung in Google Gemini deaktiviert.
Update 15. Oktober 2024: Bilder lassen sich wieder mit Google Gemini generieren, hier haben wir getestet, wie man mit Google Imagen 3 KI Bilder generiert.
Dass der IT Riese Google das Thema KI nicht OpenAI überlässt war klar – mit Google Bard bemüht man sich um Anschluss. Google Bard ist letzte Woche in Google Gemini umbenannt worden, ist jetzt auch für deutsche User zugänglich – und kann KI Bilder generieren!
Googles großer Konkurrent ist OpenAIs ChatGPT. Dieser hat den Zugriff auf seinen KI-Bildgenerator Dall·E 3 in ChatGPT integriert (entweder direkt oder auch über den Microsoft Copilot), so dass man die Bilder-Prompts im Dialog entwickeln und umsetzen lassen kann.
Genau dieses einfache Prompting bietet auch Google Gemini an. Allerdings sind davon im Moment noch deutsche User ausgeschlossen. Die Sperre ist aber einfach durch ein VPN zu umgehen, das Google vorspiegelt, wir würden aus den USA zugreifen – und schon ist Gemini bereit, auch Bilder für uns zu generieren.

Inhalte
Um zu beurteilen, was Gemini als KI Bildgenerator leistet, haben wir einen Standardset von Prompts rausgeholt, der eine gewisse Bandbreite abdeckt und haben Bard damit beauftragt. Generiert werden – und zwar ziemlich flott – JPEG Dateien in 1536 x 1536 Pixeln. Anscheinend sind nur quadratische Bilder möglich, auf die Bitte ein Querformat oder ein anderes Seitenverhältnis kommt es zu einem KI-typischen Dialog – aber letztendlich wieder zu eine quadratischen Bild.
Photorealismus mit Google Gemini: Diverse Cowboys, alte Fischer und die erschöpfte Frau
Den Start macht mein Standard-Prompt:
old cowboy, standing in a western town
Das Ergebnis zeigt vor allem, dass Google es mit Diversität ernst nimmt: Wer nur „alte weiße Männer“ erwartet hat, bekommt auch ein Frau und zwei Männer mit asiatischen und schwarzen Gesichtszügen.



Die Bilder wirken eher gemalt, daher habe ich Gemini gebeten, es doch photorealistisch zu machen:
please make it photorealistic
Das Ergebnis hat sich leider nicht geändert – die photorealistische Darstellung klappt hier jedenfalls nicht:



Wie sieht es mit Einstellungen aus? Ich hätte gerne die Cowboys in Ganzkörper-Darstellung:
please make it a full body shot
OK, der Bildwinkel wird weiter, aber „full body“ ist das definitiv nicht.



Die Schwarzweiß-Bilder des Fischers und seiner Frau sind schon wesentlich realistischer gelungen, wenn sie auch im Detail (Barthaare des indischen Fischers) schwächeln:
create an image of an old fisherman, close-up, photorealistic image, black & white



create an image of an old fisherman and his wife, standing in front of their old house, close-up, photorealistic image, black & white



Letzter Test ist die erschöpfte Frau:
create an image of an exhausted woman, 40 years old, photorealistic
Das funktioniert erstmal sehr gut, bis hin zur verlaufenen Schminke. Allerdings sehen sich die Motive sehr ähnlich.



Einmal schwarzweß bitte!
can you make this in black & white?



Was nicht mehr funktioniert: Änderung des Bildausschnitts:
can you zoom out from the first image?



Künstler-Stile mit Google Gemini
Kommen wir zur nächsten Disziplin: Lassen sich über Gemini Bilder im Stile berühmter Künstler generieren?
Kurze Antwort: Nein.
Weder an den Stil von Egon Schiele noch Edgar Degas traut sich die KI, die stereotype Antwort lautet:
I can't generate images of that. Try asking me to generate images of something else.
Beide Künstler sind seit über 100 Jahren tot, so dass jegliches Urheberrecht erloschen ist, aber zur Sicherheit teste ich noch Caravaggio (gestorben 1610) – auch hier verweigert Gemini die Kooperation.
Und Promis? Auch nicht…
Dass Prominente wie Donald Trump oder Mark Zuckerberg nicht dargestellt werden, ist eher nachvollziehbar. Entsprechende Anfragen werden auch ausführlicher abgelehnt:
I am unable to generate an image of Mark Zuckerberg due to company policy. It is against our policy to generate images of people as it can be used for harmful purposes like creating deepfakes or spreading misinformation. I apologize for any inconvenience this may cause.
Hände kann Google Gemini…
Die korrekte Darstellung der menschlichen Anatomie, speziell von Händen ist immer eine Herausforderung – die von Google Gemini im Großen und Ganzen gut gemeistert wird. Das Prompt ist minimal:
create an image of folded hands



Das erste Bild sieht auf den ersten Blick sehr gut aus, bei genauerer Betrachtung geht es etwas durcheinander…–
… Seitenverhältnisse aber nicht
Meine Bitte nach einem Hochformat oder einem spzielle Seitenverhältnis wurde zwar freundlich zugesagt – aber dann komplett ignoriert:
Can you make it a landscape format?
Can you make these in aspect ration 16:9?
Komplexe Motive: Das blaue Kaninchen…
Zum Schluss kam Adrians ultimativer Test-Prompt dran, der jede KI darauf testet, inwieweit sie in der Lage ist, viele, komplexe und widersprüchliche Vorgaben in ein sinnvolles Bild zu verwandeln:
create an image of wide angle photo of a blue rabbit eating a slice of salami pizza on a beach of a mountain lake during sunset
Hier reißt Google Gemini das bislang bescheidene Gesamtbild noch etwas raus, alle Einzelaspekte werden berücksichtigt und zu einem kohärenten Bild zusammengefügt:




Zusammenfassung Google Gemini
Bis Google ein paar Entwicklungsstufen weiter ist, kann man Google Gemini getrost ignorieren. Es werden zwar sinnvolle Motive generiert, dabei aber viele Vorgaben – Ausschnitt, Seitenverhältnis, Photorealismus – ignoriert. Hinzu kommen die gesperrten Prompts für Promis (nachvollziehbar) und Künstler (nicht nachvollziehbar).
Ein Plus: Google Gemini ist kostenlos, einen Google Account vorausgesetzt. Um als Deutscher Bilder zu generieren, muss man wiederum einen VPN Zugriff haben, der in der Regel auch Kosten verursacht.
Von der Bildqualität von Midjourney und Stable Diffusion ist Google Gemini weit entfernt, sondern am ehesten mit Dall·E 3 in der Kombination mit ChatGPT vergleichbar – die aber von der Dialog-Fähigkeit meines Erachtens deutlich vor Gemini liegen.