Angekündigt auf der Google IO Konferenz im Mai 2024, ist Google Imagen 3 jetzt seit einigen Tagen öffentlich verfügbar. Google verspricht einiges:
- Größere Vielseitigkeit und schnelles Verständnis
- Höhere Bildqualität
- Bessere Textwiedergabe
Diese Versprechen beziehen sich auf den Vorgänger, der in unserem Google Imagen Test allerdings nicht besonders gut weggekommen ist. Ein guter Anlass für uns, um das neue Modell ausführlich unter die Lupe zu nehmen.
Inhalte
Hürdenlauf vor dem ersten Test
Bevor ich das Modell testen konnte, musste ich allerdings einige Hürden nehmen. Das Imagen 3 Modell lässt sich auf verschiedenen Wegen nutzen:
- Als Teil von Google Gemini
- Als Modul von Googles AI Test Kitchen
- oder per API
Imagen 3 über Google Gemini

In Gemini kann man Imagen 3 im Dialog nutzen, ähnlich wie Dall-E in ChatGPT. Die Funktion ist aber stark eingeschränkt, Bilder von Menschen lassen sich nur mit dem kostenpflichtigen Gemini Advanced Tarif generieren.
Generating images of people is only available in early access with Gemini Advanced.
Image FX in Google Test Kitchen
Die Alternative ist das Modul ImageFX aus Googles AI Test Kitchen, das aber offiziell noch nicht in Deutschland verfügbar ist. Diese Einschränkung lässt sich aber leicht durch ein VPN umgehen, ImageFX lässt sich auf diesem Wege sogar mit deutscher Bedienoberfläche aufrufen.

Die deutschsprachige Bedienung lockt den Tester aber direkt in die nächste Falle: Deutsche Prompts werden nicht angenommen, sondern mit dem allgemeinen Hinweis auf die FAQs blockiert. Dort findet sich dieser Absatz:
Um das Beste aus unseren Tools herauszuholen, empfehlen wir, die Prompts auf Englisch zu formulieren. Auch wenn unsere Modelle möglicherweise Prompts in anderen Sprachen verstehen, kann die Qualität der generierten Ausgabe je nach Sprache und Komplexität des Prompts variieren.
Alles klar, wir müssen auch bei Google auf Englisch prompten – Tipps dazu findet Ihr übrigens in unserem Prompt auf Deutsch Artikel.
Welche Motive sind möglich, was wird gesperrt?
Um weitere Frustration durch Fehlversuche zu vermeiden, haben wir erstmal Motive getestet, mit denen wir schon im ersten Test Probleme hatten.
- Lebende Prominente und Politiker wie
Donald Trump
,Dwayne The Rock Johnson
oderBenicio del Toro
werden nach wie vor geblockt. - Historische Persönlichkeiten wie
Cäsar
,Napoleon
oderAbraham Lincoln
werden ohne Probleme dargestellt.



Wie sieht es mit Bildern im Stil bestimmter Künstler aus? Da Caravaggio
beim letzten Test verweigert wurde, war mein erster Test ein neutraler Post (Madonna mit Kind) ohne Maler-Angabe.
Aber: Painting of Madonna with the Child
wird blockiert. Liegt es an der anderen Madonna (Madonna Louise Ciccone, Material Girl, La Isla Bonita, ihr wisst schon…)? OK, versuchen wir es mit Painting of St Mary with the Child
. Wird aber auch blockiert…
Des Rätsels Lösung: Keine Bilder von Kindern!
-
Boy and girl
zeigt zwar Teenager, aber… - … auch der Prompt
children playing in the garden
wird blockiert.
Und siehe da: Painting of St Mary by Caravaggio
funktioniert, ebenso modernere Künstler wie Egon Schiele. Auch bei lebenden Künstlern scheint es keinerlei Bedenken mehr zu geben – wenn auch der Annie Leibowitz Stil nicht zu erkennen ist:



Zwischenfazit bis hierhin: Es ist mühsam…
Nach dem Hürdenlauf bis zum ersten Bild ist der Test nicht einfacher geworden: Googles neue Technologie ist an allen Ecken und Enden mit Schutzmechanismen und Verboten vernagelt, die eine normale Nutzung enorm erschweren.
Google Imagen 3 auf der AI Imagelab Teststrecke
Um die Bildqualität zu testen, haben wir unsere Werkzeugkiste mit Standard-Prompts ausgepackt und sie mit Google Imagen 3 getestet. Was direkt auffällt, ist die geringe Bandbreite der Ergebnisse: Ähnliche Farben, identischer Bildaufbau, ähnlicher Stil.






Hände werden anatomisch einigermaßen korrekt dargestellt. Allerdings hat Imagen 3 – wie viele andere Generatoren – Probleme mit Zahlen. Vorgegeben waren drei Paar Hände, herausgekommen sind drei, vier und fünf Hände…



Das Business Portrait zeigt wieder: Keine Bandbreite. Dafür wirken die Bilder fotorealistisch und natürlich.



Das Ende unserer Prompt-Teststrecke bildet traditionell der Komplexität-Check beim Blauen Kaninchen:
wide angle photo of a rabbit with blue fur and a cowboy hat eating a slice of salami pizza on a beach of a mountain lake during sunset



Die Einzelaspekte werden gar nicht schlecht abgehakt, Imagen schafft es aber nicht, daraus ein stimmiges und fotorealistisches Gesamtbild zu bauen.
Text kann Imagen 3…
Um mal was positives zu sagen: Texte innerhalb von Bildern kann Imagen 3 sehr gut. Wie auch bei anderen Generatoren werden manchmal Buchstaben vergessen, verwürfelt oder verdoppelt, aber im Großen und Ganzen ist das sehr gut. Sogar deutsche Umlaute werden richtig dargestellt!
Bedienung
Innerhalb von Gemini funktioniert die Bilderstellung über das Imagen Modell ähnlich wie bei ChatGPT / Dall-E: Im Chat wird ein Bild beschrieben und entsprechend ausgegeben.
In der ImageFX Oberfläche hat man hingegen Elemente, wie man sie von anderen Generatoren kennt:
- Prompteingabe
- Einstellungen
- Darstellung des generierten Bilds im Grid oder als Großansicht.


Die Prompteingabe hat eine charmante Funktion: Hat man einen Prompt eingegeben und abgeschickt, analysiert die Google KI die Bestandteile und bietet zu einigen Elementen passende Alternativen an.
Ansonsten sind die Einstellungen in der Image FX Oberfläche sehr eingeschränkt:
- Die Auswahl des Modells ist zwar möglich – aber überflüssig, da sich nur Imagen 3 als „Beste Qualität“ auswählen lässt.
- Der Seed lässt sich sperren oder nicht – was aber als Einstellung irrelevant ist, da der Seed in einer Session immer identisch ist, wenn er nicht aktiv geändert wird.
Was hingegen komplett fehlt, sind Einstellungen, wie wir sie von Midjourney kennen und schätzen:
- Kein Seitenverhältnis – alle Bilder werden als Quadrat generiert (Hinweis: Per API geht das, mehr dazu unten)
- Keine Parameter wie Raw, Chaos, Stylize oder Weirdness – alle Bilder werden mit einer geringen kreativen Bandbreite generiert.
Inpainting mit Google Imagen 2 (nicht 3)
Bilder lassen sich in ImageFX auch per Inpainting nachbearbeiten, allerdings wird dafür das alte Imagen 2 Modell benutzt. Die Vorgehensweise ist wie von anderen Generatoren bekannt:
- Per Pinsel einen Bereich markieren
- Prompt für Inhalte des markierten Bereichs eingeben




Google Imagen 3 per API nutzen
Bis jetzt haben wir gezeigt, wie sich das Imagen 3 Modell über ImageFX nutzen lässt und kurz die Integration mit Google Gemini angesprochen.
Es lohnt sich jedoch für das bessere Verständnis, einen kurzen Blick auf den Zugang per API zu werfen, da sich hier zusätzliche Möglichkeiten öffnen. Als Parameter können verwendet werden:
prompt
ist selbsterklärend: Was soll im Bild dargestellt werden?negative_prompt
schließt bestimmte Aspekte aus einem Bild aus.number_of_images
bestimmt die Anzahl zu generierender Bilder.aspect_ratio
definiert das Seitenverhältnis, zulässige Werte sind"1:1"
,"3:4"
,"4:3"
,"9:16"
, and"16:9"
. Dies hebt die Beschränkung auf quadratische Formate in der Nutzung per ImageFX auf.safety_filter_level
legt in drei Stufen fest, wie restriktiv die Inhalte gefiltert werden sollen.person_generation
erlaubt es Imagen Bilder von Menschen zu generieren, zulässige Werte sind:"dont_allow"
blockiert die Generierung von Portraits."allow_adult"
erlaubt Bilder von Erwachsenen, aber nicht von Kindern.
Dies erklärt die Schwierigkeiten, die wir bei unseren ersten Prompt Versuchen hatten: Offensichtlich ist in ImageFX so eingestellt, dass zwar Personenen, aber keine Kinder dargestellt werden dürfen.
Fazit Google Imagen 3
Wenn Google ein neues KI Modell für Bilder vorstellt, schauen wir natürlich genau hin und rechnen mit echter Konkurrenz. Aber auch für Version 3 müssen wir klar urteilen:
Google Imagen ist kein Konkurrent für Midjourney, Flux oder Stable Diffusion, sondern spielt in der Klasse von Dall-E.
Die Bedienung ist eher sperrig, speziell für deutsche Kunden, die erst nach einem Hindernislauf erste Bilder generieren können. Auch die guten Fähigkeiten beim Generieren von Texten oder nette Gimmicks in der Bedienung können das Urteil nicht entscheidend verbessern.
Wir werden Google Imagen 3 natürlich weiterhin auf dem Radar behalten, in der aktuellen Version sehen wir aber noch keine Konkurrenz für die Marktführer Midjourney und Flux.
FAQ
Was kostet Google Imagen 3?
Über Google Gemini kann man Imagen 3 kostenlos nutzen, allerdings nur mit eingeschränkter Funktionalität. Über Googles AI Test Kitchen und das Module ImageFX kann man alle Bilder kostenlos generieren, über eine API stehen noch mehr Funktionen zur Verfügung.
Wie kann ich aus Deutschland auf Google Imagen 3 zugreifen?
Aktuell (Oktober 2024) ist ImageFX noch nicht für den deutschen Markt verfügbar. Durch ein VPN lässt sich die Sperre aber umgehen.
[…] Google Imagen 3: Konkurrenz für Midjourney und Flux? […]
Also ich hab jetzt einige Tage mit Imagen 3 gespielt, die Interpretation des Prompting ist nach meinem Empfinden etwas besser als Midjourney, irgendwie wollen die gleichen Prompts besser gelingen.
Was habt ihr für Erfahrungen gemacht?
Bisher noch keine, aber danke für die Anregung!
Im Oktober waren die Ergebnisse ziemlich mau – und auf keinen Fall auf Midjourney Niveau. Aber ich gucke mir das in den nächsten Tagen nochmal an.
Mich wunderts sowieso immer, wie ihr Euer Pensum bei der Aktualität überhaupt noch schafft 😉
Aber wie sagte Adrian letztens: „24/7“