Donnerstag, März 27, 2025
StartAnwendungenGoogle Imagen 3: Konkurrenz für Midjourney und Flux?

Google Imagen 3: Konkurrenz für Midjourney und Flux?

Angekündigt auf der Google IO Konferenz im Mai 2024, ist Google Imagen 3 jetzt seit einigen Tagen öffentlich verfügbar. Google verspricht einiges:

  • Größere Vielseitigkeit und schnelles Verständnis
  • Höhere Bildqualität
  • Bessere Textwiedergabe

Diese Versprechen beziehen sich auf den Vorgänger, der in unserem Google Imagen Test allerdings nicht besonders gut weggekommen ist. Ein guter Anlass für uns, um das neue Modell ausführlich unter die Lupe zu nehmen.

Hürdenlauf vor dem ersten Test

Bevor ich das Modell testen konnte, musste ich allerdings einige Hürden nehmen. Das Imagen 3 Modell lässt sich auf verschiedenen Wegen nutzen:

  1. Als Teil von Google Gemini
  2. Als Modul von Googles AI Test Kitchen
  3. oder per API

Imagen 3 über Google Gemini

In Gemini kann man Imagen 3 im Dialog nutzen, ähnlich wie Dall-E in ChatGPT. Die Funktion ist aber stark eingeschränkt, Bilder von Menschen lassen sich nur mit dem kostenpflichtigen Gemini Advanced Tarif generieren.

Generating images of people is only available in early access with Gemini Advanced.

Image FX in Google Test Kitchen

Die Alternative ist das Modul ImageFX aus Googles AI Test Kitchen, das aber offiziell noch nicht in Deutschland verfügbar ist. Diese Einschränkung lässt sich aber leicht durch ein VPN umgehen, ImageFX lässt sich auf diesem Wege sogar mit deutscher Bedienoberfläche aufrufen.

Google Imagen 3 Oberfläche in ImageFX
Google Imagen 3 Oberfläche in ImageFX

Die deutschsprachige Bedienung lockt den Tester aber direkt in die nächste Falle: Deutsche Prompts werden nicht angenommen, sondern mit dem allgemeinen Hinweis auf die FAQs blockiert. Dort findet sich dieser Absatz:

Um das Beste aus unseren Tools herauszuholen, empfehlen wir, die Prompts auf Englisch zu formulieren. Auch wenn unsere Modelle möglicherweise Prompts in anderen Sprachen verstehen, kann die Qualität der generierten Ausgabe je nach Sprache und Komplexität des Prompts variieren.

Alles klar, wir müssen auch bei Google auf Englisch prompten – Tipps dazu findet Ihr übrigens in unserem Prompt auf Deutsch Artikel.

Welche Motive sind möglich, was wird gesperrt?

Um weitere Frustration durch Fehlversuche zu vermeiden, haben wir erstmal Motive getestet, mit denen wir schon im ersten Test Probleme hatten.

  • Lebende Prominente und Politiker wie Donald Trump, Dwayne The Rock Johnson oder Benicio del Toro werden nach wie vor geblockt.
  • Historische Persönlichkeiten wie Cäsar, Napoleon oder Abraham Lincoln werden ohne Probleme dargestellt.

Wie sieht es mit Bildern im Stil bestimmter Künstler aus? Da Caravaggio beim letzten Test verweigert wurde, war mein erster Test ein neutraler Post (Madonna mit Kind) ohne Maler-Angabe.

Aber: Painting of Madonna with the Child wird blockiert. Liegt es an der anderen Madonna (Madonna Louise Ciccone, Material Girl, La Isla Bonita, ihr wisst schon…)? OK, versuchen wir es mit Painting of St Mary with the Child. Wird aber auch blockiert…

Des Rätsels Lösung: Keine Bilder von Kindern!

  • Boy and girl zeigt zwar Teenager, aber…
  • … auch der Prompt children playing in the garden wird blockiert.

Und siehe da: Painting of St Mary by Caravaggio funktioniert, ebenso modernere Künstler wie Egon Schiele. Auch bei lebenden Künstlern scheint es keinerlei Bedenken mehr zu geben – wenn auch der Annie Leibowitz Stil nicht zu erkennen ist:

Zwischenfazit bis hierhin: Es ist mühsam…

Nach dem Hürdenlauf bis zum ersten Bild ist der Test nicht einfacher geworden: Googles neue Technologie ist an allen Ecken und Enden mit Schutzmechanismen und Verboten vernagelt, die eine normale Nutzung enorm erschweren.

Google Imagen 3 auf der AI Imagelab Teststrecke

Um die Bildqualität zu testen, haben wir unsere Werkzeugkiste mit Standard-Prompts ausgepackt und sie mit Google Imagen 3 getestet. Was direkt auffällt, ist die geringe Bandbreite der Ergebnisse: Ähnliche Farben, identischer Bildaufbau, ähnlicher Stil.

Hände werden anatomisch einigermaßen korrekt dargestellt. Allerdings hat Imagen 3 – wie viele andere Generatoren – Probleme mit Zahlen. Vorgegeben waren drei Paar Hände, herausgekommen sind drei, vier und fünf Hände…

Das Business Portrait zeigt wieder: Keine Bandbreite. Dafür wirken die Bilder fotorealistisch und natürlich.

Das Ende unserer Prompt-Teststrecke bildet traditionell der Komplexität-Check beim Blauen Kaninchen:

wide angle photo of a rabbit with blue fur and a cowboy hat eating a slice of salami pizza on a beach of a mountain lake during sunset

Die Einzelaspekte werden gar nicht schlecht abgehakt, Imagen schafft es aber nicht, daraus ein stimmiges und fotorealistisches Gesamtbild zu bauen.

Text kann Imagen 3…

Um mal was positives zu sagen: Texte innerhalb von Bildern kann Imagen 3 sehr gut. Wie auch bei anderen Generatoren werden manchmal Buchstaben vergessen, verwürfelt oder verdoppelt, aber im Großen und Ganzen ist das sehr gut. Sogar deutsche Umlaute werden richtig dargestellt!

Bedienung

Innerhalb von Gemini funktioniert die Bilderstellung über das Imagen Modell ähnlich wie bei ChatGPT / Dall-E: Im Chat wird ein Bild beschrieben und entsprechend ausgegeben.

In der ImageFX Oberfläche hat man hingegen Elemente, wie man sie von anderen Generatoren kennt:

  • Prompteingabe
  • Einstellungen
  • Darstellung des generierten Bilds im Grid oder als Großansicht.

Die Prompteingabe hat eine charmante Funktion: Hat man einen Prompt eingegeben und abgeschickt, analysiert die Google KI die Bestandteile und bietet zu einigen Elementen passende Alternativen an.

Ansonsten sind die Einstellungen in der Image FX Oberfläche sehr eingeschränkt:

  • Die Auswahl des Modells ist zwar möglich – aber überflüssig, da sich nur Imagen 3 als „Beste Qualität“ auswählen lässt.
  • Der Seed lässt sich sperren oder nicht – was aber als Einstellung irrelevant ist, da der Seed in einer Session immer identisch ist, wenn er nicht aktiv geändert wird.

Was hingegen komplett fehlt, sind Einstellungen, wie wir sie von Midjourney kennen und schätzen:

  • Kein Seitenverhältnis – alle Bilder werden als Quadrat generiert (Hinweis: Per API geht das, mehr dazu unten)
  • Keine Parameter wie Raw, Chaos, Stylize oder Weirdness – alle Bilder werden mit einer geringen kreativen Bandbreite generiert.

Inpainting mit Google Imagen 2 (nicht 3)

Bilder lassen sich in ImageFX auch per Inpainting nachbearbeiten, allerdings wird dafür das alte Imagen 2 Modell benutzt. Die Vorgehensweise ist wie von anderen Generatoren bekannt:

  • Per Pinsel einen Bereich markieren
  • Prompt für Inhalte des markierten Bereichs eingeben

Google Imagen 3 per API nutzen

Bis jetzt haben wir gezeigt, wie sich das Imagen 3 Modell über ImageFX nutzen lässt und kurz die Integration mit Google Gemini angesprochen.

Es lohnt sich jedoch für das bessere Verständnis, einen kurzen Blick auf den Zugang per API zu werfen, da sich hier zusätzliche Möglichkeiten öffnen. Als Parameter können verwendet werden:

  • prompt ist selbsterklärend: Was soll im Bild dargestellt werden?
  • negative_prompt schließt bestimmte Aspekte aus einem Bild aus.
  • number_of_images bestimmt die Anzahl zu generierender Bilder.
  • aspect_ratio definiert das Seitenverhältnis, zulässige Werte sind "1:1", "3:4", "4:3", "9:16", and "16:9" . Dies hebt die Beschränkung auf quadratische Formate in der Nutzung per ImageFX auf.
  • safety_filter_level legt in drei Stufen fest, wie restriktiv die Inhalte gefiltert werden sollen.
  • person_generation erlaubt es Imagen Bilder von Menschen zu generieren, zulässige Werte sind:
    • "dont_allow" blockiert die Generierung von Portraits.
    • "allow_adult" erlaubt Bilder von Erwachsenen, aber nicht von Kindern.

Dies erklärt die Schwierigkeiten, die wir bei unseren ersten Prompt Versuchen hatten: Offensichtlich ist in ImageFX so eingestellt, dass zwar Personenen, aber keine Kinder dargestellt werden dürfen.

Fazit Google Imagen 3

Wenn Google ein neues KI Modell für Bilder vorstellt, schauen wir natürlich genau hin und rechnen mit echter Konkurrenz. Aber auch für Version 3 müssen wir klar urteilen:

Google Imagen ist kein Konkurrent für Midjourney, Flux oder Stable Diffusion, sondern spielt in der Klasse von Dall-E.

Die Bedienung ist eher sperrig, speziell für deutsche Kunden, die erst nach einem Hindernislauf erste Bilder generieren können. Auch die guten Fähigkeiten beim Generieren von Texten oder nette Gimmicks in der Bedienung können das Urteil nicht entscheidend verbessern.

Wir werden Google Imagen 3 natürlich weiterhin auf dem Radar behalten, in der aktuellen Version sehen wir aber noch keine Konkurrenz für die Marktführer Midjourney und Flux.

FAQ

Was kostet Google Imagen 3?

Über Google Gemini kann man Imagen 3 kostenlos nutzen, allerdings nur mit eingeschränkter Funktionalität. Über Googles AI Test Kitchen und das Module ImageFX kann man alle Bilder kostenlos generieren, über eine API stehen noch mehr Funktionen zur Verfügung.

Wie kann ich aus Deutschland auf Google Imagen 3 zugreifen?

Aktuell (Oktober 2024) ist ImageFX noch nicht für den deutschen Markt verfügbar. Durch ein VPN lässt sich die Sperre aber umgehen.

Andreas Jürgensen
Andreas Jürgensenhttps://www.ai-imagelab.de
Andreas ist Jahrgang 1966, in Schleswig-Holstein aufgewachsen und mittlerweile gut assimilierter Rheinländer – seit er zum Studium als Fotoingenieur nach Köln zog. Seit über 20 Jahren betreibt er zahlreiche Diskussionsforen rund um diverse Fotomarken.
RELATED ARTICLES

4 Kommentare

  1. Also ich hab jetzt einige Tage mit Imagen 3 gespielt, die Interpretation des Prompting ist nach meinem Empfinden etwas besser als Midjourney, irgendwie wollen die gleichen Prompts besser gelingen.

    Was habt ihr für Erfahrungen gemacht?

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Aktuell beliebt