OpenAI, die Firma hinter ChatGPT, Dall-E u.v.a.m. hat das ChatGPT Modell 4o um beeindruckende Fähigkeiten erweitert, um ohne tiefere Kenntnisse KI Bilder zu erzeugen. Als multimodales Modell ist ChatGPT 4o in der Lage, Kombinationen als Text und Bild sowohl als Eingabe zu verarbeiten als auch verschiedene Medien-Typen auszugeben. Und dies ohne aufwändiges Prompting, sondern – wie von ChatGPT gewöhnt – im Dialog mit der KI.
Außerdem kann das Modell auf „Weltwissen“ zugreifen und muss nicht in jedem Detail angeleitet werden. Als Beispiel wird in der Demo Newtons Prisma-Experiment präsentiert, das als Grafik fehlerfrei generiert wird – ohne dass es im Detail beschrieben werden musste.
Interaktion per Text (und Minimal-Editor)
Wie von ChatGPT gewöhnt, erfolgen die Eingaben komplett per Text und können das Ergebnis schrittweise weiter bearbeiten. Aus einer ersten Bildvariante (oder einem hochgeladenen Bild) kann Schritt für Schritt ein finales Bild entstehen – ohne dass man auf einen Editor zurückgreifen muss.
Das Dialog Interface funktioniert also ähnlich wie Google Gemini 2.0 Flash, das wir euch gerade vorgestellt haben. Wenn man mit einem Bildergebnis nicht zufrieden ist, lässt es sich schrittweise weiter bearbeiten:
- Elemente hinzufügen oder entfernen
- Stil, Seitenverhältnis oder Perspektive verändern
- Struktur belassen und neu gestalten
Text-Umsetzung mit GPT 4o: Fantastisch!
Wie das neue Modelll Texte in Bilder umsetzt ist schlicht spektakulär: Selbst längere Texte in komplexen Zusammenhängen werden fast fehlerfrei und organisch in die Bilder eingebaut, egal ob auf Büro-Whiteboards, Kühlschrank-Magneten oder Verkehrsschildern.


Auch komplette Comic Strips, mathematische Formeln. Speisekarten oder Einladungen können so generiert (und korrigiert) werden. Beispiel Eis-Café:
Erstelle mir eine Speisekarte für ein italienisches Eis-Cafe mit dem Namen "Piazotto", das die beliebtesten Eisgerichte mit Bild darstellt.
Auf dieses Prompt stellte ChatGPT im ersten Schritt eine Liste mit Eisbechern zusammen und baute nach Bestätigung eine erste Speisekarte, die nach kurzem Hinweis Spaghetti-Eis und Banana-Spilt zuordnete


Man muss sich dabei nicht auf Text-Eingaben verlassen: GPT 4o bring auch einen rudimentären Editor mit, der es erlaubt, Bereich im Bild zu markieren. Als Beispiel habe ich aus unserem Logo erst ein Neon-Zeichen machen lassen, das dann auf einem Dach installiert wurde. Was blieb, war eine störende Hand:






Wie das neue Google Modell funktioniert ChatGPT 4o auch mit Bildvorlagen: Man kann ein oder mehrere Bilder hochladen und sie als Vorlage in die Anweisungen integrieren:
- „Diese Person in das Bild integrieren“
- „Grafik in diesem Stil umsetzen“
Ich habe mein Büro mal aufräumen und umgestalten lassen:



Fotorealistische Bilder: Ciao Dall-E…
Fotorealistische Bilder machen auch einen großen Sprung – sie bewegen sich noch nicht ganz auf dem Niveau von Midjourney, sind aber Größenordnungen besser als der Vorgänger Dall-E 3!





ChatGPT 4o versteht die Welt – sogar volle Weingläser
Wie eingangs erwähnt, ist ein entscheidender Vorteil von ChatGPT 4o, dass es kein reines KI-Bild Modell ist (wie Midjourney), sondern ein multimodales Modell, das nicht nur mit Text oder Bild umgehen kann, sondern beides kombinieren kann – sowohl in der Eingabe als auch in der Ausgabe.
Hinzu kommt das Wissen über Zusammenhänge und allgemein bekanntes Wissen. Dadurch ist GPT4o auch in der Lage, Bilder zu abstrahieren, mit denen das Modell nicht trainiert wurde, z.B. Weingläser, die wirklich bis zum Rand gefüllt sein sollen:



Meine Prognose: ChatGPT 4o wird das neue KI Bild Tool für den Normalverbraucher
Auch wenn es noch relativ lange dauert, um einzelne Bilder zu generieren: Die Bildqualität stimmt und hat gegenüber Dall-E 3 einen riesigen Sprung gemacht – und die Darstellung von Text im Bild ist extrem gut. Wie bisher ist keinerlei Erfahrung in Prompting und Bildbearbeitung erforderlich, um gute Bilder hinzubekommen, da alles interaktiv per Text-Prompt eingegeben wird – optional durch Bild-Uploads und den rudimentären Editor ergänzt.
Ein weiterer Vorteil: Bei der Arbeit mit ChatGPT 4o kann man „Weltwissen“ voraussetzen. Nicht jedes Bilddetail muss im Prompt definiert werden, sondern Kontext kann vorausgesetzt werden.
Schaut man sich zusätzlich noch an, wie verbreitet ChatGPT schon in der Anwendung ist, werden die neuen Anwendungen das Wachstum und die Dominanz von ChatGPT nochmal beschleunigen. Spätestens wenn OpenAI die neuen Funktionen per API freischaltet, werden zusätzliche Anwendungen entstehen.
GPT4o im Vergleich zu Midjourney & Co.
Sollen wir dich informieren, wenn es neue Entwicklungen und Anwendungen rund um ChatGPT, Midjourney und KI Video gibt?
Abonniere unseren kostenlosen Newsletter – wir schicken dir dann jede Woche topaktuelle News!