Neulich in einem meiner KI-Bildgenerierungs-Workshops: Nach sechs intensiven Stunden, in denen wir uns einmal querbeet durch alle Tools und Möglichkeiten gearbeitet haben. schaue ich in ernüchtert wirkende Gesichter.
Der Grund? Die reift die Erkenntnis, dass KI nicht das tut, was Beiträge auf Social Media uns allzu gern einreden: Keine perfekte Ergebnisse beim ersten Versuch.
Doch es gibt keine Zauberformel, die ein komplexes Bild auf wundersame Weise und Knopfdruck generiert. Stattdessen braucht es intensive Arbeit, zahllose Iterationen und einiges an Try & Error, um dem Bild der eigenen Vorstellung zumindest nahe zu kommen.
Inhalte
Der große Irrtum: KI kann und versteht alles
In vielen Unternehmen hält sich hartnäckig die Vorstellung, man müsse lediglich die richtigen Worte finden und eine Bild-KI würde automatisch das liefern, was zuvor nur im Kopf existierte.
Doch Bildmodelle – egal ob Midjourney, Nano Banana oder Ideogram – funktionieren fundamental anders: Auf Wahrscheinlichkeiten und ihren Trainingsdaten basierend raten sie das gewünschte Bild. Aber sie verstehen nicht, überhaupt nicht. Keine Zahlen, keine räumlichen Vorgaben, keine physikalischen Zusammenhänge – all das sind für eine Bild-KI rein visuelle Begriffe.
Selbst einfach klingende Motive wie Ein Hund jagt eine Katze stellen für die KI daher eine große Herausforderung da. Ohne das Verständnis von Geschwindigkeit, von Raum, von Jäger und Beute ist der Begriff jagen schwer zu erklären und somit korrekt zu generieren.
Skizze und Referenzen erhöhen das Verständnis
Mittlerweile gibt es viele Möglichkeiten über den reinen Prompt hinaus, einer Bild-KI zu erklären wie das fertige Bild aussehen soll:
- Skizzen (gern auch hässliche)
- Referenzbilder, die Stil, Perspektive oder Komposition vorgeben
- Editing-Funktionen, welche das Generieren nur bestimmter Bereiche erlauben
Doch all diese Hilfen machen es der KI nur ein wenig leichter, das Generieren aber noch lange nicht zum Kinderspiel.
Iteration: das unterschätzte Werkzeug
Iterationen sind nicht das Ergebnis mangelnder Promptfähigkeiten, sondern ein wichtiger Bestandteil des Generierungsprozesses. Ein gutes KI-Bild ist weniger Prompting, sondern mehr Regiearbeit:
- Variationen generieren
- Prompt verfeinern, Reihenfolge justieren, Begriffe austauschen
- Ausprobieren, bewusst einfach mal die „KI machen lassen“
- Funktionen nutzen
- Unterschiedliche Tools testen, Tools kombinieren
- Beim Scheitern auf neue Ideen kommen
Und selbst damit erreicht man vielleicht 80 % der ursprünglichen Idee, wenn überhaupt. Und dann haben der Vorgesetzte und Kunde noch einige Änderungswünsche…
Doch in diesem Prozess liegt auch ein Reiz: KI zwingt uns:
- Unsere eigenen Ideen klarer zu formulieren
- Besser zu strukturieren
- Präziser zu denken.
- Kreativer zu denken.
- Auszuprobieren.
- Das Spielkind in uns freizulassen.
Die wahre Grenze ist nicht die Technologie
Die viel zitierte „Grenze der KI“ besteht wie beschrieben auch in der Technologie selbst. Häufig liegt sie aber im fehlenden Verständnis dafür:
- wie viel Vorarbeit eine komplexe Bildidee benötigt
- wie konkret selbst vage Vorstellungen beschrieben werden müssen
- wie entscheidend menschliche Regie und Kreativität bleiben
- wie wichtig es ist, die Regeln der Bildgestaltung zu beherrschen
Genau in diesen Punkten liegt aber auch eine Chance. Ein kurzer schneller Prompt, ein allgemeiner Promptgenerator liefern nur beliebige Bilder.
Kein Zauberstab, aber ein zauberhaftes Werkzeug
KI ist also wirklich kein Zauberstab. Doch wer ein Verständnis von dem Prozess der KI-Bildgenerierung, der Wirkung von Perspektive und Farbe hat, der kann Bilder generieren, welche jegliche visuellen Grenzen sprengen.
Vielleicht ist das am Ende der eigentliche Zauber: KI ist ein Tool für Kreative, und kein kreatives Tool.


