Donnerschlag im Sommerloch: Mit den Black Forest Labs gibt es einen neuen Anbieter für KI generierte Bilder, der mit seinen drei Modellen Flux.1 [pro], Flux.1 [dev] und Flux.1 [schnell] Konkurrenten für Midjourney ins Rennen schickt.
Inhalte
Hinter den Flux-Modellen und der Firma Black Forest Labs stehen drei Entwickler, die erst an der LMU München und dann bei Stability AI für die Entwicklung von Stable Diffusion zuständig waren. Wenige Monate nach ihrem Ausstieg bei Stability AI kommen sie mit einem Paukenschlag zurück.
Auf der Firmen-Website veröffentlichten sie am 1. August ein ausführliches Statement, in dem sie die Mission, das Team, die Investoren und die drei Flux-Modelle vorstellen. Seitdem überschlagen sich im Netz die Midjourney- und KI Image Bubble: Kommt hier der Midjourney Killer? Wir haben uns das mal genauer angeschaut…
Was ist Flux?
Flux ist keine Anwendung, sondern eine Familie von drei Text-to-Image Modellen, die sich in Geschwindigkeit, Nutzungsbedingungen und vor allem in der Bildqualität unterscheiden:
- Das frei verfügbare Flux.1 [schnell] Modell eignet sich für die lokale Entwicklung und persönlichen Gebrauch und steht unter Apache Lizenz. Es zeichnet sich vor allem durch die hohe Geschwindigkeit aus.
- Flux.1 [dev] liefert eine deutlich höhere Qualität, braucht dafür etwas länger und dient ausschließlich für nicht-kommerzielle Anwendungen. Zusätzlich zur Text-to-Image Funktion bietet dieses Modell auch eine Image-to-Image Option.
- Flux.1 [pro] ist schließlich der kommerziellen Nutzung vorbehalten und kann nur per API genutzt werden.
Wie kann ich Flux testen?
Update 8. August 2024: Hier haben wir eine umfangreiche Übersicht, wie ihr Flux testen könnt:
.
Wer sich das zutraut, kann vom Black Forest Labs Github Repository die Flux Modelle runterladen und lokal installieren. Die entsprechenden Modelle gibt es bei Hugging Face (FLUX.1 [schnell] / FLUX.1 [dev]). Das Pro-Modell ist nicht verfügbar, da es nur per API bereit gestellt wird.
Deutlich schneller und komfortabler geht es über die Online-Dienste Replicate und FLA, die alle drei Modelle mit einem einfachen Interface anbieten. Grundsätzlich ist die Nutzung hier kostenpflichtig, erste Tests sind aber ohne Kosten und Registrierung möglich.
Modell | Replicate | FAL |
---|---|---|
FLUX.1 [schnell] | Replicate | FAL |
Flux.1 [dev] | Replicate | FAL (Text to Image) FAL (Image to Image) |
Flux.1 [pro] | Replicate | FAL |
Erster Test: FLUX vs Midjourney
Um die Qualität der drei Flux Modelle zu bewerten, haben wir sie parallel zu Midjourney 6.1 und Version 6 mit identischen Prompts getestet.
Personen
a smiling handsome man with glasses and beard sitting at his desk in an office, working on computer, wearing casual , gray hair
Hier nehmen sich die Programme nichts, lediglich das Flux [schnell] Modell wirkt weniger realistisch
photo of a old chinese lady sword fighter with two swords, traditional dress, in a traditional chinese courtyard, sword raised high, Cowboy Shot
Auch leichte Vorteile für Midjourney: Flux zeigt keine alte Frau und hat Probleme mit den Augen.
Text in Bildern
A vintage black and white photograph of a well-worn book titled "Altes Buch über Kindheit in den 1950er Jahren". The book has a worn leather cover with ornate gold lettering and a delicate, worn-out ribbon bookmark. The background reveals a vintage wooden bookshelf with an array of classic books, creating a nostalgic and timeless atmosphere.
Hier gibt es Gleichstand: Sowohl Midjourney als auch Flux haben Probleme mit längeren Texten, speziell wenn sie Umlaute enthalten. Flux hat sich enger an die Vorgabe eines Schwarzweiß-Fotos gehalten.
Anatomie
close-up photo of three pairs of hands, seen from above
Vorteil Flux: Während die Finger in den Midjourney-Bilder teilweise die klassischen Fehler aufweisen, zeigt Flux pro ein fast fehlerfreies Bild von verschränkten Fingern verschiedener Hände.
Umsetzung Künstler
black & white photo of The Great Wave off Kanagawa, as shot with large format Linhof camera, as shot by Ansel Adams, photorealistic
Hier versagt Flux: Den klassischen Holzschnitt „Welle for Kanagawa“ kennt das Modell, ist aber nicht in der Lage, sie als Foto umzusetzen, geschweige denn im Stil von Ansel Adams.
Komplexe Prompts
photo of a redbull f1 car driving at a Caribbean beach with tourists and dogs in the background
wide angle photo of a rabbit with blue fur and a cowboy hat eating a slice of salami pizza on a beach of a mountain lake during sunset
Gleichstand bei komplexen Prompts, beide Anbieter sind in der Lage, auch komplexe und in sich inkonsistente Vorgaben zu einem stimmigen Bild umzusetzen.
Fazit Test Midjourney vs. Flux
Mein Fazit nach einem kurzen Test:
- Die Qualität speziell von DEV und PRO Modell ist beachtlich und kann sich auf jeden Fall mit Midjourney messen.
- Die Geschwindigkeit des SCHNELL Modells ist der Hammer: In weniger als 2 Sekunden ist das Bild fertig.
- Bei der Nachahmung von bestimmten Künstlern scheitern die FLUX Modelle noch: Weder ein Foto im Stile von Ansel Adams noch ein Gemälde von Edgar Degas bekommen sie hin.
- Beeindruckend dagegen das Verständnis von komplexen Prompts: Unser komplexes „Blue Rabbit“ Prompt wurde in allen Aspekten sauber umgesetzt.
- Auch bei der Anatomie kann FLUX punkten: Wo Midjourney bei Fingern seltsame Ergebnisse produziert, schafft es zumindest das Flux.1 [pro] Modell auch viele verschränkte Hände anatomisch korrekt darzustellen.
In einem Satz: Ein Kopf-an-Kopf-Rennen, was die Qualität angeht.
Kein Midjourney Killer, aber willkommene Konkurrenz
Aber: Ein Midjourney Killer sind die FLUX Modelle auf keinen Fall – jedenfalls im Moment noch nicht. Dafür wäre die Qualität mit am wichtigsten, aber auch andere Aspekte spielen eine große Rolle:
- FLUX hat noch keine Funktionalitäten, die mit SREF, CREF oder Personalisierung konkurrieren können.
- Für den Einsatz von FLUX spricht die API-Option, die Midjourney nach wie vor vermissen lässt. FLUX lässt sich in automatisierte Workflows einbinden – mit Midjourney geht das nicht.
- Die Black Forest Labs bieten bewusst auch ein frei verfügbares und kostenloses Modell an und spekulieren darauf, dass die Community analog zu Stable Diffusion Loras oder eigene Anwendungen entwickeln wird.
Wer steckt hinter den Black Forest Labs?
Die Flux-Modelle werden von der deutschen Firma Black Forest Labs angeboten, die in Freiburg im Schwarzwald (daher der Name) ihren Sitz hat. Die drei Gründer Robin Rombach, Andreas Blattmann und Dominik Lorenz haben ursprünglich an der LMU München zum Thema KI Bilder geforscht und waren bei Stability AI an der Entwicklung verschiedener Stable Diffusion Projekte beteiligt, bevor sie Anfang des Jahres kündigten – und jetzt mit den neuen Flux-Modellen mit Knalleffekt wieder auf der Bühne erschienen sind.
Wie hoch das Team und die technische Kompetenz einzuschätzen sind, zeigt die Investorenliste, die vom Risikokapitalgeber Andreessen Horowitz angeführt werden. Deren Investments haben frühe Phasen bei Schwergewichten wie Facebook, AirBnB, GitHub, Instagram, Skype und Twitter finanziert.
Wie positioniert sich FLUX am Markt?
Um die Bedeutung von FLUX zu beurteilen, lohnt sich die Lektüre der Ankündigung des Investments in Black Forest Labs durch Andreessen Horowitz. Pointiert zusammengefasst sehen sie die Positionierung so:
- So offen wie Stable Diffusion (um durch die Community Erweiterungen und Anwendungsfälle zu generieren),
- … aber mit einem nachhaltigen Business Modell, dass sich auf Entwickler konzentriert.
Letzteres war der Schwachpunkt von Stability AI, ersteres könnte ein gewichtiges Argument im Wettbewerb mit Midjourney werden. Der Zugriff per API auf ein qualitativ hochwertiges Text- und Image-to-Image Modell plus die Möglichkeit Erweiterungen der Community zu nutzen, kann FLUX zu einem extrem interessanten Tool für den professionellen Einsatz machen.
Und dann? Video!
Das nächste Ziel hat sich BFL schon gesteckt und kündigt für das SOTA Text-to-Video Modell „präzise Erstellung und Bearbeitung in hoher Auflösung und beispielloser Geschwindigkeit“.