Donnerstag, September 12, 2024
StartAnwendungenStable DiffusionMobileDiffusion: KI-Bilder auf dem Smartphone – in weniger als einer Sekunde

MobileDiffusion: KI-Bilder auf dem Smartphone – in weniger als einer Sekunde

Google hat im Google Research-Blog MobileDiffusion vorgestellt, das Projekt zweier Entwickler veröffentlicht, die die Architektur bestehender Diffusionmodelle so umgebaut und optimiert haben, dass auf aktuellen Smartphone Modellen (iPhone 15 Pro / Samsung S24) Bilder in deutlich unter einer Sekunde generiert werden. Die Abmessungen sind aktuell auf 512 x 512 Pixel beschränkt, trotzdem könnte das neue Modell ein Game Changer werden.

MobileDiffusion Beispielbilder

Die per Smartphone erzeugten Beispielbilder sehen jedenfalls beeindruckend aus:

MobileDiffusion Beispielbilder
MobileDiffusion Beispielbilder

MobileDiffusion: Technische Hintergründe

Möglich wird das durch die Optimierung an mehreren Stellen der Architektur:

  • Beim zentralen Prozess des Denoisings wurden verschiedene Ebenen neu angeordnet, um den Prozess effizienter zu gestalten, ohne auf Bildqualität zu verzichten.
  • Statt Milliarden von Parametern kommt MobileDiffusion mit lediglich 520 Mio. Parametern aus
  • Ein eigens entwickelter Image-Decoder, der das Bild aus dem latenten Raum in ein konkretes Bild umrechnet, verbessert die Leistung des Systems.

In dieser Grafik wird die Performance verschiedener Modelle auf aktuellen Smartphones verglichen. Während StableDiffusion 1.5 fast 8 Sekunden für ein Bild auf dem iPhone 15 Pro braucht, sind es mit dem neuen Modell weniger als eine halbe Sekunde:

MobileDiffusion Performance-Vergleich
Performance-Vergleich

Potential MobileDiffusion

Das Potential dieser Entwicklung lässt sich noch nicht abschätzen: Einerseits wird der kreative Prozess beim Generieren von KI-Bildern interaktiv: Während man das Prompt auf dem Smartphone bearbeitet, wird schon das Bild erzeugt.

Und die kompakte Größe und die drastisch erhöhte Geschwindigkeit machen hochgezüchtete PC-Systeme mit teuren Grafikkarten als zwingende Voraussetzung für flüssiges Arbeiten überflüssig.

Andreas Jürgensen
Andreas Jürgensenhttps://www.ai-imagelab.de
Andreas ist Jahrgang 1966, in Schleswig-Holstein aufgewachsen und mittlerweile gut assimilierter Rheinländer – seit er zum Studium als Fotoingenieur nach Köln zog. Seit über 20 Jahren betreibt er zahlreiche Diskussionsforen rund um diverse Fotomarken.
RELATED ARTICLES

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Aktuell beliebt

Aktuelle Kommentare

Nick Freund An Was kostet Midjourney?