Google hat im Google Research-Blog MobileDiffusion vorgestellt, das Projekt zweier Entwickler veröffentlicht, die die Architektur bestehender Diffusionmodelle so umgebaut und optimiert haben, dass auf aktuellen Smartphone Modellen (iPhone 15 Pro / Samsung S24) Bilder in deutlich unter einer Sekunde generiert werden. Die Abmessungen sind aktuell auf 512 x 512 Pixel beschränkt, trotzdem könnte das neue Modell ein Game Changer werden.
Inhalte
MobileDiffusion Beispielbilder
Die per Smartphone erzeugten Beispielbilder sehen jedenfalls beeindruckend aus:
MobileDiffusion: Technische Hintergründe
Möglich wird das durch die Optimierung an mehreren Stellen der Architektur:
- Beim zentralen Prozess des Denoisings wurden verschiedene Ebenen neu angeordnet, um den Prozess effizienter zu gestalten, ohne auf Bildqualität zu verzichten.
- Statt Milliarden von Parametern kommt MobileDiffusion mit lediglich 520 Mio. Parametern aus
- Ein eigens entwickelter Image-Decoder, der das Bild aus dem latenten Raum in ein konkretes Bild umrechnet, verbessert die Leistung des Systems.
In dieser Grafik wird die Performance verschiedener Modelle auf aktuellen Smartphones verglichen. Während StableDiffusion 1.5 fast 8 Sekunden für ein Bild auf dem iPhone 15 Pro braucht, sind es mit dem neuen Modell weniger als eine halbe Sekunde:
Potential MobileDiffusion
Das Potential dieser Entwicklung lässt sich noch nicht abschätzen: Einerseits wird der kreative Prozess beim Generieren von KI-Bildern interaktiv: Während man das Prompt auf dem Smartphone bearbeitet, wird schon das Bild erzeugt.
Und die kompakte Größe und die drastisch erhöhte Geschwindigkeit machen hochgezüchtete PC-Systeme mit teuren Grafikkarten als zwingende Voraussetzung für flüssiges Arbeiten überflüssig.