Vor einigen Tagen hat ein Team von chinesischen Wissenschaftlern das neue Open Source Modell Omnigen zur Generierung von KI Bildern in einem wissenschaftlichen Papier vorgestellt. Bemerkenswert ist weniger die Qualität der erzeugten Bilder, sondern die Optionen mit dem Modell zu interagieren.
Inhalte
Über Texteingaben ist es möglich, Bezüge zu vorab hochgeladenen Bildern herzustellen: Ohne Masken, dafür mit Textbezügen in natürlicher Sprache! Die Anweisung, um z.B. aus einem Bild Elemente zu entfernen oder auszutauschen, kann so formuliert werden:
<img><|image_1|><img> Remove the man's backpack. Replace the lake with a volcano.
Omnigen ist in der Lage, ohne Maskierung bestimmte Objekte in Bildern zu erkennen und zu verändern. Die Funktionalität reicht aber noch weiter: Es lassen sich auch allgemeine Fragen oder Anweisungen formulieren. So kann zu einem Bild die Frage gestellt werden „Wo kann ich die Hände waschen?“ und das Modell markiert ein Waschbecken im Motiv.
Diese Art der natürlichen Kommunikation lässt sich auch auf mehrere Personen auf mehreren Bildern anwenden. Mit dem Omnigen Modell ist es prinzipiell möglich, mit textlichen Bezügen Bilder aus Elementen verschiedener Ausgangsbilder zusammenzusetzen:
Die Beispielbilder aus dem verlinkten PDF sind beeindruckend, allerdings lassen sich die Beispiele in kurzen Tests noch nicht wirklich nachvollziehen.
Omnigen selber testen
Omnigen lässt sich bei Github runterladen und lokal installieren, alternativ kann man das neue Modell online testen, z.B. bei FAL, Replicate oder HuggingFace.
Wir haben Omnigen über die Replicate Website einem schnellen Test unterzogen. Die Oberfläche lässt die Eingabe eines Prompts, den Upload von bis zu vier Bildern und die Einstellung diverser Parameter (u.a. Auflösung) zu.
Unsere Tests dauerten relativ lange: Bei 50 Iterationen war die sehr leistungsfähige Hardware-Konfiguration bis zu 2 Minuten am Rechnen, bevor ein Ergebnis dargestellt wurde. Bei ausführlichen Tests würden sich die Kosten auch deutlich bemerkbar machen: Bei 0,10$ pro Bild kommen schnell erhebliche Beträge zusammen.
Fazit zu Omnigen
Aktuell ist Omnigen noch nicht geeignet, um es wie Midjourney oder Flux in der Praxis einzusetzen. Die Bilderergebnisse überzeugen nicht und die Implementierung in Oberflächen ist noch nicht stabil. Revolutionär ist aber die Art der Kommunikation in natürlicher Sprache, die es erlaubt ohne Arbeit in einem Editor neue Bilder aus verschiedenen Quellen zu generieren.
Omnigen FAQ
Was kostet Omnigen?
Omnigen ist ein Open Source Modell und kann kostenlos runtergeladen werden und auf dem eigenen Rechner betrieben werden. Wenn es auf Online Services genutzt wird, kostet jedes Bild ca. $ 0,10.
Ist Omnigen kostenlos?
Ja, Omnigen ist ein Open Source Modell, kann kostenlos runtergeladen werden und auf dem eigenen Rechner betrieben werden.
Wo kann ich Omnigen runterladen?
Omnigen lässt sich hier auf Github runterladen: https://github.com/VectorSpaceLab/OmniGen
Wo kann ich Omnigen testen?
Man kann man das neue Modell online testen, z.B. bei FAL, Replicate oder HuggingFace. Allerdings sind diese Anbieter kostenpflichtig