Mittwoch, Dezember 4, 2024
HomeAnwendungenNeues Modell Omnigen: Interaktion in natürlicher Sprache

Neues Modell Omnigen: Interaktion in natürlicher Sprache

Vor einigen Tagen hat ein Team von chinesischen Wissenschaftlern das neue Open Source Modell Omnigen zur Generierung von KI Bildern in einem wissenschaftlichen Papier vorgestellt. Bemerkenswert ist weniger die Qualität der erzeugten Bilder, sondern die Optionen mit dem Modell zu interagieren.

Über Texteingaben ist es möglich, Bezüge zu vorab hochgeladenen Bildern herzustellen: Ohne Masken, dafür mit Textbezügen in natürlicher Sprache! Die Anweisung, um z.B. aus einem Bild Elemente zu entfernen oder auszutauschen, kann so formuliert werden:

<img><|image_1|><img> Remove the man's backpack. Replace the lake with a volcano.

Omnigen Interface bei Replicate
Omnigen Interface bei Replicate

Omnigen ist in der Lage, ohne Maskierung bestimmte Objekte in Bildern zu erkennen und zu verändern. Die Funktionalität reicht aber noch weiter: Es lassen sich auch allgemeine Fragen oder Anweisungen formulieren. So kann zu einem Bild die Frage gestellt werden „Wo kann ich die Hände waschen?“ und das Modell markiert ein Waschbecken im Motiv.

Omnigen Beispiel
Omnigen erkennt Objekte

Diese Art der natürlichen Kommunikation lässt sich auch auf mehrere Personen auf mehreren Bildern anwenden. Mit dem Omnigen Modell ist es prinzipiell möglich, mit textlichen Bezügen Bilder aus Elementen verschiedener Ausgangsbilder zusammenzusetzen:

Omnigen generiert Bilder aus Einzelobjekten

Die Beispielbilder aus dem verlinkten PDF sind beeindruckend, allerdings lassen sich die Beispiele in kurzen Tests noch nicht wirklich nachvollziehen.

Omnigen selber testen

Omnigen lässt sich bei Github runterladen und lokal installieren, alternativ kann man das neue Modell online testen, z.B. bei FAL, Replicate oder HuggingFace.

Wir haben Omnigen über die Replicate Website einem schnellen Test unterzogen. Die Oberfläche lässt die Eingabe eines Prompts, den Upload von bis zu vier Bildern und die Einstellung diverser Parameter (u.a. Auflösung) zu.

Unsere Tests dauerten relativ lange: Bei 50 Iterationen war die sehr leistungsfähige Hardware-Konfiguration bis zu 2 Minuten am Rechnen, bevor ein Ergebnis dargestellt wurde. Bei ausführlichen Tests würden sich die Kosten auch deutlich bemerkbar machen: Bei 0,10$ pro Bild kommen schnell erhebliche Beträge zusammen.

Fazit zu Omnigen

Aktuell ist Omnigen noch nicht geeignet, um es wie Midjourney oder Flux in der Praxis einzusetzen. Die Bilderergebnisse überzeugen nicht und die Implementierung in Oberflächen ist noch nicht stabil. Revolutionär ist aber die Art der Kommunikation in natürlicher Sprache, die es erlaubt ohne Arbeit in einem Editor neue Bilder aus verschiedenen Quellen zu generieren.

Omnigen FAQ

Was kostet Omnigen?

Omnigen ist ein Open Source Modell und kann kostenlos runtergeladen werden und auf dem eigenen Rechner betrieben werden. Wenn es auf Online Services genutzt wird, kostet jedes Bild ca. $ 0,10.

Ist Omnigen kostenlos?

Ja, Omnigen ist ein Open Source Modell, kann kostenlos runtergeladen werden und auf dem eigenen Rechner betrieben werden.

Wo kann ich Omnigen runterladen?

Omnigen lässt sich hier auf Github runterladen: https://github.com/VectorSpaceLab/OmniGen

Wo kann ich Omnigen testen?

Man kann man das neue Modell online testen, z.B. bei FAL, Replicate oder HuggingFace. Allerdings sind diese Anbieter kostenpflichtig

Andreas Jürgensen
Andreas Jürgensenhttps://www.ai-imagelab.de
Andreas ist Jahrgang 1966, in Schleswig-Holstein aufgewachsen und mittlerweile gut assimilierter Rheinländer – seit er zum Studium als Fotoingenieur nach Köln zog. Seit über 20 Jahren betreibt er zahlreiche Diskussionsforen rund um diverse Fotomarken.
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Aktuell beliebt

Aktuelle Kommentare