Jump to content

adrianrohnfelder

Moderators
  • Posts

    281
  • Joined

  • Last visited

  • Days Won

    34

adrianrohnfelder last won the day on December 24 2023

adrianrohnfelder had the most liked content!

1 Follower

Recent Profile Visitors

1,197 profile views

adrianrohnfelder's Achievements

Rising Star

Rising Star (9/14)

  • One Month Later
  • Dedicated
  • Collaborator
  • Reacting Well
  • Week One Done

Recent Badges

77

Reputation

  1. Hey, sorry für die späte Antwort. Du kannst in Leonardo das Seitenverhältnis unter den Advanced Controls einstellen. Entweder nimmst Du eines der voreingestellten aspect ratios oder Du klickst auf das Schloss und kannst mit den beiden Schiebereglern Breite und Höhe pixelgenau einstellen.
  2. Ich habe mal auf die Schnelle probiert und den Prompt etwas umgestellt, aber auch das ergibt zwei Ohren: illustration of a sad looking white rabbit, rabbit only has one ear and is wearing blue too big dungarees. Colourful forest in the background. Children's book style 3 years old --ar 3:2 --style raw --v 6.0 Ich probiere weiter, wahrscheinlich muss man MJ sagen, was an der Stelle des zweiten Ohres sein soll. Alternativ könnte man das Ohr natürlich auch ganz einfach in Photoshop entfernen bzw. in Midjourney v 5.2 per Inpainting (Vary Region). Oder einen Hasen ganz ohne Ohren und das eine Ohr dann in Photoshop/ Inpainting hinzufügen.
  3. Mit einem "please generate the photo in landscape format", "cinema format" könnte auch gehen oder "portrait format" für Hochformat. Spezifische Seitenverhältnisse kannst Du allerdings (noch) nicht angeben.
  4. Hallo und herzlich Willkommen, prima Bild und und Arcane ist immer cool 😎 Bzgl. Stable Diffusion kannst Du Dich demnächst sicher gut mit @Andreas J. austauschen, er arbeitet sich aktuell auch in die entsprechenden Tiefen ein 😀. Ansonsten bitte nicht wundern, dass hier im Moment nicht so viel los ist. Wir konzentrieren uns aktuell sehr auf den Aufbau der redaktionellen Website, daher hat es hier im Forum auch schon länger keine Beiträge von uns. Kommt aber sicher wieder bzw. gerne auch fleißig auf der Website schauen. Und falls Du mal eine Idee für einen Beitrag dort hast immer gerne melden 😉
  5. Ich gehe immer mehr dazu über im Rahmen meines Workflows mehrere Programme zu kombinieren. Dazu habe ich heute die Funktion Image Guidance bei Leonardo.AI entdeckt. Ähnlich wie bei Midjourney kann man Leonardo damit ein Bild als Vorlage (es sind sogar mehrere Bilder möglich) mitgeben. Per Schieberegler bestimmt man, wie stark sich Leonardo an die Vorlage halten soll, gibt den Prompt ein und erhält eine mehr oder weniger Kopie der hochgeladenen Vorgabe. Aufgrund der mittlerweile echt prima Qualität von Leonardo kann man so Bilder, welche man in einem anderen Generator erstellt hat - ich arbeite immer noch sehr viel mit Midjourney aufgrund seines großen Funktionsumfanges bzw. neuerdings auch mit Dall-E3 aufgrund der Motivgenauigkeit - noch fotorealistischer ausarbeiten lassen. Folgendes Bild habe ich die Tage in Dall-E3 generiert und gerade eben mit Leonardo nachgestellt: Ich habe dabei noch nicht viel mit der Gewichtung bzw. den unterschiedlichen Stilen von Leonardo gespielt. Aber der erste Eindruck ist schon einmal prima, Motiv passt, Qualität ist besser. Habt Ihr das schon einmal ausprobiert?
  6. Vielleicht habt Ihr Euch schon gewundert, warum hier in der letzten Zeit nichts passiert ist. Das liegt daran, dass wir zum einen auf das Forum eine redaktionelle Website aufgesetzt und ein neues YouTube-Format gestartet haben. Schaut doch gerne jeweils rein und gebt uns ein ehrliches Feedback. Website: https://www.ai-imagelab.de Video:
  7. Bisher habe ich hauptsächlich mit dem KI-Bildgenerator Midjourney gearbeitet. Aus meiner Sicht bot dieser bis dato die beste Bildqualität und den größten Umfang an Tools. Daneben war Leonardo.ai noch wirklich gut, Adobe Firefly sowie Dall-E2 jedoch eher ‘naja’ bis ‘nein danke’. Mit dem Versprechen von OpenAI's Dall-E3, per Dialog und nicht mehr per reinem Prompting Bilder generieren zu können bin ich aber noch einmal neugierig geworden. Das musste ich natürlich ausprobieren. Und was soll ich sagen, gleich der erste Versuch war ein Volltreffer. Getestet habe ich eines meiner Lieblings- und gleichzeitig schwierigsten Midjourney-Motive, einen feuerspeienden Drachen. Eingegeben habe ich folgenden Text in Chat GPT4 (alternativ sollte es auch in Microsoft Bing funktionieren): “Create a photo from a fire breathing dragon sitting on a pile of dirty gold in a lava cave” O.k., der zweite Versuch war ein Volltreffer, der erste Versuch ließ mich gleich einmal an der sehr restriktiven Politik von Dall-E3 scheitern mit dem Begriff “pile of bloody gold” und der Antwort “I apologize, but I was unable to generate images based on your request due to our content policy. Please provide a different description or let me know how I can assist you in another way.” 🤪 Der zweite oben genannte Versuch saß aber: Ein Volltreffer war es für mich insbesondere darum, weil alle vier Drachen Feuer spucken. In Midjourney habe ich das seit Wochen immer mal wieder mit unterschiedlichen Prompts, Inpainting, Remix und was weiß ich versucht. Mit dem Ergebnis, dass von mehr als 30 Versuchen gerade mal ein Drache mehr oder weniger Feuer spuckt. Der Start mit Dall-E3 war also schon einmal mehr als gut, aber es ging fast noch besser weiter. Tatsächlich ganz einfach per Dialog in Chat GPT habe ich das Bildformat ändern können und ein bisschen Magie und sogar einen Babydrachen in das Bild gebracht (ich verzichte an der Stelle darauf, die Zwischenergebnisse zu zeigen, hier geht es erst einmal um das grundsätzliche Prinzip): “Make Dragon looking more angry and less colorful, add some coins all over the ground, some gold coins on the pile should twinkle, add more lava and some fire all over the cave, change to dark cinematic lighting” “Make the dragon fire breathing as in the original image and add floating and glowing lava” “The dragon should have red glowing eyes and please add a baby dragon, also breathing a bit of fire” “Dragon should breathe more fire and the baby dragon at least a bit, otherwise stay as close to that last picture as possible” Ich habe also tatsächlich in sinnvollen Sätzen mit Chat GPT kommunizieren können ohne irgendeine Art von Prompting/ Prompt-Kenntnisse. Das einzige Problem war, dass die Bilder trotz nur einer winziger Änderung in der Vorgabe teilweise völlig unterschiedlich aussahen. Zwischen diesen beiden Bilder liegt nur das (s.o.): “Make Dragon looking more angry and less colorful, add some coins all over the ground, some gold coins on the pile should twinkle, add more lava and some fire all over the cave, change to dark cinematic lighting” Update: Mittlerweile kann man aber mit dem sogenannten ‘seed’ arbeiten. Aber eigentlich will ich gar nicht das Drachenmotiv hier vorstellen. Daher nur noch kurz das finale Ergebnis: und rechts der gleiche Versuch in Midjourney. In Bezug auf das Motiv ist das fast eine glatte 6. Damit war es Zeit für einen richtigen Vergleich, heißt ein vorab klar definiertes Motiv mit dem Ziel, dieses in beiden Generatoren zu erstellen. Für solche Vergleiche nehme ich immer gerne eine Kombi aus realen und Fantasy-Motiven, um zum einen den Realismus wie auch das Umgehen mit Motiven zu testen, zu denen es weniger gezieltes Bildtrainingsmaterial gibt. In diesem Fall ist dies ein im Dschungel sitzender, Pizza essender, von Glühwürmchen umschwirrter Hase mit Zauberhut 🙂 Starten wir mit Dall-E3: “Please generate a photo of a rabbit which is eating a slice of salami pizza. Rabbit wears a magical hat. It sits during twilight in the rainy amazonian jungle with many orange glowing glowworms flying around.” Das Motiv war wie schon bei dem Drachen sehr genau umgesetzt. Also konnte ich mich gleich an das Finetuning setzen: “Love picture 1, please generate it again in wide landscape format and make it a bit more wide angle looking.” Grundsätzlich gefiel mir dieses Ergebnis schon sehr gut. Einzig ist es ein wenig unglaubwürdig, dass der Hase ein Stück Pizza in den Pfoten hält, die Pizza aber noch unberührt am Boden liegt: “Please zoom out a bit and the large pizza on the ground must miss at least one slice. Make the jungle more dense and the lighting more misty.” Hm, die Pizza ist immer noch unberührt und der Hase isst nun gar nicht mehr davon: “Pizza on the ground should be only a half one and rabbit should eat a slice of it.” Perfekt, jetzt passte es. Der Hase hat zwar eine etwas merkwürdige Position, die Gliedmaßen passen nicht wirklich und auch der Zauberhut sitzt irgendwie komisch - was bei allen Versionen vorher meist auch schon so war. Aber vom Grundmotiv her ist es sehr schön umgesetzt. Es war also Zeit für Midjourney zu zeigen was es drauf hat: “rabbit which wears a magical hat is eating a slice of salami pizza in the rainy dense amazonian jungle with many orange glowing glowworms flying around. Misty lighting, wide angle shot --ar 3:2 --style raw” Ui, was ist das denn. Die Lichtstimmung ist super, der Hase deutlich realistischer und mit viel mehr Details. Aber das Motiv? Pilzhut? Flying Pizza? Hübsch anzusehen, aber ein völliges Motivchaos. Im nächsten Schritt habe ich mir das finale Dall-E3 Bild genommen und per /describe Befehl in Midjourney beschreiben lassen. Spaßeshalber habe ich daraus erst einmal einen Prompt gebaut, den ich selbst so nie geschrieben hätte. Aber wer weiß: “a rabbit with a witch hat eating pizza in the forest, in the style of vray tracing, hyper-realistic animal illustrations, luminous and dreamlike scenes, rain and mist, surrealistic installations, junglepunk, lively illustrations --ar 3:2 ” Hm, Bild 2 kommt der Sache schon näher. Der Rest hätte was für eine Geschichte über eine Zauberwelt, liegt aber noch ziemlich weit neben dem gewünschten Motiv. Also wieder zurück zu einem simpleren Prompt: “a rabbit with a witch hat eating pizza in the dense jungle, glowworms flying around, rainy and misty atmosphere, wide angle shot --ar 3:2” Tja, irgendwie hat es immer noch viel von Zauberwelt. Mit dem /shorten Befehl habe ich mir daher einmal den Prompt analysieren lassen: Eigentlich sind alle relevanten Begriffe berücksichtig. So komme ich nicht weiter. In einem nächsten Schritt habe ich daher dem Prompt noch das Dall-E3 Bild als Vorlage mitgegeben: “URL_DallE3_Bild a rabbit with a witch hat eating pizza in the dense jungle, glowworms flying around, rainy and misty atmosphere, wide angle shot --ar 3:2” Endlich kommen wir der Sache näher - auch wenn wir hier ja eigentlich mit der Vorgabe des Dall-E3 Bildes schon den reinen Midjourneypfad verlassen haben. Aber erst mal egal, Bild 2 sieht eigentlich ganz gut aus bzw. haben die anderen Bilder wieder das “Die Pizza liegt noch unberührt am Boden”-Problem sowie wurde aus den Glühwürmchen irgendwie Kerzen. Bild 2 habe ich mir daher vergrößern lassen und per Inpainting (Vary (Region) Funktion) die Kopf-/Ohrenregion mit folgendem Prompt durch einen Zauberhut ersetzt: “URL_DallE3_Bild blue wizard hat with white stars” Kann ich gelten lassen. Der Wald ist zwar mehr Wald denn Dschungel und Glühwürmchen hat es auch nicht. Aber Hut und Hase sind klasse. Für eine weitere Verwendung müssten beide Ergebnisse noch ausgearbeitet werden. Für den Vergleich passt das aber so und bringt mich zu folgendem Fazit: Dall-E3 hat ganz klar und eindeutig die Nase vorne beim Textverständnis und in der Bedienung. Es ist dafür aber deutlich restriktiver in den inhaltlichen Richtlinien, auch was lizenzkritische Motive betrifft. Midjourney gewinnt eindeutig in der Bildqualität, hat aber trotz vieler Funktionen und Parameter definitiv das Nachsehen im Promptverständnis. Ich bin daher gespannt, ob Dall-E3 zuerst in der Qualität oder Midjourney im Textverständnis aufholt. Im Moment ist für mich die Kombination aus beiden Tools häufig das Mittel der Wahl.
  8. In Dall-E3 gibt es eine sehr gute Möglichkeit, um fast perfekte konsistente Charakter in völlig unterschiedlichen Szenen zu generieren. Diese “character consistency” ist bisher eines der größten Probleme von KI Bildgeneratoren. Ihr müsst dazu (in Chat GPT4 bzw. Microsoft Bing) ein Motiv beschreiben und Dall-E3 dabei vier unterschiedliche Bildwünsche mitgeben. Meint Person A in Situation A, in Situation B und so weiter. Verständlicher wird das sicher mit meinem Beispielprompt: “Please generate a photo montage in manga style of Captain Nemo, a tall man with short black hair, round glasses. Top-left shows him standing in his orange uniform in the command center of his spaceship in steampunk design. Top-right portrays him reading a book about the universe. Bottom-left captures him running away from a strange dragon like creature on a mars like planet. Bottom-right depicts him standing in his yellow spacesuit on a Venus like lava planet.” bzw. noch einmal mit der Vorgabe "photo montage in photorealistic pictures of Captain Nemo": Ansonsten fällt Euch sicher auf, dass die Bilder nicht immer treu den Vorgaben entsprechen bzw. es bei der fotorealistischen Variante sechs unterschiedliche Motive hat. Mehr zu Dall-E3, dem Textverständnis, dem Prompting in Dialogform sowie einem direkten Vergleich mit Midjourney habe ich ausführlich in einem separaten Beitrag beschrieben. Achja, bei einem Gegenstand, einem UFO hat es nicht so gut funktioniert, das muss ich mir noch einmal näher vorknöpfen - bzw. dürft Ihr das natürlich auch 😉
  9. Irgendwie habe ich das Gefühl, dass da irgendwas durcheinander ist. Vielleicht bin ich auch anspruchsvoller geworden, aber so richtig passt in der letzten Zeit kein Prompt mehr für mich, egal mit wie vielen Änderungen, Umstellungen etc. Oder sie schrauben im Hintergrund einfach an zu vielen Themen gleichzeitig. Oder zu lange Platzhirsch gewesen 🙂 Naja, wird schon wieder hoffe ich.
  10. Danke, ich scheine aber keine 10.000 Bilder zu haben 🤔 Das mit den Collections wäre mega, so ohne Sortierung ist das echt zäh. Wobei ich gestehen muss, dass mich MJ generell immer mehr nervt. Irgendwie bekomme ich gar kein Motiv mehr gescheit hin. Dall-E3 ein kurzer Text und es passt. Midjourney selbst unter Vorlage des Dall-E3 Bildes kein wirklicher Treffer. Leider ist die Qualität von MJ noch deutlich besser. Nächste Woche veröffentliche ich hier dazu einmal einen ausführlichen Vergleich. Ich werde die Tage daher Leonardo.ai genauer unter die Lupe nehmen. Mal schauen wie sich das schlägt...
  11. Danke für die ausführliche Beschreibung der neuen Style-Funktion! Ich denke, das ist eine richtig coole Idee, um unterschiedlichen Projekten jeweils ihren eigenen Look zu geben. Die Funktion wird aber nicht das Problem beheben, dass MJ einen selten richtig versteht 🙂 Probiere das Motiv doch mal mit Dall-E3, das Teil ist um Welten besser im Textverständnis. Keine Prompts, einfach in normalen Sätzen das Motiv beschreiben und dann im Text-Dialog anpassen. Schlägt Midjourney um Längen bei meinen ersten Versuchen. Dall-E3 ist dafür allerdings nicht ganz so fotorealistisch bzw. hat nicht die Outpainting, Pan, Inpainting... - Möglichkeiten von Midjourney. Ich experimentiere daher gerade damit, mir komplizierte Motive von Dall-E3 generieren zu lassen und das Ergebnis dann Midjourney in einem Prompt als Vorlage, in Verbindung mit /describe, mitzugeben. So kann man das Beste aus beiden Welten kombinieren bzw. auch die neuen Styles nutzen.
  12. Super, besten Dank Dir. Ich verlinke Deinen Beitrag gleich einmal im Midjourney Tutorial. Du hast auch korrekt gepostet, wir müssen uns da noch ein wenig sortieren was genau wohin gehört 😉
  13. Der Style Tuner wurde heute freigeschaltet. Die offizielle Dokumentation findet Ihr dazu bei Midjourney sowie in den nächsten Tagen natürlich auch mit Tutorial und Beispielen hier an dieser Stelle. Wer von Euch hat schon damit experimentiert?
×
×
  • Create New...