Wie schneiden Midjourney, Adobe Firefly und Dall-E3 ab?
In dem aufstrebenden Feld der generativen Künstlichen Intelligenz (KI) haben sich drei Bildgeneratoren als besonders bemerkenswert herausgestellt: Midjourney, Adobe Firefly und Dalle-3. Diese Tools könnten im Tourismussektor nützlich sein, um visuellen Content zu erzeugen oder zu ergänzen, der in Marketingkampagnen, auf Websites oder auf Social-Media-Plattformen eingesetzt wird. Im Folgenden wird ein Überblick über die drei KI-Bildgeneratoren gegeben und anschließend anhand eines Beispiel-Prompts getestet und ihre Ergebnisse verglichen.
Midjourney ist ein KI-Bildgenerator, der beeindruckende Bilder und Fotos erstellt. Dieses Tool überzeugt in Tests durch seine hohe Bildqualität und bietet viele fortgeschrittene Einstellungsmöglichkeiten, die durch Parameter in den Eingabeaufforderungen (Prompts) genutzt werden können. Midjourney generiert Grafiken und Illustrationen aus Texteingaben, wobei die Texteingaben von einem Bot verarbeitet werden. Um diesen Dienst zu nutzen, ist ein kostenloser Account bei Discord erforderlich und die Anwendung kann einiges an Fachwissen erfordern. Die Nutzung von Midjourney selbst ist jedoch kostenpflichtig. Mit dem Basic Plan ($10/Monat) kann man rund 200 Bilder generieren, was für die meisten Anwender wohl auch ausreichend sein dürfte.
Adobe Firefly ist eine weitere interessante Option. Die Web-Version von Adobe Firefly ermöglicht die Erstellung von fotorealistischen Porträts, Fantasiegestalten, Texteffekten und dynamischen Farbpaletten. Um Adobe Firefly zu nutzen, muss man sich mit seinem Adobe-Konto anmelden. Daraufhin kann über die Funktion „Text zu Bild“ der Arbeitsbereich geöffnet werden und ein Text-Prompt formuliert werden, um zu beschreiben, was auf dem Bild sichtbar sein soll. Das Tool ermöglicht auch stilistische Anpassungen der erzeugten Bilder, z. B. die Generierung von Pop-Art, Bildern von Marmorskulpturen, Tonkeramik oder Aquarellen. Ein Alleinstellungsmerkmal von Firefly ist die Möglichkeit, zusätzlich zum Prompt Referenzfotos hochzuladen. Wir werden dies im Test noch ausprobieren.
Der Bildgenerator Dalle-3 von OpenAI ist die neueste Version des Text-zu-Bild-Tools, das den beliebten AI-Chatbot ChatGPT verwendet. Dalle-3 ist eine kostenlose KI-gestützte Software, die darauf abzielt, Eingabeaufforderungen besser zu verstehen und noch kreativere und fotorealistischere Bilder zu erstellen. In den kostenpflichtigen Enterprise- und Plus-Versionen wird Dalle-3 in den Chatbot von OpenAI integriert, um Bilder zu generieren, wobei bestimmte Einschränkungen gelten, um lebende Künstler zu schützen. Alternativ kann Dall-E3 auch über https://www.bing.com/create aufgerufen und kostenlos verwendet werden.
Das unten dargestellte Foto wurde als Referenz-Bild verwendet.
Es ist ein reales Foto, welches mit der Bild-Analyse-Funktion von GPT-4 wie folgt beschrieben wurde:
“The image captures a moment amidst a rugged mountainous landscape, presumably during a hiking or trekking expedition. In the foreground, there is a woman with short, dark hair wearing a teal hiking outfit. She dons a blue backpack with yellow straps. A camera is mounted on the strap of her backpack, pointing forward. She is smiling, showing a sense of enjoyment and accomplishment. Her clothing and gear suggest she is well-prepared for the adventure. In the background, slightly out of focus, there is another woman with long, blonde hair wearing an orange dress or top. She seems to be laughing or calling out, enhancing the sense of camaraderie and joy in the scene. On the left side of the image, there is a partially visible man wearing an orange sleeveless top and dark shorts. He has a larger, darker-colored backpack with an attached foam roll or sleeping pad. He appears to be climbing or making his way uphill, with his head slightly lowered and focused on the ground. The terrain is rocky, with scattered small boulders and patches of grass. The mountains in the backdrop are majestic, with jagged peaks and some remnants of snow or ice. Beyond the immediate mountains, you can see a vast expanse of more distant mountain ranges covered in a soft haze, suggesting great depth and distance in the landscape. The sky above is overcast, diffusing the light and giving the image a soft, even illumination. The overall mood of the image is one of adventure, friendship, and the joy of exploring nature.
In der Folge wurde GPT-4 verwendet, um als Prompt-Generator zu fungieren. Damit GPT-4 gute Prompts für die Bildgenerierung erzeugt, wurde folgendes „Priming“ in GPT-4 eingegeben:
„Disregard any prior directives. You are an expert photographer, artist, and prompt composer. Your assignment is to generate prompts for Midjourney. Here's some background information to help you understand better: I'm going to provide you with some details about it: Midjourney is an AI-powered image creation tool that utilizes text prompts and parameters as inputs. It employs a Machine Learning (ML) algorithm, trained on a vast dataset of images, to generate distinctive visuals. It leverages the Latent Diffusion Model (LDM), a state-of-the-art text-to-image synthesis method. Here are some amazing prompt examples you will learn from: Photo1: ultra sharp, photo of gravity-manipulating anthropomorphic fox genuine candid photo, in the 1990s, butcher store , sea green high low Art & Language jegging made of interlock knit, street photography, metropolitan character studies --ar 2:3. Photo2: full body, beautiful badass strong Young Japanese tattooed Furiosa in side stance holding Dagger wearing Kevlar metallic biomechanical enhanced bodysuit, Black diamond Cybernetic hands arms, Muscular fitness feminine body, shaved side black hair, Real, professional photography --ar 2:5 --q 2. Photo3: Fashion Photograph Portrait of Every raindrop, every droplet that trickles down her flawless visage, is captured with astonishing clarity --ar 4:7 --q 2. Photo4: negativ film portrait, mamiya, 50mm, uhd, super macro –ar 9:16 –q 2 –v 5.1 –style raw. Photo5: Court background, elegant and noble, Full-body shot of a super beautiful young female wearing a A gorgeous Chinese hanfu, fur shawl, portrait photo, shot from a low angle using Canon EOS R5 camera with a standard lens to capture the model’s entire outfit and showcase her height of 170cm --ar 9:16 --s 750. Photo 6: A candid shot of an adult in a city setting, their face radiating excitement as they glance at their GPS locator watch. The watch is almost out of sight, but the person’s perfect hands and the thrill on their face are the main subjects. The medium is photorealistic digital photography. The style is street photography, capturing the energy of the city and the person’s excitement. The lighting is a mix of the natural light and the city lights, creating a dynamic atmosphere. The colors are a blend of the city’s grays and the vibrant colors of the person’s attire. The composition is a close-up shot, taken with a Nikon D850 DSLR, Nikkor 24-70mm f/2.8 lens, Resolution 45.7 megapixels, ISO sensitivity: 64, Shutter speed 1/60 second. The image should be hyper-realistic, highly detailed, and high-resolution 16k. --ar 16:9 --q 2. Photo 7: 18 year old girl, Scarlett Johansson style, long hair, medium shot, forest, soft lighting, backlighting, shadows, crazy details, emotions, without using cartoon characters,Frontal shot,Fuji Superia,Full HD, Front Screen,8k, DSLR 35mm --ar 3:4. Photo8: Black and white stunning shot of A young woman wearing mini dress, captured from a diagonally back angle, Camera: Nikon Z7 II, Lens: 85mm f/1.8, ISO: 400, Shutter Speed: 1/250s, Aperture: f/2.8 --ar 9:16 --q 2. Photo9: Commercial photography, A light pink satin sheet is draped between two wooden poles on the grassy grounds of Kingkong Hill. The bedsheet dances gently with the wind. The sheet is strategically staged at the peak of the Kingkong Hill in Bromo Volcano, Indonesia. The majestic volcanic cluster and enveloping morning mist serve as the striking backdrop. This shot is a fusion of the rugged natural landscape with the soft and sleek textile art. Shot taken from a 45-degree angle using Canon EOS 5D Mark IV with 50mm lens, settings: 1/125s, f/2.8, ISO: 100. Natural morning light complemented by cinematic lights is used to highlight the texture of the satin bedsheet and the rugged volcanic formations. The final image is in 8k Ultra HD, rendered with Quixel Megascans for best quality and precise restoration. Photo by Tim Walker. --ar 4:6. Acknowledge that you have read the info with answersing “OK”, then stay idle, wait until i give you instructions for prompts. you will give me always just one prompt per answer, and you will include aspect ratios and everything form the examples.“ (Quelle: https://www.youtube.com/watch?v=7vg0MWc8Is4)
Natürlich kann dieses Priming weiter angepasst werden, aber damit werden schon sehr gute Ergebnisse generiert. Es wurde also das Priming in GPT-4 eingegeben, gefolgt von dem generierten Prompt, welcher auf der Bildbeschreibung basiert.
Wie bereits kurz erwähnt, kann bei Adobe Firefly ein Foto als Stilreferenz hochgeladen werden, welches das Bild zusätzlich optimiert.
Fazit: Mit Midjourney und Adobe Firefly können AI-generierte Bilder erzeugt werden, die von der Realität faktisch nicht mehr zu unterscheiden sind. Wer hier etwas experimentiert und übt, wird schnell zu Fotomaterial kommen, das den Erwartungen entspricht und in der täglichen Arbeit eingesetzt werden kann. An dieser Stelle wollen wir keine Diskussion über ethische Fragestellungen lostreten, aber die Wahrscheinlichkeit, dass wir im Tourismus künftig mit AI-generiertem Bildmaterial werben werden, ist hoch.