Auf den Ghibli-Trend folgt der Action-Figuren-Trend: OpenAI hat im Mai 2025 sein Bildergenerierungsmodell in ChatGPT integriert. Nun könnt ihr im Chat selbst Bilder nach euren Wünschen erstellen.
Jetzt ist auch Google nachgezogen: In Gemini 2.0 Flash könnt ihr ab sofort im selben Chat Texte und Bilder generieren.
Damit ich die beiden gegeneinander testen kann, ist auch schon der nächste Trend um die Ecke gekommen: Unter dem Stichwort Pet-to-Human
verwandeln Nutzer mithilfe von KI ihre Haustiere in Menschen.
Die Aufgabe selbst ist durchaus interessant: Sie kombiniert Erkennung, Interpretation und Neugenerierung miteinander.
In diesem Sinne: Vorhang auf für den verschmusten Stubentiger meiner Mitbewohnerin: Sweeney.
Mit einem Prompt macht ihr euer Haustier zum Menschen
Was Gemini 2.0 Flash und GPT-4o verbindet, ist dass beide Modelle multimodal sind. Das bedeutet: Texte und Bilder werden nicht mehr getrennt erzeugt, sondern von einem gemeinsamen System verstanden und verarbeitet. So sollen die Modelle die semantischen Informationen aus Texten und Bildern besser miteinander verknüpfen.
Wir haben im folgenden Artikel einige Tipps zusammengefasst, wie ihr mit GPT-4o bessere Bilder generiert:
Mithilfe der Tipps habe ich lange an einem Haustier-zum-Menschen-Prompt gefeilt. Zum Schluss kann ich euch folgenden Text mitgeben, falls auch ihr das einmal ausprobieren wollt:
Erzeuge ein fotorealistisches Bild basierend auf dem hochgeladenen Foto meines [Haustiers]. Stelle mein [Haustier] als realistischen Menschen dar, wobei charakteristische Merkmale wie Fellfarbe, Augenfarbe und Ausdruck erhalten bleiben. Hintergrund, Bildausschnitt, Perspektive und Lichtverhältnisse sollen exakt dem Originalfoto entsprechen.
Aber gleich vorweg: Während einem der beiden Chatbots der vorangegangene Prompt zu einem Ergebnis reicht, das meiner Anfrage entspricht, erzeugt der andere auch mit deutlich detaillierteren Prompts eher gruslige Bilder.
Aber seht selbst.
Von der Katze zum Menschen mit ChatGPT
Ich gebe den vorliegenden Prompt ChatGPT mit GPT-4o. Sofort beginnt das System mit der Bildergenerierung. Bis ein Bild erstellt wird, vergehen allerdings geschlagene 100 Sekunden.
Doch das Ergebnis kann sich durchaus sehen lassen:


ChatGPT reproduziert:
- dass das Haustier männlich ist.
- dass ein fotorealistisches Bild eines Menschen generiert werden soll.
- dass der Hintergrund gleich bleiben soll.
Von der Katze zum Menschen mit Gemini
ChatGPT hat es mir rückblickend erstaunlich einfach gemacht. Grundsätzlich ist Gemini, die KI von Google, zwar deutlich schneller als ChatGPT: Die Bilder werden innerhalb weniger Sekunden generiert.
Doch derselbe Prompt, den ich auch bei ChatGPT verwende, bringt bei Gemini folgendes Ergebnis:


Aber auch mit einem deutlich längeren Prompt mit Details zur Einhaltung der Kameraperspektive und ähnlichem schaffe ich es mit Gemini nicht, ein Bild von etwas zu produzieren, das man getrost als Mensch bezeichnen könnte.
Hier ein kleines Gruselkabinett der Wesen, die ich mit unterschiedlichen Prompts zu dieser Aufgabe mithilfe von Gemini erstellen konnte:
Fazit: Geminis Bildergenerierungs-KI wird wohl nicht den nächsten Trend hervorbringen
Warum Gemini so viel schlechtere Ergebnisse erzeugt als ChatGPT, ist nicht einfach zu beantworten.
Beide Firmen halten ihre Trainingsdaten geheim. Nicht zuletzt vermutlich auch, weil die Modelle wahrscheinlich auch auf urheberrechtlich geschütztem Material trainiert wurden.
Eine Quelle gibt OpenAI aber in einem Paper zu GPT-4o aber selbst an: Im Rahmen einer Kooperation mit Shutterstock, einer Datenbank für Stockfotos, hatte die Firma nicht nur Zugriff auf die Bilder, sondern auch deren Captions. Die eignen sich ausgezeichnet, um damit Modelle zu trainieren, die basierend auf Text Bilder erstellen sollen.
Die Gemini-Flash-Modelle werden eher damit beworben, dass sie schnell und kosteneffizient seien. Und vergleicht man die Generierungsdauer, ist ChatGPT gegenüber Gemini tatsächlich eine lahme Ente. Google selbst bezeichnet Gemini 2.0 Flash als unser Arbeitspferd für alle täglichen Aufgaben
.
Grundsätzlich sind die erzeugten Bilder Geschmackssache: Neben dem Panoptikum an katzenartigen Menschenwesen wirkt das fotorealistische Ergebnis von ChatGPT fast langweilig.
Allerdings habe ich in dem kleinen Experiment schon gemerkt, dass es bei der semantischen Übertragung von Text und Bild bei Gemini noch hapert.
Und gerade das ist vermutlich etwas, das den Nutzern bei GPT-4o so eine Freude bereitet: Mit relativ einfachen Prompts können die gewünschten Ergebnisse erzielt werden und genau das sorgt immer wieder für Hypes.
Insofern wird Gemini wahrscheinlich nicht den nächsten Trend setzen. Aber das muss es ja auch nicht.
Was meint ihr dazu? Habt ihr auch schon einmal versucht, mit KI ein Tier in einen Menschen zu verwandeln? Oder was habt ihr sonst so für Erfahrungen mit ChatGPT und Gemini gesammelt? Schreibt uns eure Erfahrungen in die Kommentare!
Nur angemeldete Benutzer können kommentieren und bewerten.
Dein Kommentar wurde nicht gespeichert. Dies kann folgende Ursachen haben:
1. Der Kommentar ist länger als 4000 Zeichen.
2. Du hast versucht, einen Kommentar innerhalb der 10-Sekunden-Schreibsperre zu senden.
3. Dein Kommentar wurde als Spam identifiziert. Bitte beachte unsere Richtlinien zum Erstellen von Kommentaren.
4. Du verfügst nicht über die nötigen Schreibrechte bzw. wurdest gebannt.
Bei Fragen oder Problemen nutze bitte das Kontakt-Formular.
Nur angemeldete Benutzer können kommentieren und bewerten.
Nur angemeldete Plus-Mitglieder können Plus-Inhalte kommentieren und bewerten.