Ich habe mit ChatGPT und Gemini meine Katze zu einem Menschen gemacht und der Sieger ist eindeutig

Der nächste Trendsetter? Auch Googles Chatbot Gemini kann jetzt Bilder generieren. Ich probiere aus, wie gut der meinen Kater zum Menschen macht.

Ich habe Kater Sweeney von ChatGPT und von Gemini in einen Menschen verwandeln lassen. Ich habe Kater Sweeney von ChatGPT und von Gemini in einen Menschen verwandeln lassen.

Auf den Ghibli-Trend folgt der Action-Figuren-Trend: OpenAI hat im Mai 2025 sein Bildergenerierungsmodell in ChatGPT integriert. Nun könnt ihr im Chat selbst Bilder nach euren Wünschen erstellen.

Jetzt ist auch Google nachgezogen: In Gemini 2.0 Flash könnt ihr ab sofort im selben Chat Texte und Bilder generieren.

Damit ich die beiden gegeneinander testen kann, ist auch schon der nächste Trend um die Ecke gekommen: Unter dem Stichwort Pet-to-Human verwandeln Nutzer mithilfe von KI ihre Haustiere in Menschen.

Die Aufgabe selbst ist durchaus interessant: Sie kombiniert Erkennung, Interpretation und Neugenerierung miteinander.

Ursula Demling
Ursula Demling

Nach ihrem Computerlinguistik-Studium beobachtet Uschi die Entwicklungen rund um generative KI mit Faszination, aber auch einem kritischen Blick, gerade wenn es um Urheberrecht und die Macht von Tech-Konzernen geht.

Mit dem Pet-to-Human-Trend verbindet sie ein ganz persönliches Erlebnis: Nachdem ihre Mutter ihr als Kind Haustiere verbietet, kann sie mit Die Sims - Tierisch gut drauf endlich ihren Traum von einem Haus voller Hunde und Katzen verwirklichen. Ihr Bruder probiert am gemeinsamen Familiencomputer mit dem Sims-Erweiterungspack Hokus Pokus am liebsten neue Zauber aus. Mithilfe von Magie kann der auch Haustiere in Sims verwandeln.
So öffnet die kleine Uschi eines Tages ihren letzten Speicherstand und aus ihrem kleinen niedlichen Beagle Monty ist ein Sim geworden: Dick, im fettigen Unterhemd mit Afrobusch und Schnauzbart.

Dass sie das über 20 Jahre später mithilfe von generativer KI ein wenig nacherleben darf, hätte sie damals nicht gedacht.


In diesem Sinne: Vorhang auf für den verschmusten Stubentiger meiner Mitbewohnerin: Sweeney.

Mit einem Prompt macht ihr euer Haustier zum Menschen

Was Gemini 2.0 Flash und GPT-4o verbindet, ist dass beide Modelle multimodal sind. Das bedeutet: Texte und Bilder werden nicht mehr getrennt erzeugt, sondern von einem gemeinsamen System verstanden und verarbeitet. So sollen die Modelle die semantischen Informationen aus Texten und Bildern besser miteinander verknüpfen.

Wir haben im folgenden Artikel einige Tipps zusammengefasst, wie ihr mit GPT-4o bessere Bilder generiert:

Mithilfe der Tipps habe ich lange an einem Haustier-zum-Menschen-Prompt gefeilt. Zum Schluss kann ich euch folgenden Text mitgeben, falls auch ihr das einmal ausprobieren wollt:

Erzeuge ein fotorealistisches Bild basierend auf dem hochgeladenen Foto meines [Haustiers]. Stelle mein [Haustier] als realistischen Menschen dar, wobei charakteristische Merkmale wie Fellfarbe, Augenfarbe und Ausdruck erhalten bleiben. Hintergrund, Bildausschnitt, Perspektive und Lichtverhältnisse sollen exakt dem Originalfoto entsprechen.

Aber gleich vorweg: Während einem der beiden Chatbots der vorangegangene Prompt zu einem Ergebnis reicht, das meiner Anfrage entspricht, erzeugt der andere auch mit deutlich detaillierteren Prompts eher gruslige Bilder.

Aber seht selbst.

Von der Katze zum Menschen mit ChatGPT

Ich gebe den vorliegenden Prompt ChatGPT mit GPT-4o. Sofort beginnt das System mit der Bildergenerierung. Bis ein Bild erstellt wird, vergehen allerdings geschlagene 100 Sekunden.

Doch das Ergebnis kann sich durchaus sehen lassen:

ChatGPT reproduziert:

  • dass das Haustier männlich ist.
  • dass ein fotorealistisches Bild eines Menschen generiert werden soll.
  • dass der Hintergrund gleich bleiben soll.

Von der Katze zum Menschen mit Gemini

ChatGPT hat es mir rückblickend erstaunlich einfach gemacht. Grundsätzlich ist Gemini, die KI von Google, zwar deutlich schneller als ChatGPT: Die Bilder werden innerhalb weniger Sekunden generiert.

Doch derselbe Prompt, den ich auch bei ChatGPT verwende, bringt bei Gemini folgendes Ergebnis:

Aber auch mit einem deutlich längeren Prompt mit Details zur Einhaltung der Kameraperspektive und ähnlichem schaffe ich es mit Gemini nicht, ein Bild von etwas zu produzieren, das man getrost als Mensch bezeichnen könnte.

Hier ein kleines Gruselkabinett der Wesen, die ich mit unterschiedlichen Prompts zu dieser Aufgabe mithilfe von Gemini erstellen konnte:

Fazit: Geminis Bildergenerierungs-KI wird wohl nicht den nächsten Trend hervorbringen

Warum Gemini so viel schlechtere Ergebnisse erzeugt als ChatGPT, ist nicht einfach zu beantworten.

Beide Firmen halten ihre Trainingsdaten geheim. Nicht zuletzt vermutlich auch, weil die Modelle wahrscheinlich auch auf urheberrechtlich geschütztem Material trainiert wurden.

Eine Quelle gibt OpenAI aber in einem Paper zu GPT-4o aber selbst an: Im Rahmen einer Kooperation mit Shutterstock, einer Datenbank für Stockfotos, hatte die Firma nicht nur Zugriff auf die Bilder, sondern auch deren Captions. Die eignen sich ausgezeichnet, um damit Modelle zu trainieren, die basierend auf Text Bilder erstellen sollen.

Die Gemini-Flash-Modelle werden eher damit beworben, dass sie schnell und kosteneffizient seien. Und vergleicht man die Generierungsdauer, ist ChatGPT gegenüber Gemini tatsächlich eine lahme Ente. Google selbst bezeichnet Gemini 2.0 Flash als unser Arbeitspferd für alle täglichen Aufgaben.

Grundsätzlich sind die erzeugten Bilder Geschmackssache: Neben dem Panoptikum an katzenartigen Menschenwesen wirkt das fotorealistische Ergebnis von ChatGPT fast langweilig.

Allerdings habe ich in dem kleinen Experiment schon gemerkt, dass es bei der semantischen Übertragung von Text und Bild bei Gemini noch hapert.

Und gerade das ist vermutlich etwas, das den Nutzern bei GPT-4o so eine Freude bereitet: Mit relativ einfachen Prompts können die gewünschten Ergebnisse erzielt werden und genau das sorgt immer wieder für Hypes.

Insofern wird Gemini wahrscheinlich nicht den nächsten Trend setzen. Aber das muss es ja auch nicht.

Was meint ihr dazu? Habt ihr auch schon einmal versucht, mit KI ein Tier in einen Menschen zu verwandeln? Oder was habt ihr sonst so für Erfahrungen mit ChatGPT und Gemini gesammelt? Schreibt uns eure Erfahrungen in die Kommentare!

zu den Kommentaren (5)

Kommentare(5)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.