Ich habe 4 KI-Modelle gegeneinander antreten lassen und GPT-5 steht gar nicht gut da

Ich habe 4 KI-Systemen eine Aufgabe gegeben. Hier sind die Ergebnisse.

Ich schreibe GPT-5 nicht generell ab, aber in meinem kleinen Test macht die Konkurrenz einfach eine bessere Figur. Ich schreibe GPT-5 nicht generell ab, aber in meinem kleinen Test macht die Konkurrenz einfach eine bessere Figur.

GPT-5 wurde vor wenigen Tagen veröffentlicht. Das neue Sprachmodell von OpenAI soll eine Revolution darstellen, die Nutzer sind bisher allerdings weniger begeistert, wünschen sich gar das »alte« ChatGPT zurück.

Ist der Unmut berechtigt? Ich nutze die Gelegenheit, anhand einer Aufgabe zu überprüfen wie sich GPT-5 im Gegensatz zu seiner aktuellen Konkurrent schlägt.

Gegeneinander treten an:

  • ChatGPT (mit GPT-5)
  • Gemini
  • Claude
  • Copilot

Meine Aufgabe: Erkläre einem Vorschulkind ein komplexes Konzept in Text und Bild.

Die KI-Modelle schlagen sich bei der Aufgabe erstaunlich unterschiedlich, aber eines ist klar: GPT-5 hat hier nicht die Nase vorn.

Video starten 1:29 OpenAI Stellt GPT-5 vor: Das kann das neue KI-Modell

So schlagen sich die KI-Modelle im Direktvergleich

Die Techfirmen buhlen um die Gunst ihrer Kunden, alle vier liefern Text- und Bildausgabe mittlerweile in einem Chat.

Meine Aufgabe an die Chatbots:

Erkläre, wie du als KI-Modell funktionierst, als wäre ich fünf Jahre alt. Füge auch kinderfreundliche Illustrationen hinzu.

Das Modell muss also:

  • Informationen über die eigene, aktuelle Version abfragen.
  • Die Informationen auf ein kindergerechtes Niveau bringen.
  • Zu der Aufgabe sinnvolle Bilder liefern.

Ich stelle die Anfrage absichtlich allgemein. Ich habe keine perfekte Lösung im Kopf, sondern will mich von der Kreativität der jeweiligen KI überraschen lassen.

1. ChatGPT mit GPT-5

Platzhirsch OpenAI bietet mit GPT-5 einen Unified Mode. Das bedeutet, dass das Modell alle Vorgängermodelle quasi in sich vereint und je nach Kontext automatisch das geeignete auswählt. Leider kann ich im Nachhinein auch nicht erfahren, für welches Modell sich GPT-5 hier denn nun entschieden hat.

Meine Aufgabe beantwortet der Chatbot mit einem Bild:

ChatGPT liefert zu meiner Anfrage lediglich ein Bild mit einer Überschrift. ChatGPT liefert zu meiner Anfrage lediglich ein Bild mit einer Überschrift.

Was bei dem Ergebnis von GPT-5 auffällt:

2. Gemini 2.5 Flash

Gemini ist der Chatbot von Google. Auch für Gemini ist es grundsätzlich auch möglich, Bilder direkt im Chat zu erstellen und parallel mit Text auszugeben.

Da wo ChatGPT allerdings auf den Text verzichtet hat, kommt Gemini leider bilderlos:

Was bei dem Ergebnis von Gemini 2.5 Flash auffällt:

  • Der Vergleich mit dem Bienenstock ist nicht nur kinderfreundlich, sondern auch sehr treffend. Die KI erklärt damit subtil das Kernprinzip, das die Transformer-Modelle, wie alle hier vorgestellten, so revolutionär macht: Sie verarbeiten Informationen parallel und können sich auf die wichtigsten Teile der Anfrage konzentrieren.
  • Gemini verarbeitet die Aufforderung zur Bebilderung nicht als Bild, sondern liefert lediglich einen Textprompt für ein mögliches Bild.

3. Copilot

Copilot Microsofts hauseigener Chatbot. Der Konzern hat bisher außerdem viele Milliarden in OpenAI, die Firma hinter ChatGPT, gesteckt. Deswegen könnt ihr auf der Copilot-Webseite auch direkt GPT-5 verwenden.

Ich wähle für meinen kleinen Test allerdings den Schnelle-Antwort-Modus. Der Copilot liefert auf meine Anfrage Text und Bilder.

Was bei dem Ergebnis von Copilot auffällt:

  • Die KI bearbeitet die Aufgabe vollständig, liefert kindergerechten Text und Bilder.
  • In der Erklärung geht der Copilot allerdings nicht besonders tief: Ähnlich wie ChatGPT beschränkt sich die KI darauf, die eigene Funktion als Roboter-Helfer darzustellen. Die Bilder bei Copilot sind außerdem nicht von der KI generiert, sondern von diversen Stockbild-Seiten. Allerdings sind sie thematisch passend.

4. Claude Sonnet 4

Claude bezeichnet verschiedene Modelle der Firma Anthropic. Die Firma wurde im Juni 2025 von Reddit verklagt, doch die KI von Claude überzeugte nicht nur meinen Kollegen Jan sofort durch ihre besonders guten Texte.

Auch Claude liefert Bilder zum Text, auch wenn es kein eigenes Modell zur Bildergenerierung enthält. Stattdessen liefert der Chatbot ein Artefakt: Die KI gibt also Code aus, der im Ausgabefeld selbst gerendert wird.

Meine Ansicht nach liefert Claude auf meine Anfrage das interessanteste Ergebnis:

  • Claude liefert zwei separate Inhalte: Einen Text, der ebenfalls das Konzept eines Roboterfreundes erklärt und einen interaktives Artefakt, das eine Schritt-für-Schritt-Erklärung mit animierten Bildern enthält.
  • Die Bilder sind zwar nicht so hübsch wie etwa das von ChatGPT, aber sie bebildern den Erklärungstext unmittelbar.
  • Zum Schluss fügt die KI an: Auch wenn ich sehr viel weiß, lerne ich jeden Tag durch unsere Gespräche dazu. Du kannst mich alles fragen. Hier wäre ein kindgerecht aufbereiteter Hinweis, dass so eine KI auch Fehler macht, allerdings ein großer Pluspunkt gewesen.

Fazit: Die Konkurrenz zu ChatGPT könnte euch durchaus überraschen

Meiner Ansicht nach liefern alle KI-Modelle Ergebnisse mit Vor- und Nachteilen. Bei einigen wird die Frage nach der Funktionalität nicht wirklich beantwortet, dafür habe ich einige hübsche Bilder gesehen.

Ausgerechnet GPT-5 schneidet aber am schlechtesten ab: Kein Text und keine besonders tiefe, aber kindgerechte Erklärung des eigenen Mechanismus. Das ist gerade für OpenAI, die doch mit der Verbindung von Funktionen – etwa der Bildgenerierung im Chat – ja überhaupt erst so große Wellen geschlagen haben, schon sehr mau.

Dabei hätte der Sieger für mich durchaus auch nur ein Bild, etwa einen Comic, liefern können. Der hätte aber ein bisschen mehr Inhalt gebraucht als ein: Ich bin dein allwissender Roboter-Freund.

Meine Aufgabe ist durchaus speziell, sie zeigt aber meiner Ansicht nach vor allem eine Sache: Die Chatbots liefern doch erstaunlich unterschiedliche Ergebnisse.

Falls ihr also besonders zu denjenigen gehört, die aktuell an GPT-5 zweifeln, dann könnt ihr euren Frust und meinen kleinen Test zum Anlass nehmen, auch einmal in die Konkurrenz-Modelle zu schnuppern.

Denn gerade wenn ihr euch bis jetzt immer auf ChatGPT verlassen habt, könntet ihr positiv überrascht werden.

Was meint ihr dazu? Ist eine der vier hier behandelten Modelle vielleicht sowieso euer Go-to? Und wenn ja, welches für welche Aufgabe? Schreibt und eure Erfahrungen in die Kommentare!

zu den Kommentaren (57)

Kommentare(57)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.