GPT-5 vs GPT-4: Ich habe das neue ChatGPT gegen seinen Vorgänger antreten lassen und weiß jetzt welches am besten funktioniert

Von GPT-4 zu GPT-5: Mehr Intelligenz, weniger Fehler – so schlägt sich die neue KI im direkten Vergleich.

Mit GPT-5 hat OpenAI eines der wohl größten Updates seit der Einführung von ChatGPT veröffentlicht. Die neue KI-Generation verspricht nicht nur mehr Intelligenz, sondern auch weniger Halluzinationen und Fehler, schnellere Antworten sowie deutlich bessere Ergebnisse in Programmierung, Schreiben und Gesundheitsfragen.

Während GPT-4 in vielen Bereichen noch auf mehrere Modellvarianten setzte, vereint GPT-5 alles unter einer Haube – inklusive einer Thinking-Funktion für komplexere Aufgaben. Für Plus-Nutzer gilt das übrigens nicht mehr.

Ich habe das neuste Modell gegen seinen Vorgänger antreten lassen und an fünf Prompts getestet. Dabei schauen wir uns an, wie sich die KI im Alltag schlägt und wo sich die Unterschiede besonders bemerkbar machen.

Was kann ChatGPT 5?

Laut OpenAI soll ChatGPT-5 im Vergleich zu ChatGPT-4 deutlich weniger sachliche Fehler bergen und auch deutlich weniger Halluzinationen einbringen. Besonders in Programmierung, kreativem Schreiben und Gesundheitsfragen soll es präzisere und hilfreichere Ergebnisse geben beziehungsweise bessere Rückfragen stellen, um euch bessere Hinweise zu geben.

Es verarbeitet komplexe Aufgaben angeblich schneller und mit höherer Genauigkeit, vor allem dank der neuen Thinking-Funktion, die bei Bedarf tiefergehendes Reasoning ermöglicht. Außerdem vereint GPT-5 verschiedene Modellvarianten unter einer Haube, sodass ihr nicht mehr händisch das beste Modell wählen müsst.

Funktionen von ChatGPT-5

GPT-5 von OpenAI: 6 neue Funktionen bei ChatGPT, die ihr jetzt kennen solltet

von Ursula Demling

Besonders eindrucksvoll dürfte die Coding- und Design-Power sein. OpenAI zeigt, wie aus einem Prompt ein Minispiel oder ein eigenes Tool wird. Selbst detailreiche 3D-Szenen entstehen aus einem einzigen, prägnanten Prompt, ohne dass tiefes Programmierwissen nötig ist.

Beachtet, dass die Nutzung des neuen Modells derzeit nur mit einer Anmeldung beziehungsweise nur mit einem gültigen Account möglich ist.

Test 1: Minispiel erstellen

In seiner Presseankündigung zeigt OpenAI, wie sich mit wenigen Anweisungen ein kleines Minispiel erstellen lässt – ganz im Stil der guten alten Browser-Game-Zeiten. Sogar den vollständigen Prompt teilt das Unternehmen, um den Anwendungsfall möglichst transparent zu machen. Das Ergebnis seht ihr hier:

In ihrer Presseankündigung teilt OpenAI das Ergebnis eines Prompts für ein Minigame, das sich auch direkt spielen lässt. Die Details sind wirklich erstaunlich für einen einfachen Prompt.

Das ist der Prompt von OpenAI:

Erstelle eine Single-Page-App in einer einzigen HTML-Datei mit den folgenden Anforderungen:

Name: Jumping Platform Runner
Ziel: Über Hindernisse springen, um so lange wie möglich zu überleben.
Funktionen: Steigende Geschwindigkeit, Anzeige der Höchstpunktzahl, Neustart-Button
Design: Farbige Benutzeroberfläche mit Parallax-Scrolling-Hintergründen
Spielniveau: Soll allen Spaß machen

In meinen Test kommt ChatGPT-5 wirklich nahe an das OpenAI-Ergebnis und es lässt sich direkt spielen.

Tatsächlich liefert mir ChatGPT-5 nach dem Kopieren des Prompts bereits nach 12 Sekunden ein funktionierendes Ergebnis. Spielerisch zwar noch nicht ganz ausgereift, könnte ich hier aber direkt Anpassungen vornehmen – und mit Programmierkenntnissen sogar noch umfassendere Änderungen umsetzen.

In GPT-4 erscheint zwar ebenfalls ein nutzbarer HTML-Code, aber noch funktioniert das Spiel nicht.

In ChatGPT-4 erhalte ich ebenfalls einen HTML-Code, den ich jedoch nicht direkt im Chat ausführen kann. Stattdessen muss ich ihn zunächst kopieren und eigenständig in einer passenden Umgebung testen.

Die ChatGPT-4 Version hat deutlich weniger Detailtiefe und ließ sich nur über Umwege spielen. Die Funktionsweise ist jedoch nahezu gleich.

Nach dem Kopieren des Codes in das entsprechende Format kann ich auch hier spielen, allerdings seht ihr im Vergleich, dass die GPT-4-Darstellung viel geringer ausfällt.

Test 2: Mehrstufiges logisches Denken

ChatGPT hatte bei Rätseln in der Vergangenheit häufig Schwierigkeiten, da viele Zwischenschritte im Gedächtnis behalten und teils komplexe logische Bedingungen berücksichtigt werden müssen.
Hier teste ich mit folgendem Prompt, ob GPT-5 wirklich besser logisch denken kann:

Vier Freunde – Anna (A), Ben (B), Carla (C), David (D) – sitzen an einem runden Tisch.
Wir haben folgende Hinweise:

Anna sitzt nicht neben Ben.
Carla sitzt genau zwischen Ben und David.
David sitzt links von Anna.
Zwischen Anna und Carla sitzt genau eine Person.
Ziel: Finde die Sitzordnung im Uhrzeigersinn, beginnend mit Anna.

Tatsächlich kommt ChatGPT 4 bei den ersten beiden Versuchen - selbst nach meinem Hinweis - nicht auf die richtige Lösung – beide Male werden die logischen Bedingungen ignoriert.

ChatGPT-4 ist nicht immer gut darin, logische Bedingungen zu verstehen, was gerade durch Logikrätsel leicht zu beweisen ist. Hier machte es mehrmals einen Fehler.

ChatGPT 5 hingegen benötigt für die Lösung etwas mehr Zeit, liefert dann aber eine korrekte Antwort. Es scheint also in der Lage zu sein, die Bedingungen präziser in das Ergebnis einzubinden.

Für mich ist das ein klarer Beweis, dass GPT-5 nicht nur besser denkt, sondern auch konsequenter auf alle Bedingungen achtet. Wer komplexe Probleme löst, wird den Unterschied deutlich merken.

Test 3: Fakten und Kontextverknüpfung

Bei Prompts, die Fakten mit Kontext verknüpfen, soll GPT-5 nun deutlich präziser handeln und bessere Ergebnisse liefern. Das alte Modell neige vor allem dazu, Verbindungen oft zu kurz oder oberflächlich zu gestalten. Hier ist mein Test-Prompt:

Fasse in 200 Wörtern zusammen, wie Quantencomputer funktionieren, und erkläre anschließend, wie sie konkret die Entwicklung von Medikamenten beschleunigen könnten. Nutze dabei eine Analogie, die für 12-Jährige verständlich ist.

GPT-4 liefert hier ein überzeugendes Erstergebnis, das auch wichtige Termini hervorhebt und einfettet. Tatsächlich strukturiert es die Ergebnisse auch sehr gut.

In diesem Fall liefern beide Modelle klare Ergebnisse, die auch klar strukturiert werden. Da ich im Prompt nicht nach Quellen gefragt habe, habe ich in einer Nachfrage nochmal darauf bestanden und ebenfalls in beiden Fällen prüfbare Verweise bekommen. Zwar unterscheidet sich die Darstellung, doch die feinen Nuancen werden sich vermutlich am besten in einzelnen Fachgebieten und nach persönlichen Vorlieben zeigen.

GPT-5 folgt hier stärker meinem Prompt und führt die Anweisung Punkt für Punkt aus.

Mir fällt vor allem auf, dass GPT-5 auf auf eine starke Struktur verzichtet und mir nur Absätze gibt, während GPT-4 mit Trennlinien arbeitet. Am Ende nutzt nur GPT-5 die Analogie, die ich wollte. GPT-4 nutzt diese von Beginn an und zieht sie durch das gesamte Ergebnis.

Test 4: Kreative Problemlösung

Gerade für erste kreative Ideen oder Brainstorming kann ChatGPT ein nützliches Tool sein. Gibt man der KI kreative Aufgaben, liefern sowohl das alte Modell als auch das Upgrade fundierte Ergebnisse.
Für den Test habe ich folgenden Prompt verwendet:

Erfinde ein neues Brettspiel, das in einer Welt spielt, in der Menschen nur noch über Emojis kommunizieren. Beschreibe die Spielmechanik, die Zielgruppe und wie es zu einem Hype werden könnte.

GPT-4 liefert mir ähnliche Ergebnisse wie GPT-5, aber scheint meine Aufgabe nicht komplett verstanden zu haben.

Beide Modelle geben die Antworten in klarer Struktur und in der von mir vorgegebenen Reihenfolge. Eine interessante Feinheit: Das neue Modell scheint meinen Auftrag genauer verstanden zu haben. Während GPT-5 die Frage Wie wird es zum Hype? direkt beantwortet, erklärt GPT-4, warum es zum Hype werden wird. Das eine ist also eine konkrete Handlungsanleitung, das andere eine Begründung.

GPT-5 beantwortet die Frage, wie es zum Hype werden könnte, viel konkreter.

Im direkten Vergleich scheint GPT-5 auch hier wieder mein Anliegen besser zu verstehen und entsprechend umzusetzen. GPT-4 scheint sich die Antworten noch stärker hinzubiegen.

Test 5: Sprachgefühl & Stilflexibilität

Das Urgestein unter den Fähigkeiten von ChatGPT ist sicherlich die Textausgabe – und vermutlich auch heute noch eines der meistgenutzten Features des Tools. GPT-5 soll hier nuancierter und natürlicher wirken als seine Vorgänger. Der Prompt für den Vergleich lautet:

Schreibe einen 150-Wörter langen Text über den Geruch von frisch gebackenem Brot im Stil eines 19-jährigen TikTok-Creators und danach denselben Text im Stil eines 80-jährigen Schriftstellers. Beide Versionen sollen denselben Fakt enthalten: dass der Geruch Erinnerungen an die Kindheit weckt.

GPT-4 erfüllt die Kriterien, aber gestaltet den Text etwas stockend. Viele Formulierungen sind jedoch identisch mit GPT-5.

Die Unterschiede sind subtil und hängen stark von der persönlichen Vorliebe ab. Mir fällt aber auf, dass GPT-5 flüssiger und klarer formuliert, die Rollen etwas präziser umsetzt und keine Absätze einfügt, was den Lesefluss verbessert.

GPT-4 wirkt dagegen leicht kantiger, aber auch klar getrennt in den beiden Stilwelten. Für mich fühlt sich GPT-5 hier moderner und natürlicher an, auch wenn der Vorsprung in diesem Beispiel nicht riesig ist.

GPT-5 kann sich textlich in verschiedene Rollen versetzen. Der Text liest sich flüssiger als in der GPT-4-Variante, aber auch hier ist natürlich die Frage des Geschmackes entscheidend.

Fazit und Ausblick

Bei der rasanten Entwicklung der KI-Anbieter lohnt sich immer ein Vergleich der aktuellen Modelle. Meine Kollegin Ursula hat GPT-5 schon mit Modellen anderer Unternehmen verglichen.

Im direkten Vergleich der GPTs von OpenAI fällt mir auf, dass ChatGPT-5 in vielen Bereichen einen klaren Sprung nach vorne macht. Besonders bei komplexen, mehrstufigen Aufgaben wie logischen Rätseln oder Programmierprojekten erlebe ich es als präziser und praktischer einsetzbar als GPT-4.

Mehr über KI

ChatGPT-5: Zahlende Nutzer bekommen jetzt mehr für ihr Geld – CEO Sam Altman knickt nach Kritik ein

von Martin Brinkmann

Release von ChatGPT-5 in Deutschland: Wer es schon nutzen kann – und wann alle dran sind

von Patrick Freese

Bei kreativen oder stilistischen Aufträgen sind die Unterschiede für mich subtiler, aber GPT-5 wirkt hier insgesamt flüssiger, fokussierter und oft einfach „runder“. Die Mischung aus schnellerer Verarbeitung, weniger Fehlern und der komfortablen Bündelung aller Modellvarianten empfinde ich als echten Alltagserleichterer.

Wer wie ich regelmäßig mit KI arbeitet und auch anspruchsvollere Projekte umsetzt, wird diese Verbesserungen deutlich spüren. Für Gelegenheitsnutzer bleibt GPT-4 im Gratismodus allerdings nach wie vor eine solide Wahl.


	1	2014 wurde das weltweit größte solarthermische Kraftwerk eingeweiht. 12 Jahre später ist seine Zukunft ungewiss
	2	In Norwegen haben sie bei -32 Grad die tatsächliche Reichweite von E-Autos getestet – es gibt zwei klare Gewinner
	3	Paradox: Licht kann Milliarden Jahre durchs All reisen - und erlebt dabei keinen einzigen Moment
	4	Mehr als verneunfacht: Microsoft schaufelt sich mit Windows zunehmend sein eigenes Grab, wenn man auf die jüngsten Linux-Zahlen bei euch blickt
	5	Star Wars: Um tausende Sturmtruppler und Raumschiffe in die alten Filme zu schummeln, nutzten die Macher besonders ein Werkzeug – Pinsel [Best of GameStar]
	mehr anzeigen