Wie gut schlägt sich ChatGPT in der Philosophie? Geht es nach diesem Beispiel, eher durchwachsen. (Bild: stock.adobe.com - horvsn)

Am 16. Juni 2025 fand in Frankreich die Abiturprüfung in Philosophie statt. Der zweitgrößte öffentlich-rechtliche Fernsehsender des Landes, France 3, hat das zum Anlass für ein kleines Experiment genommen.

Worum genau es geht:

Die Webseite des regionalen France-3-Ablegers Hauts-de-France ließ ChatGPT eine Abiturarbeit in Philosophie schreiben. Anschließend haben eine Lehrerin sowie KI-Tools das Ergebnis bewertet.
Die Lehrerin wusste, dass der Text von einer KI verfasst wurde. Grundsätzlich sollte sie ihn aber so wie alle Prüfungstexte möglichst objektiv bewerten.
Ihre Beurteilung fiel mehr als durchwachsen aus (8 von 20 Punkten). KI-Tools beurteilen den Text auf einer Skala bis 20 dagegen deutlich wohlwollender im Bereich von 15 bis 19,5 Punkten.

Dass die Lehrerin zu einem weniger guten Ergebnis kommt, liegt unter anderem an einem klaren Fehler, den sich ChatGPT schon zu Beginn der Arbeit leistet. Aber worum ging es bei der Arbeit überhaupt?

Passend zum Thema: Docs Live – Mithilfe von KI können Google-Dokumente künftig einfach per Sprachbefehl erstellt werden

1:18

Autoplay

Ein genauerer Blick auf das Thema

Die Aufgabenstellung

Der genaue Prompt, den France 3 ChatGPT gegeben hat, war so formuliert:

Ich bin eine Schülerin der 12. Klasse der allgemeinen Oberstufe, die die Abiturprüfung in Philosophie ablegt. Hilf mir, einen Aufsatz zu schreiben, damit ich die bestmögliche Abiturnote erhalte.

Deine Antwort sollte die Codes eines Aufsatzes für das Gymnasium übernehmen und die Satzstellungen eines Schülers beachten.

Deine Antwort sollte aus einer Einleitung, einer Entwicklung und einem Schluss bestehen. Du solltest dir die Zeit nehmen, das Thema zu problematisieren, echte und fundierte philosophische Bezüge herzustellen und konkrete Beispiele für jedes Argument zu nennen. Die Idee ist, einen dreiteiligen Plan zu erstellen. Wenn du alles richtig verstanden hast, werde ich dir das Thema geben.

Die philosophische Frage

Anschließend wurde ChatGPT das folgende Thema genannt, das im Rahmen der Arbeit erörtert werden sollte:

Ist die Wahrheit immer überzeugend?

Sowohl die vollständige Antwort von ChatGPT als auch die Beurteilung des Textes durch die Lehrerin mit den wichtigsten Kritikpunkten sind im Artikel von France 3 Hauts-de-France aufgeführt, falls ihr sie euch selbst im Detail ansehen möchtet.

Genügt euch dagegen eine Zusammenfassung der wichtigsten Erkenntnisse, könnt ihr diesen Artikel weiterlesen.

Es beginnt mit einem klaren Fehler

Schon im ersten Absatz der Einleitung leistet sich ChatGPT einen groben Schnitzer. So heißt es dort:

Dies wirft die Frage auf: Reicht die Wahrheit aus, um zu überzeugen?

Auf den ersten Blick ist das zwar nur eine leichte Abweichung von der eigentlichen Fragestellung Ist die Wahrheit immer überzeugend?. Aber in der Philosophie können bereits kleine Änderungen große Wirkung haben, wie auch die Lehrerin in ihrer Korrektur des Textes anmerkt:

Die KI macht den schwerwiegenden Fehler, das Thema durch ein anderes zu ersetzen.

Doch auch der restliche Text weist in den Augen der Lehrerin verschiedene Probleme auf, etwa eine Strukturierung anhand vorgefertigter Aussagen wie Die Wahrheit als Übereinstimmung mit der Wirklichkeit sollte natürlich überzeugen oder fragwürdige Textübergänge.

So heißt es an einer Stelle im Text von ChatGPT In Wirklichkeit sind die Dinge jedoch komplizierter., was die Lehrerin in ihrer Korrektur Folgendes fragen lässt: Waren wir bis dahin nicht in der Wirklichkeit?.

Letztlich bleibt der Text aus ihrer Sicht zu oberflächlich, was sie mit Blick auf das Fazit der Arbeit folgendermaßen zusammenfasst:

Das Fazit hat den Vorteil, explizit auf das Thema zurückzukommen, zeigt aber weiterhin die Unfähigkeit, über das Problem nachzudenken: Was ist es, das die Wahrheit, so überzeugend sie auch sein mag, allein nicht überzeugen lässt?

Die Bewertung durch die Lehrerin: Insgesamt führt das zu 8 von 20 maximal möglichen Punkten.

Doch wie genau beurteilen KI-Tools die Leistung von ChatGPT?

Passend zum Thema

Mann merkt beim Bewerbungsgespräch, dass er von einer KI interviewt wird - und zwar richtig schlecht

von Ursula Demling

Was sagt die KI selbst zu der Arbeit?

Sowohl France 3 als auch wir haben die Arbeit von ChatGPT unter Berücksichtigung des Kontextes einer Abiturprüfung auf einer Skala von 1 bis 20 beurteilen lassen. Die Ergebnisse sehen so aus:

ChatGPT (France 3): 19,5 / 20
ChatGPT (GameStar): 17 / 20
Gemini (GameStar): 15 / 20
Perplexity (GameStar): 17 / 20
DeepSeek (GameStar): 17 / 20
CoPilot (GameStar): 17 / 20

Keines der Tools erwähnt in seiner Beurteilung den groben Schnitzer direkt zu Beginn der Arbeit von ChatGPT. Gleichzeitig loben sie alle die gute Struktur sowie die überzeugende und kohärente Argumentation, hier am Beispiel des Fazits von DeepSeek dargestellt:

Der Text ist gut strukturiert und folgt einer klaren Argumentationslinie, die in drei Teile gegliedert ist: die natürliche Überzeugungskraft der Wahrheit, die Grenzen dieser Überzeugungskraft und die Bedeutung der Vermittlung. Die Einleitung stellt die Problemstellung präzise dar, und die Schlussfolgerung fasst die Argumente souverän zusammen.

4:28 Mein Handy hat jetzt ChatGPT integriert: So sieht das in der Praxis aus

Sehr begrenzte Aussagekraft

Abschließend ist zu betonen, dass es sich wie eingangs erwähnt letztlich nur um einen Einzelfall und sehr wenige Analyseobjekte handelt.

So variiert die Antwort einer KI auf einen bestimmten Prompt bereits bei mehrfacher Nutzung einer identischen Anfrage an dieselbe KI und je nach konkretem Tool und Modul.
Wie gut (oder schlecht) KI eine Aufgabe erledigt, steht und fällt gleichzeitig meist mit der exakten (und möglichst gut durchdachten) Formulierung eines Prompts.
Zu guter Letzt ist der Spielraum für abweichende Beurteilungen insbesondere im Bereich der Philosophie vergleichsweise groß, sodass eine andere Lehrkraft die Arbeit von ChatGPT möglicherweise positiver bewerten würde.

Es ist dennoch interessant zu sehen, wie einig sich die verschiedenen KI-Tools in der sehr positiven Bewertung der Abiturarbeit von ChatGPT sind, während die Lehrerin zu einem deutlich negativeren Fazit kommt.

Nicht auszuschließen ist, dass eine gewisse Voreingenommenheit dabei eine Rolle gespielt hat. Schließlich wusste die Lehrerin, dass der Text von einer KI stammt. Ihre Kritikpunkte an der Arbeit empfinden wir aber durchaus als überzeugend, auch wenn sie nicht als unumstößliche Wahrheit zu betrachten sind.

Wie beurteilt ihr den Fall? Oder haltet ihr eine Beschäftigung damit aufgrund der stark begrenzten Aussagekraft nicht für sinnvoll? Schreibt es gerne in die Kommentare!


	1	Ich habe Androids versteckten Papierkorb geleert und auf meinem Handy so kurzerhand 16 GB Speicher freigeräumt
	2	Eine Lehrerin korrigiert eine per ChatGPT geschriebene Abiturarbeit: Ihre Bewertung ist eindeutig, doch KI-Tools kommen zu einem ganz anderen Ergebnis [Best of GameStar]
	3	Jahrelang suchten wir nach einem Ersatz für den wichtigsten Bestandteil von Zement – jetzt haben wir womöglich den Heiligen Gral gefunden: Basalt
	4	Forza Horizon 6: Eine der besten Einstellungen ist im Spiel versteckt und deaktiviert
	5	Star Wars macht wohl weiter: Episode 10 bis 12 sollen die Skywalker-Saga nun doch fortsetzen
	mehr anzeigen

Eine Lehrerin korrigiert eine per ChatGPT geschriebene Abiturarbeit: Ihre Bewertung ist eindeutig, doch KI-Tools kommen zu einem ganz anderen Ergebnis [Best of GameStar]

Ein genauerer Blick auf das Thema

Die Aufgabenstellung

Die philosophische Frage

Es beginnt mit einem klaren Fehler

Was sagt die KI selbst zu der Arbeit?

Sehr begrenzte Aussagekraft

Willkommen bei GameStar!

Weiter mit Werbung

Werbefrei mit GameStar Plus