Am 16. Juni fand in Frankreich die Abiturprüfung in Philosophie statt. Der zweitgrößte öffentlich-rechtliche Fernsehsender des Landes, France 3, hat das zum Anlass für ein kleines Experiment genommen.
Worum genau es geht:
- Die Webseite des regionalen France-3-Ablegers Hauts-de-France ließ ChatGPT eine Abiturarbeit in Philosophie schreiben. Anschließend haben eine Lehrerin sowie KI-Tools das Ergebnis bewertet.
- Die Lehrerin wusste, dass der Text von einer KI verfasst wurde. Grundsätzlich sollte sie ihn aber so wie alle Prüfungstexte möglichst objektiv bewerten.
- Ihre Beurteilung fiel mehr als durchwachsen aus (8 von 20 Punkten). KI-Tools beurteilen den Text auf einer Skala bis 20 dagegen deutlich wohlwollender im Bereich von 15 bis 19,5 Punkten.
Dass die Lehrerin zu einem weniger guten Ergebnis kommt, liegt unter anderem an einem klaren Fehler, den sich ChatGPT schon zu Beginn der Arbeit leistet. Aber worum ging es bei der Arbeit überhaupt?
44:19
»Künstliche Intelligenz ist die neue Elektrizität« - Wir busten mit einem Experten 5 Mythen zu KI
Ein genauerer Blick auf das Thema
- Die Aufgabenstellung: Der genaue Prompt, den France 3 ChatGPT gegeben hat, war so formuliert:
Ich bin eine Schülerin der 12. Klasse der allgemeinen Oberstufe, die die Abiturprüfung in Philosophie ablegt. Hilf mir, einen Aufsatz zu schreiben, damit ich die bestmögliche Abiturnote erhalte.
Deine Antwort sollte die Codes eines Aufsatzes für das Gymnasium übernehmen und die Satzstellungen eines Schülers beachten.
Deine Antwort sollte aus einer Einleitung, einer Entwicklung und einem Schluss bestehen. Du solltest dir die Zeit nehmen, das Thema zu problematisieren, echte und fundierte philosophische Bezüge herzustellen und konkrete Beispiele für jedes Argument zu nennen. Die Idee ist, einen dreiteiligen Plan zu erstellen. Wenn du alles richtig verstanden hast, werde ich dir das Thema geben.
- Die philosophische Frage: Anschließend wurde ChatGPT das folgende Thema genannt, das im Rahmen der Arbeit erörtert werden sollte:
Ist die Wahrheit immer überzeugend?
Sowohl die vollständige Antwort von ChatGPT als auch die Beurteilung des Textes durch die Lehrerin mit den wichtigsten Kritikpunkten sind im Artikel von France 3 Hauts-de-France aufgeführt, falls ihr sie euch selbst im Detail ansehen möchtet.
Genügt euch dagegen eine Zusammenfassung der wichtigsten Erkenntnisse, könnt ihr diesen Artikel weiterlesen.
Es beginnt mit einem klaren Fehler
Schon im ersten Absatz der Einleitung leistet sich ChatGPT einen groben Schnitzer. So heißt es dort:
Dies wirft die Frage auf: Reicht die Wahrheit aus, um zu überzeugen?
Auf den ersten Blick ist das zwar nur eine leichte Abweichung von der eigentlichen Fragestellung Ist die Wahrheit immer überzeugend?
. Aber in der Philosophie können bereits kleine Änderungen große Wirkung haben, wie auch die Lehrerin in ihrer Korrektur des Textes anmerkt:
Die KI macht den schwerwiegenden Fehler, das Thema durch ein anderes zu ersetzen.
Doch auch der restliche Text weist in den Augen der Lehrerin verschiedene Probleme auf, etwa eine Strukturierung anhand vorgefertigter Aussagen wie Die Wahrheit als Übereinstimmung mit der Wirklichkeit sollte natürlich überzeugen
oder fragwürdige Textübergänge.
So heißt es an einer Stelle im Text von ChatGPT In Wirklichkeit sind die Dinge jedoch komplizierter.
, was die Lehrerin in ihrer Korrektur Folgendes fragen lässt: Waren wir bis dahin nicht in der Wirklichkeit?
.
Letztlich bleibt der Text aus ihrer Sicht zu oberflächlich, was sie mit Blick auf das Fazit der Arbeit folgendermaßen zusammenfasst:
Das Fazit hat den Vorteil, explizit auf das Thema zurückzukommen, zeigt aber weiterhin die Unfähigkeit, über das Problem nachzudenken: Was ist es, das die Wahrheit, so überzeugend sie auch sein mag, allein nicht überzeugen lässt?
Die Bewertung durch die Lehrerin: Insgesamt führt das zu 8 von 20 maximal möglichen Punkten.
Doch wie genau beurteilen KI-Tools die Leistung von ChatGPT?
Was sagt die KI selbst zu der Arbeit?
Sowohl France 3 als auch wir haben die Arbeit von ChatGPT unter Berücksichtigung des Kontextes einer Abiturprüfung auf einer Skala von 1 bis 20 beurteilen lassen. Die Ergebnisse sehen so aus:
- ChatGPT (France 3): 19,5 / 20
- ChatGPT (GameStar): 17 / 20
- Gemini (GameStar): 15 / 20
- Perplexity (GameStar): 17 / 20
- DeepSeek (GameStar): 17 / 20
- CoPilot (GameStar): 17 / 20
Keines der Tools erwähnt in seiner Beurteilung den groben Schnitzer direkt zu Beginn der Arbeit von ChatGPT. Gleichzeitig loben sie alle die gute Struktur sowie die überzeugende und kohärente Argumentation, hier am Beispiel des Fazits von DeepSeek dargestellt:
Der Text ist gut strukturiert und folgt einer klaren Argumentationslinie, die in drei Teile gegliedert ist: die natürliche Überzeugungskraft der Wahrheit, die Grenzen dieser Überzeugungskraft und die Bedeutung der Vermittlung. Die Einleitung stellt die Problemstellung präzise dar, und die Schlussfolgerung fasst die Argumente souverän zusammen.
4:28
Mein Handy hat jetzt ChatGPT integriert: So sieht das in der Praxis aus
Sehr begrenzte Aussagekraft
Abschließend ist zu betonen, dass es sich wie eingangs erwähnt letztlich nur um einen Einzelfall und sehr wenige Analyseobjekte handelt.
- So variiert die Antwort einer KI auf einen bestimmten Prompt bereits bei mehrfacher Nutzung einer identischen Anfrage an dieselbe KI und je nach konkretem Tool und Modul.
- Wie gut (oder schlecht) KI eine Aufgabe erledigt, steht und fällt gleichzeitig meist mit der exakten (und möglichst gut durchdachten) Formulierung eines Prompts.
- Zu guter Letzt ist der Spielraum für abweichende Beurteilungen insbesondere im Bereich der Philosophie vergleichsweise groß, sodass eine andere Lehrkraft die Arbeit von ChatGPT möglicherweise positiver bewerten würde.
Es ist dennoch interessant zu sehen, wie einig sich die verschiedenen KI-Tools in der sehr positiven Bewertung der Abiturarbeit von ChatGPT sind, während die Lehrerin zu einem deutlich negativeren Fazit kommt.
Nicht auszuschließen ist, dass eine gewisse Voreingenommenheit dabei eine Rolle gespielt hat. Schließlich wusste die Lehrerin, dass der Text von einer KI stammt. Ihre Kritikpunkte an der Arbeit empfinden wir aber durchaus als überzeugend, auch wenn sie nicht als unumstößliche Wahrheit zu betrachten sind.
Wie beurteilt ihr den Fall? Oder haltet ihr eine Beschäftigung damit aufgrund der stark begrenzten Aussagekraft nicht für sinnvoll? Schreibt es gerne in die Kommentare!

Nur angemeldete Benutzer können kommentieren und bewerten.
Dein Kommentar wurde nicht gespeichert. Dies kann folgende Ursachen haben:
1. Der Kommentar ist länger als 4000 Zeichen.
2. Du hast versucht, einen Kommentar innerhalb der 10-Sekunden-Schreibsperre zu senden.
3. Dein Kommentar wurde als Spam identifiziert. Bitte beachte unsere Richtlinien zum Erstellen von Kommentaren.
4. Du verfügst nicht über die nötigen Schreibrechte bzw. wurdest gebannt.
Bei Fragen oder Problemen nutze bitte das Kontakt-Formular.
Nur angemeldete Benutzer können kommentieren und bewerten.
Nur angemeldete Plus-Mitglieder können Plus-Inhalte kommentieren und bewerten.