Mit der Mathematik ist es nicht immer so einfach, selbst nicht für KIs. (Bild: stock.adobe.com - Gennadiy Poznyakov)

Ein polnischer Redditor hat kürzlich Details zu einem interessanten KI-Versuch geteilt, wie auch unsere Partner-Webseite Gry-Online.pl berichtet.

Dabei hat er den KI-Modellen OpenAI o3, Gemini 2.5 Pro und Claude Sonnet 4 insgesamt 15 Matheaufgaben gestellt, die in diesem Jahr in Polen Schüler der 8. Klasse lösen mussten. Den gesamten Test im Original findet ihr auf cke.gov.pl.

Das ist bei dem Versuch herausgekommen:

Insgesamt schneiden die KIs, wie zu erwarten war, im Schnitt besser ab als die Schüler. Während die Schüler im Schnitt aller polnischen Regionen zwischen 44 und 56 Prozent der Matheaufgaben korrekt lösen konnten, kommen die KIs auf 93,3 Prozent (o3 und Gemini) beziehungsweise 80 Prozent (Claude Sonnet 4).
Dabei ist zwar zu bedenken, dass die Schüler insgesamt 21 Aufgaben lösen mussten, weil sechs offene Aufgaben hinzukommen. Aber selbst wenn die KIs all diese Aufgaben falsch gelöst hätten, würden sie mit mindestens 57,1 Prozent richtigen Antworten immer noch besser abschneiden.
Die 12. Aufgabe sticht dabei im Test besonders hervor, weil alle drei KIs daran gescheitert sind.

Wir haben diese Aufgabe ebenfalls verschiedenen KI-Modellen gestellt und kommen zum gleichen Ergebnis: Auch in unserem Fall gelingt es den KIs nicht, den völlig richtigen Rechenweg zu finden.

Ihr Problem dabei ist leicht zu identifizieren, wie ein genauerer Blick auf die Aufgabe zeigt.

Passend zum Thema: Mein Handy hat jetzt ChatGPT integriert und so sieht das in der Praxis aus

4:28

Autoplay

An dieser Aufgabe scheitern die KIs

Man merkt schnell, dass es sich um eine Aufgabe der 8. Klasse handelt, da sie für erwachsene Menschen meist leicht und schnell zu lösen sein sollte.

Im Kern geht es darum, anhand von zwei Zahlenangaben auf einer Zahlengeraden mit mathematischen Mitteln zu berechnen, welche Werte sich an den anderen Stellen auf der Geraden befinden.

Übersetzt sieht die genaue Aufgabe folgendermaßen aus:

Das ist die Aufgabe, an der die KIs beim Lösen des Mathetests allesamt gescheitert sind.

Was ist das Problem der KIs?

Den grundsätzlichen Lösungsweg verstehen in unseren Gegentests mit ChatGPT, Gemini, Co-Pilot und Perplexity alle vier KI-Modelle. Sie scheitern allerdings daran, die entscheidenden Punkte A, B und C richtig zuzuordnen beziehungsweise zu positionieren.

Das verdeutlicht der folgende Teil der Antwort von Gemini beispielhaft:

Wir haben eine Zahlengerade mit drei markierten Punkten A, B und C. Das Segment AC ist in 6 gleiche Teile unterteilt. Die Koordinate des Punktes rechts von A ist 56 und die Koordinate des Punktes rechts von B ist 83.

Hier liegt schon der erste Fehler: Die Koordinate zu der Zahl 83 liegt zwar rechts von B, aber dazwischen befindet sich noch eine weitere, nicht mit einem Zahlenwert versehene Koordinate.

Ein wiederkehrendes Problem

Das Problem, die fixen Teilstücke einerseits und die Markierungen A bis C andererseits nicht richtig zu erkennen beziehungsweise, ihre Position nicht korrekt zuzuordnen, wiederholt sich im weiteren Verlauf:

Punkt B liegt 1 Teilstück rechts von 56 [...]. Punkt C liegt 3 Teilstücke rechts von B.

Beides ist nicht korrekt:

Punkt B liegt nicht genau ein Teilstück rechts von 56, sondern zwischen dem ersten und dem zweiten Teilstück rechts von 56.
Punkt C liegt dementsprechend auch nicht genau drei Teilstücke rechts von B, da Punkt B nicht exakt mit einem der Teilstücke zusammenfällt.

Die gesamte (fehlerhafte) Berechnung von Gemini findet ihr bei Interesse übrigens in diesem Dokument bei Google Drive.

Auch interessant: ChatGPT am Ende? Das kann DeepSeek wirklich

40:10

Nicht nur Gemini liegt daneben

ChatGPT, Co-Pilot und Perplexity haben in unserem Test mit dem gleichen Problem wie Gemini oben zu kämpfen und können die Aufgabe daher ebenfalls nicht auf dem richtigen Weg lösen.

Die grundsätzliche mathematische Herausforderung verstehen sie zwar alle, also dass die Kernaufgabe darin besteht, anhand der bekannten Zahlen und Teilstriche die weiteren Werte zu errechnen.
Im Detail gelingt es ihnen das aber nicht, weil sie das Bild nicht genau genug analysieren beziehungsweise Fehler dabei machen.

Eine Lehrerin korrigiert eine per ChatGPT geschriebene Abiturarbeit: Ihre Bewertung ist eindeutig, doch KI-Tools kommen zu einem ganz anderen Ergebnis

von Nils Raettig

Dass sich KI auch in einem ganz anderen Schulfach schwertun kann, zeigt das oben verlinkte Beispiel aus Frankreich.

Darin geht es um die Behandlung einer philosophischen Fragestellung aus der Schule, mit der ChatGPT beauftragt wurde. Die Lehrerin bewertet das Endergebnis dabei deutlich kritischer, als es KI-Tools selbst tun.


	1	2014 wurde das weltweit größte solarthermische Kraftwerk eingeweiht. 12 Jahre später ist seine Zukunft ungewiss
	2	Paradox: Licht kann Milliarden Jahre durchs All reisen - und erlebt dabei keinen einzigen Moment
	3	In Norwegen haben sie bei -32 Grad die tatsächliche Reichweite von E-Autos getestet – es gibt zwei klare Gewinner
	4	Star Wars: Um tausende Sturmtruppler und Raumschiffe in die alten Filme zu schummeln, nutzten die Macher besonders ein Werkzeug – Pinsel [Best of GameStar]
	5	Vor dreißig Jahren war die Installation von Windows 95 so schwierig, dass Microsoft einen Weg einschlug, den es nie wiederholen musste [Best of GameStar]
	mehr anzeigen

ChatGPT, Gemini und andere KI-Chatbots mussten einen Abschlusstest der 8. Klasse lösen. An einer Aufgabe sind sie alle gescheitert.

An dieser Aufgabe scheitern die KIs

Was ist das Problem der KIs?

Ein wiederkehrendes Problem

Nicht nur Gemini liegt daneben

Willkommen bei GameStar!

Weiter mit Werbung

Werbefrei mit GameStar Plus