Die Illusion des Denkens: Forscher von Apple haben sich die KI-Modelle vorgenommen, die besonders gut im Denken sein sollen: sogenannte Large Reasoning Models (LRMs).
Egal ob DeepSeek oder GPT o3 mini: Irgendwann streiken die Modelle.
Was sind Reasoning-Modelle?
Die chinesische KI DeepSeek R1 hat Anfang des Jahres nicht nur den Aktienmarkt aufgewirbelt: Die Möglichkeit, den Denkprozess
des Modells mit anzusehen, faszinierte viele Nutzer. So viele, dass OpenAI, Google und Co. schnell nachzogen und eigene Reasoning-Modelle
veröffentlichten.
Bei ChatGPT könnt ihr das Reasoning etwa mit zwei Klicks aktivieren. Dazu ruft ihr ChatGPT über den Browser oder die App auf.
Dann geht ihr folgendermaßen vor:
1. Klickt direkt im Chatfenster auf das Schieberegler-Icon »Tools«.
2. Klickt auf »Denke länger nach«.
Jetzt ist für eure nächste Anfrage das Reasoning aktiviert und ihr könnt ChatGPT bei seinem »Denkprozess« zuschauen.
Das Besondere: Die Modelle schalten vor ihre letztendliche Antworten einen Denkprozess. Der soll dafür sorgen, dass Reasoning-Modelle besonders bei mathematischen und Logik-Aufgaben glänzen.
0 Prozent richtige Antworten: So bringen die Apple-Forscher die KI zum Streiken
Forscher von Apple rund um Samy Bengio haben in der Studie The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
die Leistungsfähigkeit sogenannter Reasoning-Modelle, genauer unter die Lupe genommen.
Ihr Ziel: Herausfinden, wie gut diese KIs wirklich bei komplexen Denkaufgaben sind und wann sie an ihre Grenzen stoßen.
Was wurde getestet?
- Die Kandidaten: Die Tests umfassten führende Reasoning-Modelle wie GPT 03-mini, DeepSeek-R1 und Claude-3.7-Sonnet (Thinking).
- Die Aufgabe: Die Forscher nutzten
kontaminationsfreie
Logikrätsel, die die Modelle durch ihr Training also noch nicht kennen. Ein Beispiel istDer Turm von Hanoi
.
Das ist eine Planungsaufgabe, bei der Scheiben unterschiedlicher Größe nach bestimmten Regeln von einem Pfahl auf einen anderen angeordnet werden müssen. Dabei gilt: Je mehr Scheiben im Rätsel, desto komplexer ist die Aufgabe. - Die Analyse: Die Forscher untersuchten nicht nur das Endergebnis, auf das die Modelle kamen (die finale Antwort), sondern auch den internen
Denkprozess
.
40:10
ChatGPT am Ende? Das kann DeepSeek wirklich
Das sind einige der überraschenden Ergebnisse:
- Drei Leistungsbereiche: Bei einfachen Schwierigkeitsstufen waren Standard-LLMs (ohne Reasoning-Funktion) sogar besser. Bei mittlerer Komplexität glänzten die Reasoning-Modelle. Bei hoher Komplexität versagten jedoch beide Modelltypen komplett.
- Genauigkeits-Kollaps: Die Genauigkeit (»Accuracy«) der Reasoning-Modelle sank ab einer bestimmten Schwierigkeit auf 0 Prozent – sie gaben keine einzige richtige Antwort mehr.
- Geben die Modelle auf? Obwohl die Modelle scheinbar unbegrenzte Ressourcen zur Verfügung hatten, nahm der Denkaufwand ab einer bestimmten Komplexitätsstufe paradoxerweise nicht zu, sondern ab. Es ist, als würden die Modelle einfach
aufgeben
, wenn die Aufgabe zu schwer wird. - Algorithmen-Blindheit: Die Modelle versagten selbst dann, wenn ihnen der exakte Lösungsalgorithmus vorgegeben wurde. Das deutet auf Schwierigkeiten beim konsistenten Ausführen logischer Schritte hin.
- Inkonsistenz: Überraschend war auch, dass die Modelle bei einigen Rätseln, die eigentlich weniger Züge erforderten (wie River Crossing), viel früher scheiterten als beim Turm von Hanoi. Dies könnte darauf hindeuten, dass sie bestimmte Problemtypen möglicherweise nicht ausreichend im Training gesehen haben.
Fazit: Darauf kommt es in Zukunft an, finden die Apple-Forscher
Die Forscher wollen damit vor allem eine Sache beweisen: Um die KI-Modelle intelligenter zu machen, wird es nicht reichen, sie einfach größer zu machen: Das bedeutet: rechenintensiver, mit noch mehr Training.
Allerdings gibt es auch Kritik an dem Versuchsaufbau der Forscher: Auf Reddit stellen Nutzer etwa infrage, ob den Modellen die jahrhundertealten Logikrätsel wirklich unbekannt sein sollen.
Jan Daniel Semrau beschreibt auf dem Blog von Huggingface, dass seine Forschung etwas Ähnliches ergeben habe, aber er schließt daraus eher, dass Reasoning weiter verbessert werden müsse:
Dass Reasoning-Modelle manchmal Schwierigkeiten mit künstlichen Logik-Rätseln haben, sollte man nicht damit verwechseln, dass Reasoning-Modelle unwichtig wären.
Dennoch zeigt die Forschung immer wieder: Das Verhalten, das die Modelle an den Tag legen, kommt Mustererkennung und weniger einer tatsächlichen Problemlösefähigkeit nahe.
Zumindest die Apple-Forscher argumentieren, dass der nächste große Schritt eher mit ganz neuen Modellen kommt.
Das bedeutet ein System, das vielleicht ganz anders funktioniert als etwa ChatGPT, das ja lediglich das wahrscheinlichste nächste Wort generiert – ob nun das Reasoning eingeschaltet ist, oder nicht.
Nur angemeldete Benutzer können kommentieren und bewerten.
Dein Kommentar wurde nicht gespeichert. Dies kann folgende Ursachen haben:
1. Der Kommentar ist länger als 4000 Zeichen.
2. Du hast versucht, einen Kommentar innerhalb der 10-Sekunden-Schreibsperre zu senden.
3. Dein Kommentar wurde als Spam identifiziert. Bitte beachte unsere Richtlinien zum Erstellen von Kommentaren.
4. Du verfügst nicht über die nötigen Schreibrechte bzw. wurdest gebannt.
Bei Fragen oder Problemen nutze bitte das Kontakt-Formular.
Nur angemeldete Benutzer können kommentieren und bewerten.
Nur angemeldete Plus-Mitglieder können Plus-Inhalte kommentieren und bewerten.