Benchmarks für KI-Modelle sind oft trocken: Mathematik, Logik-Tests, komplexe Datenanalysen. Doch Forscher der UC San Diego haben einen neuen Ansatz gewählt – und ihre KIs einfach Super Mario Bros. spielen lassen, wie TechSpot berichtet.
Klingt nach einem kuriosen Experiment? Vielleicht. Aber es zeigt durchaus, dass Timing manchmal wichtiger ist als reine Rechenpower.
Das Experiment: GamingAgent als KI-Controller
Die Forscher des Hao AI Lab der Universität California San Diego haben das Framework GamingAgent (GitHub) entwickelt, mit dem KI-Modelle Klempner Mario per Python-Code steuern können.
Als Grundlage diente eine emulierte Version von Super Mario Bros. auf dem NES. Die KIs erhielten dabei einfache Anweisungen wie Spring über diesen Gegner
sowie Screenshots zur Orientierung.
Ziel war es herauszufinden, wie gut die Modelle ihre Aktionen planen und in Echtzeit anpassen können.
Link zum Twitter-Inhalt
Claude 3.7 dominiert – GPT-4o stolpert
Die Ergebnisse könnten euch überraschen: Claude 3.7 von Anthropic hat die besten Leistungen gezeigt. Es hat präzise Sprünge gemeistert, wich Gegnern geschickt aus und agierte insgesamt souverän.
Selbst sein Vorgänger Claude 3.5 schnitt gut ab, wenn auch nicht ganz so beeindruckend.
Bei GPT-4o von OpenAI und Googles Gemini 1.5 Pro sah es dagegen ganz anders aus. Die Modelle, die eigentlich für ihre starke logische Denkfähigkeit bekannt sind, haben sich schwergetan.
Sie sind häufig an grundlegenden Spielmechaniken gescheitert und oft unkontrolliert in Lücken gesprungen oder wurden von Gegnern getroffen.
40:10
ChatGPT am Ende? Das kann DeepSeek wirklich
Timing schlägt Logik
Der Test hat gezeigt, dass schnelle Reflexe wichtiger sind als komplexe Logik – zumindest beim Mario Spielen.
Während einige KI-Modelle versuchen, Situationen zu durchdenken
, hat diese Herangehensweise zu langen Verzögerungen geführt.
Immerhin können schon wenige Millisekunden in Super Mario Bros. den Unterschied zwischen einem gelungenen Sprung und einem gescheiterten Versuch ausmachen.
Die Forscher vermuten, dass denkende
Modelle wie GPT-4o zu lange kalkulieren, bevor sie handeln und deshalb ins Leere springen.
Retro-Games als KI-Benchmark?
Natürlich bleibt die Frage, wie aussagekräftig solche Tests sind. Ein KI-Modell, das Videospielfigur Mario bezwingt, ist nicht automatisch für komplexe Aufgaben in der realen Welt geeignet. Dennoch liefert das Experiment eine spannende Erkenntnis: Nicht nur die Rechenleistung entscheidet, sondern auch schnelle, intuitive Entscheidungen.

Nur angemeldete Benutzer können kommentieren und bewerten.
Dein Kommentar wurde nicht gespeichert. Dies kann folgende Ursachen haben:
1. Der Kommentar ist länger als 4000 Zeichen.
2. Du hast versucht, einen Kommentar innerhalb der 10-Sekunden-Schreibsperre zu senden.
3. Dein Kommentar wurde als Spam identifiziert. Bitte beachte unsere Richtlinien zum Erstellen von Kommentaren.
4. Du verfügst nicht über die nötigen Schreibrechte bzw. wurdest gebannt.
Bei Fragen oder Problemen nutze bitte das Kontakt-Formular.
Nur angemeldete Benutzer können kommentieren und bewerten.
Nur angemeldete Plus-Mitglieder können Plus-Inhalte kommentieren und bewerten.