Nach über 70 Jahren: KI besteht den Turing-Test – und klingt menschlicher als der Mensch

Im Turing-Test treten Mensch und Maschine gegeneinander an: Wer ist der Mensch und wer die Maschine?

Durchbruch in der Künstlichen Intelligenz: Ein KI-Modell wurde in einem erweiterten Turing-Test erstmals häufiger als tatsächliche Menschen für einen Menschen gehalten.

Den entscheidenden Ausschlag gab aber eine altbekannte Technik für gute Prompts.

Das ist passiert:

Die Universität von Kalifornien, San Diego, hat eine Studie veröffentlicht, in der OpenAIs KI-Modell GPT-4.5, im Turing-Test in einer erweiterten Version besonders überzeugend abschnitt. Das Experiment wurde mit rund 300 Teilnehmern online durchgeführt und lief folgendermaßen ab.

Ein Beobachter (der Interrogator) unterhielt sich separat für je 5 Minuten schriftlich mit einem Menschen und mit einer KI, ohne zu wissen, welcher der beiden Gesprächspartner die Maschine und welcher der Mensch war.
Die Aufgabe des Beobachters war es, basierend auf den Gesprächen zu entscheiden, wer menschlich und wer Maschine war.

Dabei konnte das GPT-4.5-Modell unter bestimmten Voraussetzungen deutlich mehr als die Hälfte der Teilnehmer täuschen, indem es überzeugend menschlich wirkte.

40:10 ChatGPT am Ende? Das kann DeepSeek wirklich

Der Turing-Test: Ein Maßstab der KI-Entwicklung

Der Turing-Test, entwickelt von Alan Turing im Jahr 1950, dient dazu, die Fähigkeit einer Maschine zur Imitation menschlicher Intelligenz zu bewerten. Dabei wird folgendermaßen vorgegangen:

Im Imitation Game – so nannte Turing selbst seinen Test – kommuniziert ein menschlicher Fragesteller mit zwei Zeugen – einem Menschen und einer Maschine.
Die Kommunikation erfolgt schriftlich, sodass der Fragesteller keine visuellen oder akustischen Hinweise auf die Identität der Gesprächspartner hat.
Wenn der Fragesteller nicht zuverlässig zwischen Mensch und Maschine unterscheiden kann, gilt die Maschine als intelligent im Sinne des Tests.

Es ist wichtig zu beachten, dass der Turing-Test nicht die tatsächliche Denkfähigkeit oder das Bewusstsein einer Maschine misst, sondern ihre Fähigkeit, menschliches Kommunikationsverhalten zu simulieren.

Ein Prompting-Trick macht den Unterschied

Interessanterweise spielte die Art des KI-Promptings eine entscheidende Rolle: Wurde GPT-4.5 ohne besondere Anweisungen genutzt, überzeugte es nur in 36 Prozent der Fälle. Doch als die KI mit einer vorgegebenen Persona, sozusagen einer Rolle, ausgestattet wurde, war sie deutlich überzeugender. In der Rolle eines internetaffinen jungen Mannes überzeugte die KI ganze 73 Prozent der Tester.

Dass ChatGPT mit einer zugewiesenen Rolle besser funktioniert, ist nur einer der Tipps, die wir hier für euch zusammengestellt haben:

Was bedeutet das für uns?

Der Turing-Test wird oft als Maßstab für menschenähnliche Intelligenz herangezogen, obwohl viele Forscher ihn für unzureichend halten. Vielmehr fragt er nur die Facette der Kommunikationsfähigkeit ab. Ned Block kritisierte den Turing-Test beispielsweise schon in den 80er Jahren. Heute zeigt er gerne die Unzulänglichkeiten von ChatGPT auf.

Sprachmodelle wie GPT-4.5 sind darauf trainiert, Muster in Texten zu erkennen und überzeugende Antworten zu formulieren – insofern muss das Ergebnis nicht unbedingt überraschen.

Allerdings zeigt es, dass in der Weiterentwicklung von Sprachmodellen doch noch größere Sprünge möglich sind: Auch OpenAIs GPT-4o, auf dem derzeit ChatGPT basiert, wurde getestet, schnitt jedoch deutlich schlechter ab: Das Sprachmodell ohne zugewiesene Persona konnte gerade einmal 21 Prozent der Tester überzeugen, der Mensch zu sein.

Nach über 70 Jahren: KI besteht den Turing-Test – und klingt menschlicher als der Mensch

Das ist passiert:

Der Turing-Test: Ein Maßstab der KI-Entwicklung

Ein Prompting-Trick macht den Unterschied

Was bedeutet das für uns?

Willkommen bei GameStar!

Weiter mit Werbung

Werbefrei mit GameStar Plus