Man kann RL-Umgebungen durchaus mit Videospielen vergleichen – aber nicht mit guten. (Bildquelle: New Africa, Adobe Stock)

Hey ChatGPT, organisiere meinen nächsten Urlaub!: Ihr müsst dann nur noch euren Koffer packen und zum Flughafen fahren – Flüge, Hotels und Ausflüge buchen, das übernimmt für euch die KI.

Das ist die Idee hinter KI-Agenten. Die generieren nicht nur Texte und Bilder, sondern handeln selbst aktiv. Doch wie soll ein Chatbot lernen, solche komplexen und unter Umständen auch kostspieligen Aufgaben zu erledigen?

OpenAI und andere KI-Unternehmen setzen hierfür auf Reinforcement-Learning-Umgebungen (RL-Umgebungen). Die kann man sich vorstellen wie virtuelle Trainingslager für Chatbots, in denen sie lernen, Online-Bestellungen durchzuführen und mehr.

56:01 GameStar Tech Talk: Geht KI zu weit?

Autoplay

Agenten-Modus: ChatGPT und Co. sollen selbständiger werden

Im Sommer hat OpenAI seinen ChatGPT-Agent vorgestellt – zumindest für zahlende Kunden. Die Firma rund um CEO Sam Altman verspricht, dass ChatGPT im Agentenmodus unter anderem folgende Dinge kann:

Online-Formulare ausfüllen
Reservierungen tätigen
Flüge buchen
Einkäufe erledigen

Chatbots als selbständig handelnde Agenten – das ist ein großer Schritt, vor dem sogar OpenAI selbst kurz nach der Vorstellung des neuen Modus gewarnt hat.

Bisher ist die Palette an möglichen Aufgaben entsprechend recht begrenzt – ein persönlicher Assistent für jeden ist ChatGPT noch nicht. Denn die Tätigkeiten, die Chatbots dann erledigen müssen, sind weit komplexer, als einen Text oder Bilder zu generieren.

Für solche Modelle braucht es andere Trainingsmethoden. Das Branchenmagazin TechCrunch nennt eine Trend rund um KI-Agenten das »neue heiße Ding« im Silicon Valley: Reinforcement-Learning-Umgebungen.

Startups zahlen Entwicklern von solchen Umgebungen bis zu 500.000 Dollar Jahresgehalt für eine Arbeit, die ein Gründer eines solchen Startups mit der Entwicklung von Videospielen vergleicht – »sehr langweiligen Videospielen«.

RL-Umgebungen: Was hat es damit auf sich?

Eine RL-Umgebung kann man sich wie einen virtuellen Trainingsplatz vorstellen. Nur statt an einem Geräteparcours trainieren die KI-Modelle laut TechCrunch hier beispielsweise in täuschend echt aussehenden Amazon-Shops, Socken richtig zu bestellen:

Mehrstufige Aufgaben: Die Modelle trainieren dort unter anderem, richtig durch Webseiten zu navigieren und sich nicht in Menüs zu verirren.
Auf der Jagd nach Belohnung: Reinforcement Learning bedeutet, dass das System über Belohnung lernt, nach der gewünschten Methode vorzugehen.

Einer der Gründer eines solchen Startups, Mechanize, nannte die Entwicklung von RL-Umgebungen in der New York Times »als würde man ein sehr langweiliges Videospiel entwickeln«.

KI-Firmen setzen in die Umgebungen allerdings offensichtlich viel Hoffnung. Laut The Information soll die Führung von Anthropic über eine Milliarde Dollar Investition im kommenden Jahr in die virtuellen Trainingsplätze diskutieren.

Passend zum Thema

Ein Mann ohne Vorkenntnisse gibt ChatGPT 100 Dollar, um so viel Profit wie möglich zu machen und verschwindet dann - nach zwei Jahren taucht er wieder auf und hat sein Leben umgekrempelt

von Jan Stahnke

Und auch das Startup Mechanize soll laut TechCrunch Entwickler mit Jahresgehältern von bis zu einer halben Millionen US-Dollar locken. Ross Taylor, ehemals KI-Experte bei Meta, äußert sich gegenüber dem Branchenmagazin allerdings skeptisch:

Leute würden unterschätzen, wie schwierig es wäre, solche Umgebungen zu skalieren. Und wie manch ein Spieler neigen auch die KI-Agenten dazu, zu cheaten: Sie finden also Wege, sich ihre Belohnung zu holen, ohne die tatsächliche Aufgabe auszuführen.

Es klingt also einmal mehr nach einer großen Wette im Silicon Valley: Mit riesigen Summen soll die KI die Socken-Bestellung auf Amazon perfektionieren – eine Aufgabe, die selbst die größten Experten noch vor ungelöste Probleme stellt.