Warum die Entwicklung von »sehr langweiligen Videospielen« im Silicon Valley derzeit Gehälter bis 500.000 Dollar bringt

Im Silicon Valley entsteht ein riesen Geschäft um virtuelle Trainingslager, in denen Chatbots lernen, Socken auf Amazon zu bestellen.

Man kann RL-Umgebungen durchaus mit Videospielen vergleichen – aber nicht mit guten. (Bildquelle: New Africa, Adobe Stock) Man kann RL-Umgebungen durchaus mit Videospielen vergleichen – aber nicht mit guten. (Bildquelle: New Africa, Adobe Stock)

Hey ChatGPT, organisiere meinen nächsten Urlaub!: Ihr müsst dann nur noch euren Koffer packen und zum Flughafen fahren – Flüge, Hotels und Ausflüge buchen, das übernimmt für euch die KI.

Das ist die Idee hinter KI-Agenten. Die generieren nicht nur Texte und Bilder, sondern handeln selbst aktiv. Doch wie soll ein Chatbot lernen, solche komplexen und unter Umständen auch kostspieligen Aufgaben zu erledigen?

OpenAI und andere KI-Unternehmen setzen hierfür auf Reinforcement-Learning-Umgebungen (RL-Umgebungen). Die kann man sich vorstellen wie virtuelle Trainingslager für Chatbots, in denen sie lernen, Online-Bestellungen durchzuführen und mehr.


Video starten 56:01 GameStar Tech Talk: Geht KI zu weit?


Agenten-Modus: ChatGPT und Co. sollen selbständiger werden

Im Sommer hat OpenAI seinen ChatGPT-Agent vorgestellt – zumindest für zahlende Kunden. Die Firma rund um CEO Sam Altman verspricht, dass ChatGPT im Agentenmodus unter anderem folgende Dinge kann:

  • Online-Formulare ausfüllen
  • Reservierungen tätigen
  • Flüge buchen
  • Einkäufe erledigen

Chatbots als selbständig handelnde Agenten – das ist ein großer Schritt, vor dem sogar OpenAI selbst kurz nach der Vorstellung des neuen Modus gewarnt hat.

Bisher ist die Palette an möglichen Aufgaben entsprechend recht begrenzt – ein persönlicher Assistent für jeden ist ChatGPT noch nicht. Denn die Tätigkeiten, die Chatbots dann erledigen müssen, sind weit komplexer, als einen Text oder Bilder zu generieren.

Für solche Modelle braucht es andere Trainingsmethoden. Das Branchenmagazin TechCrunch nennt eine Trend rund um KI-Agenten das »neue heiße Ding« im Silicon Valley: Reinforcement-Learning-Umgebungen.

Startups zahlen Entwicklern von solchen Umgebungen bis zu 500.000 Dollar Jahresgehalt für eine Arbeit, die ein Gründer eines solchen Startups mit der Entwicklung von Videospielen vergleicht – »sehr langweiligen Videospielen«.

RTX 4070 Windforce OC
RTX 4070 Windforce OC
Gigabyte
Die RTX 4070 ist eine gute Mittelklasse-Grafikkarte mit 12 GB VRAM für Full-HD und WQHD. Ihre Stärken liegen bei Raytracing und der Energie-Effizienz.
569 €
Radeon RX 7700 XT Fighter
Radeon RX 7700 XT Fighter
PowerColor
Die RX 7700 XT eignet sich gut für WQHD und kommt selbst mit Raytracing problemlos zurecht. Dafür hat sie ein schwaches Preis-Leistungs-Verhältnis.
432,92 €

RL-Umgebungen: Was hat es damit auf sich?

Eine RL-Umgebung kann man sich wie einen virtuellen Trainingsplatz vorstellen. Nur statt an einem Geräteparcours trainieren die KI-Modelle laut TechCrunch hier beispielsweise in täuschend echt aussehenden Amazon-Shops, Socken richtig zu bestellen:

  • Mehrstufige Aufgaben: Die Modelle trainieren dort unter anderem, richtig durch Webseiten zu navigieren und sich nicht in Menüs zu verirren.
  • Auf der Jagd nach Belohnung: Reinforcement Learning bedeutet, dass das System über Belohnung lernt, nach der gewünschten Methode vorzugehen.

Einer der Gründer eines solchen Startups, Mechanize, nannte die Entwicklung von RL-Umgebungen in der New York Times »als würde man ein sehr langweiliges Videospiel entwickeln«.

KI-Firmen setzen in die Umgebungen allerdings offensichtlich viel Hoffnung. Laut The Information soll die Führung von Anthropic über eine Milliarde Dollar Investition im kommenden Jahr in die virtuellen Trainingsplätze diskutieren.

Und auch das Startup Mechanize soll laut TechCrunch Entwickler mit Jahresgehältern von bis zu einer halben Millionen US-Dollar locken. Ross Taylor, ehemals KI-Experte bei Meta, äußert sich gegenüber dem Branchenmagazin allerdings skeptisch:

Leute würden unterschätzen, wie schwierig es wäre, solche Umgebungen zu skalieren. Und wie manch ein Spieler neigen auch die KI-Agenten dazu, zu cheaten: Sie finden also Wege, sich ihre Belohnung zu holen, ohne die tatsächliche Aufgabe auszuführen.

Es klingt also einmal mehr nach einer großen Wette im Silicon Valley: Mit riesigen Summen soll die KI die Socken-Bestellung auf Amazon perfektionieren – eine Aufgabe, die selbst die größten Experten noch vor ungelöste Probleme stellt.

zu den Kommentaren (7)

Kommentare(7)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.