Die Entwicklung von Künstlicher Intelligenz verlagert sich zunehmend von reiner Text- und Bildgenerierung hin zur sogenannten »Physical AI«. Gemeint ist eine KI, die nicht nur rein digitale Daten verarbeitet, sondern auch direkt mit der physischen Welt interagieren kann.
Wie schon häufiger wähnt sich auch in dieser Disziplin Nvidia an der vordersten Front. Zu diesem Zweck stellte der (in eigenen Worten) ehemalige Gaming-GPU-Hersteller auf der Fachkonferenz NeurIPS im kanadischen Vancouver eine Reihe neuer Technologien vor, die diesen Übergang beschleunigen sollen – besonders beim autonomen Fahren.
55:02
KI fair und transparent? Experten erklären, wo es hakt und was sich ändern muss
KIs sollen lernen, wie die Welt funktioniert
Bisherige Assistenzsysteme in Fahrzeugen sind extrem gut darin, Objekte zu erkennen – etwa ein Stoppschild oder einen Fußgänger. Was ihnen aber oft fehlt, ist der Kontext.
Nvidia stellt mit seinen neuen »Vision Language Action«-Modellen (VLA) einen Ansatz vor, der dieses Defizit beheben soll. Laut den Entwicklern sind diese Modelle in der Lage, visuelle Informationen nicht nur zu identifizieren, sondern logisch zu verknüpfen.
Ein erstes quelloffenes Modell steht bereits zur Verfügung: Nvidia »Drive Alpamayo-R1« (AR1) soll den Anfang solcher VLA-Kapazitäten darstellen.
- AR1 soll etwa erkennen, dass ein Hindernis auf der Straße nicht einfach nur ein Block ist, sondern aufgrund einer Baustelle dort steht – und entsprechend reagieren. Nvidia bezeichnet dies als eine Form von »gesundem Menschenverstand« für Maschinen.
- Die KI soll zudem dynamische Ereignisse vorhersagen und Handlungspläne erstellen können, was für die Sicherheit von robotischen Systemen und selbstfahrenden Autos essenziell wäre.
AR1 basiert auf dem »Cosmos Reason«-Modell, das Nvidia vor etwas mehr als einem halben Jahr auf Hugging Face zur Verfügung gestellt hat.
Link zum Twitter-Inhalt
Ein Kosmos an Möglichkeiten: Nvidias »Kochbuch« als Stütze
Der Schritt vom Chatbot zum autonomen Fahren oder zum kaffeekochenden Roboter ist allerdings riesig. Um diese Lücke zu schließen, veröffentlicht Nvidia das »Cosmos Cookbook«. Dabei handelt es sich um eine umfassende Anleitung, die Entwicklern Schritt für Schritt zeigt, wie sie Cosmos-basierte Modelle für ihre eigenen Zwecke anpassen können.
- Als Beispiele nennt Nvidia etwa »LidarGen«, das ebenfalls im Bereich des autonomen Fahrens behilflich sein will. Dabei handelt es sich laut dem Unternehmen um das erste Modell der Welt, dass synthetisch Lidar-Daten erzeugen kann.
- Ergänzend dazu soll der »Omniverse NuRec Fixer« Probleme bei der 3D-Rekonstruktion beheben. Hiermit sollen Artefakte Nvidia-Angaben zufolge »nahezu augenblicklich« reparierbar sein und fehlerhafte Informationen intelligent ergänzt werden.
Nur angemeldete Benutzer können kommentieren und bewerten.
Dein Kommentar wurde nicht gespeichert. Dies kann folgende Ursachen haben:
1. Der Kommentar ist länger als 4000 Zeichen.
2. Du hast versucht, einen Kommentar innerhalb der 10-Sekunden-Schreibsperre zu senden.
3. Dein Kommentar wurde als Spam identifiziert. Bitte beachte unsere Richtlinien zum Erstellen von Kommentaren.
4. Du verfügst nicht über die nötigen Schreibrechte bzw. wurdest gebannt.
Bei Fragen oder Problemen nutze bitte das Kontakt-Formular.
Nur angemeldete Benutzer können kommentieren und bewerten.
Nur angemeldete Plus-Mitglieder können Plus-Inhalte kommentieren und bewerten.