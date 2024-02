Dieser Sprachassistent soll gefühlvoll sein: BUD-E. (Bild: Adobe Stock - Damian Sobczyk)

Inmitten der vielen KI-Projekte, die es mittlerweile gibt, präsentiert das Large-Scale Artificial Intelligence Open Network (LAION) sein neues Projekt namens BUD-E (Buddy for Understanding and Digital Empathy).

Die deutsche gemeinnützige Organisation, die für populäre KI-Trainingsdatensätze verantwortlich ist, plant einen völlig offenen und emotional intelligenten Sprachassistenten. Dazu arbeiten sie zusammen mit dem ELLIS Institute Tübingen (European Lab for Learning & Intelligent Systems).

Das Ziel des Projekts ist es, eine erweiterbare Architektur zu schaffen, die die Vorteile aufkommender generativer KI-Technologien, insbesondere großer Sprachmodelle wie OpenAIs ChatGPT, voll ausschöpft. Aber was heißt das konkreter?

BUD-E als Sprachassistent für echte Gespräche

Was kann BUD-E? LAION konzentriert sich darauf, eine natürliche Interaktion zu ermöglichen und die Grundlage für längere, ansprechende Gespräche zu schaffen.

Laut LAIONs Blog-Eintrag soll BUD-E folgende Features mitbringen:

Benutzeranfragen in Echtzeit beantworten

Natürlichen Stimmen, Empathie und emotionale Intelligenz

Langfristiger Kontext aus früheren Gesprächen

Realismus durch Gespräche mit mehreren Sprechern, Unterbrechungen, Bestätigungen und Denkpausen

Service lokal auf Verbraucher-Hardware

Wieland Brendel, Mitwirkender bei BUD-E, betont die Notwendigkeit, über die herkömmlichen, umständlichen Chat-Schnittstellen hinauszugehen, wie er TechCrunch in einer E-Mail mitteilt:

»Die meisten Interaktionen mit [Assistenten] beruhen auf Chat-Schnittstellen, die ziemlich umständlich zu bedienen sind, [und] die Dialoge mit diesen Systemen fühlen sich gestelzt und unnatürlich an.«

Diese Systeme seien in Ordnung, um Befehle zur Steuerung der Musik oder zum Einschalten des Lichts zu übermitteln, aber sie seien keine Grundlage für lange und ansprechende Unterhaltungen.

Das Ziel von BUD-E ist es dagegen, die Grundlage für einen Sprachassistenten zu schaffen, der sich für Menschen viel natürlicher anfühlt und der die natürlichen Sprachmuster menschlicher Dialoge nachahmt und sich an vergangene Gespräche erinnert.

Wie das noch junge Projekt in Aktion klingt, hört ihr hier:

Empfohlener redaktioneller Inhalt An dieser Stelle findest du einen externen Inhalt von YouTube, der den Artikel ergänzt.

Du kannst ihn dir mit einem Klick anzeigen lassen und wieder ausblenden. YouTube-Inhalte erlauben Ich bin damit einverstanden, dass mir Inhalte von YouTube angezeigt werden. Personenbezogene Daten können an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Link zum YouTube-Inhalt

Was steckt drin? LAION hat verschiedene offene Modelle kombiniert, darunter Microsofts Phi-2 SLM (Small Language Model), Columbias Text-to-Speech StyleTTS2 und Nvidias FastConformer für Sprache-zu-Text.

Damit BUD-E so schnell reagieren kann wie bekannte Sprachassistenten, werden allerdings noch leistungsstarke Grafikkarten benötigt.

Wann kann ich da ran? Schon jetzt! BUD-E ist ein Open-Source Projekt, dass ihr auf GitHubfür Ubuntu und Windows herunterladen könnt (MacOS in Arbeit). Der Sprachassistent befindet sich allerdings in einer frühen Entwicklungsphase.

Was bringt die Zukunft? LAION hat in dem Blogeintrag auch eine ambitionierte Roadmap vorgestellt, die zeigt, was sie mit der Community auf GitHub noch vorhaben. Dazu gehören unter anderem:

Verringerung der Latenzzeit und Minimierung der Systemanforderungen

Mehr Natürlichkeit von Sprache und Antworten

Verfolgen von Gesprächen über Tage, Monate und Jahre hinweg

Verbesserte Funktionalität des Sprachassistenten

Verbesserung des multimodalen und emotionalen Kontextverständnisses

Ausweitung auf mehrere Sprachen und Sprecher

Videos statt Chat OpenAI kündigt Sora an: So realistische KI-Videos habt ihr noch nicht gesehen von Jan Stahnke

LAION hat aber noch mehr vor, wie TechCrunch im oben verlinkten Artikel berichtet. Demnach denken sie über animierte Avatare nach. Auch Gesichtsanalysen der Nutzer per Webcam stehen zur Debatte.

Das könnte es ermöglichen, die Stimmung und Emotionen besser zu verstehen, aber spätestens hier dürften bei Datenschützern die Alarmglocken klingen. Robert Kaczmarcshyk, Mitgründer von LAION betont allerdings, dass Sicherheit eine große Rolle spielt:

»[Wir] halten uns streng an die Sicherheits- und Ethikrichtlinien, die im EU AI Act formuliert sind. [...] Diese Verpflichtung zur Transparenz erleichtert nicht nur die frühzeitige Erkennung und Korrektur potenzieller Verzerrungen, sondern dient auch der wissenschaftlichen Integrität.«

Ob LAION mit BUD-E Erfolg haben wird, bleibt indes abzuwarten. Lasst uns gerne in den Kommentaren wissen, wir ihr über den ungewöhnlichen Ansatz aus Deutschland denkt!