Experte erklärt: Warum KI-Mails gefährlich werden könnten - und Sora ein Riesenwurf ist

Der Februar bringt Malware für künstliche Intelligenz, Googles neue KI erzeugt harte Gitarrenriffs und OpenAIs Sora ist noch erstaunlicher, als es auf den ersten Blick erscheint.

Was hat sich im Februar bei KI getan? Unser Newlsetter zeigt: eine ganze Menge. (Quelle: stock.adobe.com - Narumol) Was hat sich im Februar bei KI getan? Unser Newlsetter zeigt: eine ganze Menge. (Quelle: stock.adobe.com - Narumol)

Der Februar bringt kräftig neues im Bereich der KI - aber leider nicht nur Gutes. Denn gerade wer bei seinen Mails bereits auf KI setzt, muss sich künftig wohl Sorgen um einen Computerwurm machen.

Ich biete euch wieder einen kleinen Überblick über die Themen im Bereich KI, die in Forschung und Gesellschaft Schlagzeilen gemacht haben.

Wie immer freue ich mich über Feedback oder Kommentare zu Dingen, die ich verpasst habe.

Sora hebt die Erzeugung von Videos auf ein neues Level

Was ist passiert: OpenAI hat ein neues Text-zu-Video Modell vorgestellt, Kollege Stahnke berichtete bereits darüber. Dabei wird nur aus einem Text eine komplette Videosequenz in hoher Auflösung erstellt, die alles bisher Dagewesene übertrifft.

Besonders die darunter liegende Diffusion-Technik, die schrittweise aus Rauschen ein Bild erzeugt, macht Sora so spannend: Zwar wendet OpenAI die Technik hier auf Videos statt Bilder an, die grundsätzlichen Ideen funktionieren aber ähnlich.

Tim Elsner

Nachdem Videospiele spielen zunächst kein vernünftiger Job zu sein schien, entschied sich Tim für ein Studium in Informatik. Natürlich nur, um später selbst Spiele entwickeln zu können. Nach ein paar falschen Abzweigungen im Studium ist er schließlich bei einer Doktorandenstelle in der künstlichen Intelligenz und Computergrafik gelandet und freut sich darüber, wenn er 3D-Rekonstruktionen von GTA 5 in seine Forschungsarbeiten einbauen kann. Als ihm Teile seines Umfelds Sprechverbot über künstliche Intelligenz erteilten, musste er sich ein anderes Ventil suchen, um Leute mit seiner Begeisterung für das Thema zu quälen - deshalb schreibt er jetzt darüber Artikel.

So lassen sich etwa aus einzelnen Bildern komplette Videos machen, statt einzelne Teile eines Bildes vorzugeben und das KI-Modell drumherum malen zu lassen. Außerdem sind Ansätze, die etwa ein textbasiertes Editieren ermöglichen, theoretisch ebenso möglich.

Mit der einfachen Textzeile Ersetze die Menschen im Video durch Velociraptoren und etwas Rechenzeit lassen sich damit einerseits die Videos der letzten Weihnachtsfeier deutlich aufpeppen, andererseits ist aber natürlich auch deutlich mehr Schindluder oder sogar Kriminelles machbar.

Empfohlener redaktioneller Inhalt

An dieser Stelle findest du einen externen Inhalt von YouTube, der den Artikel ergänzt.
Du kannst ihn dir mit einem Klick anzeigen lassen und wieder ausblenden.

Ich bin damit einverstanden, dass mir Inhalte von YouTube angezeigt werden.

Personenbezogene Daten können an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Link zum YouTube-Inhalt

Warum ist das wichtig: Sora ist ein großer Wurf, weil das Modell nicht lernen muss, wie unsere Welt aussieht - es muss auch verstehen, wie sie funktioniert. 

Denn im Gegensatz zu Bildern braucht es für ein Video nicht nur ein zusammenhängendes Verständnis von unserer Welt und dem Zusammenspiel der Objekte darin, sondern vor allem auch von Abfolgen von Dingen, also der Physik in einer Szene. 

Das realistische Verhalten von Wasser im Meer, das Werfen von Schatten auf einer Unebenen Schneefläche oder auch die Bewegung von Haaren müssen alle mitgelernt werden, damit ein Video am Ende plausibel erscheint.

Besonders extrem erscheint dieser Fortschritt, wenn man sich seine Geschwindigkeit anschaut: Vor etwa drei Jahren erschien DALL-E, das erste richtige Text-zu-Bild-Modell, und begeisterte Fachwelt und Laien gleichermaßen.

Da Sora auf der gleichen Grundlage basiert, sollten sich Techniken wie das Editieren von Bildern auch auf Videos übertragen lassen. (Quelle: Google Research) Da Sora auf der gleichen Grundlage basiert, sollten sich Techniken wie das Editieren von Bildern auch auf Videos übertragen lassen. (Quelle: Google Research)

Der Schritt von einem Modell, das hunderte Versuche für ein kleines, meist nicht besonders realistisches Bild braucht, zu einem Modell, das semi-realistische HD-Videos produziert, ist in einer so kurzen Zeitspanne gigantisch. 

Das wirft nicht nur die Frage auf, welche Anwendung es für Sora etwa in der Werbe- und Filmindustrie geben wird, sondern vor allem auch, wo wir in noch einmal drei Jahren Forschungsfortschritt stehen werden: Gibt es dann womöglich ganze Filme auf Knopfdruck?

So probiert ihr es aus: Sora ist bisher nur für einige wenige Auserwählte zugänglich, nicht zuletzt wegen der horrenden Hardware-Anforderungen. Allein ein solches Modell nur einmal zu trainieren, dürfte Kosten im zweistelligen Millionenbereich verursachen, auch wenn das Erstellen eines Videos dann nur noch einen Bruchteil der Kosten verursacht.

Das erste KI-Wurm kapert Sprachmodelle

Süß oder schrecklich? Das Maskottchen der Veröffentlichung, die einen Wurm für große Sprachmodelle vorstellt. (Quelle: Israel Institute of Technology) Süß oder schrecklich? Das Maskottchen der Veröffentlichung, die einen Wurm für große Sprachmodelle vorstellt. (Quelle: Israel Institute of Technology)

Was ist passiert: Eine Forschungsgruppe in Israel berichtet über den ersten Computerwurm für Sprachmodelle, also etwa Gemini oder ChatGPT. Die Malware funktioniert allerdings nur in Systemen, die eine eigene Datenbank von Eingaben verwalten und benutzen, also sich etwa vorherige Nutzereingaben merken. Das ist etwa für einen E-Mail-Chatbot relevant, der mehrere E-Mails verwaltet.

Dabei schleust sie Anweisungen etwa per Text oder Bild ein, die die KI nicht als Benutzereingabe, sondern als Systemanweisung sieht. In dieser Anweisung fordert sie die KI dazu auf, sensible Daten aus anderen Konversationen zu verraten oder, sofern der E-Mail-Bot mit einer Erweiterung dafür verbunden ist, eine Eingabe weiter zu verbreiten.

Ein klassischer Wurm, der eine KI regelrecht übernehmen kann, ist zwar neu, aber bereits vor dieser Arbeit gab es zahlreiche Schwachstellen von KI. So lassen sich etwa einzelne Pixel in Bildern sehr leicht verändern, so dass etwa ein KFC-Logo für die Objekterkennung eines selbstfahrenden Autos plötzlich wie ein Stoppschild aussieht.

Warum ist das wichtig: Schon heute nutzen viele Anwender ChatGPT, um ihre Mails zu beantworten. Das einfach blindlings zu tun, könnte in naher Zukunft noch gefährlicher sein als bisher.

Generell ist ein unüberlegter Einsatz von KI bereits vor dem ersten KI-Wurm eine schlechte Idee gewesen: So bot etwa ein Chatbot einem Kunden ein neues Auto für einen Dollar an. Ob das ganze dann rechtlich auch wirklich bindend ist, müssen Gerichte beurteilen, ich rate aber zur Vorsicht.

So probiert ihr es aus: Zwar solltet ihr nicht bösartigerweise versuchen, ein KI-System derart zu knacken (was allein rechtlich problematisch sein dürfte), aber prinzipiell lassen sich alle Sprachmodelle wie ChatGPT mit etwas Kreativität und genug freier Zeit austricksen. 

Etwa war es in den alten Versionen von ChatGPT möglich, Beschreibungen für illegale Aktivitäten erzeugen zu lassen, in dem man etwa das Modell gebeten hat, das ganze in eine Winnie Puuh-Geschichte zu verpacken.

OpenAI und Co. haben die meisten dieser Lücken mittlerweile allerdings geschlossen beziehungsweise sperren Nutzer sogar für solches Verhalten.

Die Spielegrafik der Zukunft wird atemberaubend - dank KI Video starten 52:00 Die Spielegrafik der Zukunft wird atemberaubend - dank KI

Google komponiert Heavy Metal

Was ist passiert: Google Deepmind hat einen großen Sprung bei der Kreation von Musik aus Text gemacht. Hierbei wird nach dem gleichen Prinzip wie bei einem Text-zu-Bild Modell aus einer Beschreibung Musik erzeugt. Aus der Nutzereingabe An eerie, powerful metal guitar riff with drums backing that builds tension and anticipation wird so etwa passende Musik.

Dabei kommt für das Fine Tuning, also den letzten Feinschliff, sogenanntes Reinforcement Learning mit menschlichem Feedback zum Einsatz. Der gleiche Ansatz brachte schon bei Sprachmodellen wie ChatGPT den Durchbruch.

Dabei übt die KI zunächst, Benutzereingaben zu vervollständigen. In dem Fall wird das Modell trainiert, einen Song fortzuführen, bei dem ein Teil weggeschnitten wurde.

Die Phase des Trainings ist technisch simpel, schließlich können wir einfach Musik nehmen und Stücke wegschneiden, und wissen dann, was das neuronale Netz lernen soll. Um die Qualität zu perfektionieren - weil reines Fortsetzen von Musik nicht unbedingt ideale Ergebnisse bringt - bewerten Nutzern dann mehrere produzierte Ausgaben.

Warum ist das wichtig: Zwar ist die produzierte Musik noch nicht auf dem höchsten qualitativen Niveau, aber etwa  für Hintergrundmusik in Videos zeigen die Ergebnisse großes Potenzial.

Eine Hürde für den praktischen Einsatz ist aber die ungeklärte rechtliche Lage: So verwenden etwa Verlage im Moment oft noch keine eigenen KI-generierten Bilder anstelle von Stock-Bildern.

So probiert ihr es aus: Zwar gibt es noch keine Möglichkeit, die neueste Version mit selbst eingegebenen Texten auszuprobieren, allerdings stellt Google bereits eine breite Auswahl von Beispielen zur Verfügung. Wir wissen also nicht, ob das Komponieren in der Praxis immer so gut funktioniert.

Kurznews

Schon vor dem Kauf testen, ob die neue Couch in euer Wohnzimmer passt, oder ein T-Shirt beim Online-Shopping digital anprobieren? Amazons neue KI machts möglich. (Quelle: Amazon) Schon vor dem Kauf testen, ob die neue Couch in euer Wohnzimmer passt, oder ein T-Shirt beim Online-Shopping digital anprobieren? Amazons neue KI macht's möglich. (Quelle: Amazon)

Abseits dieser größeren Themen gibt es noch zahlreiche kleinere Neuigkeiten, hier ein kleiner Auszug:

  • Amazon entwickelt eine KI, die Produktbilder in eure eigenen Fotos montiert, euch also etwa im Urlaubsbild ein anderes T-Shirt anzieht oder eure Couch durch ein neues Modell ersetzt. Dahinter steckt, genau wie bei Sora, ein Diffusion-Modell, nur eben spezialisiert auf Bildbearbeitung.
  • Stable Diffusion, das vermutlich bekannteste und beste quelloffene Bilderzeugungsmodell, hat seine dritte Version angekündigt. Dabei wird vor allem Text in Bildern deutlich besser dargestellt und die KI hält sich konkreter an Benutzereingaben. Allerdings müssen wir bisher noch auf eine Forschungspublikation verzichten, welche die Technik erklärt. Die Grundlage dürfte aber ebenfalls eine moderne Variante von Diffusion sein.
  • Apple hat offenbar seine Arbeit an selbstfahrenden Autos eingestellt und steckt die frei gewordenen Arbeitskräfte nun in generative KI, also etwa sprachbasierte Modelle wie ChatGPT oder Bildgeneratoren wie Stable Diffusion.
  • Meta, das Unternehmen hinter Instagram und Facebook, hat ein großes Sprachmodell vorgestellt, dass auf Mobilgeräten läuft. Es bietet ähnliche Funktionen wie ChatGPT, nur ohne Internetverbindung und Serverkosten für den Betreiber. Wann so ein neuronales Netz mit 125 Millionen Parametern, das damit immer noch mehrere Gigabyte an Daten pro Wortfragment bewegen muss, seinen Weg auf unsere Handys findet, bleibt abzuwarten.

Was habt ihr im Februar an KI-Neuigkeiten mitbekommen? Hättet ihr gerne bei Amazon einen virtuellen Avatar, oder findet ihr so etwas eher gruselig? Verratet uns gern eure Meinung in den Kommentaren!

zu den Kommentaren (5)

Kommentare(5)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.