Der Februar bringt kräftig neues im Bereich der KI - aber leider nicht nur Gutes. Denn gerade wer bei seinen Mails bereits auf KI setzt, muss sich künftig wohl Sorgen um einen Computerwurm machen.
Ich biete euch wieder einen kleinen Überblick über die Themen im Bereich KI, die in Forschung und Gesellschaft Schlagzeilen gemacht haben.
Wie immer freue ich mich über Feedback oder Kommentare zu Dingen, die ich verpasst habe.
Sora hebt die Erzeugung von Videos auf ein neues Level
Was ist passiert: OpenAI hat ein neues Text-zu-Video Modell vorgestellt, Kollege Stahnke berichtete bereits darüber. Dabei wird nur aus einem Text eine komplette Videosequenz in hoher Auflösung erstellt, die alles bisher Dagewesene übertrifft.
Besonders die darunter liegende Diffusion
-Technik, die schrittweise aus Rauschen ein Bild erzeugt, macht Sora so spannend: Zwar wendet OpenAI die Technik hier auf Videos statt Bilder an, die grundsätzlichen Ideen funktionieren aber ähnlich.
So lassen sich etwa aus einzelnen Bildern komplette Videos machen, statt einzelne Teile eines Bildes vorzugeben und das KI-Modell drumherum malen zu lassen. Außerdem sind Ansätze, die etwa ein textbasiertes Editieren ermöglichen, theoretisch ebenso möglich.
Mit der einfachen Textzeile Ersetze die Menschen im Video durch Velociraptoren
und etwas Rechenzeit lassen sich damit einerseits die Videos der letzten Weihnachtsfeier deutlich aufpeppen, andererseits ist aber natürlich auch deutlich mehr Schindluder oder sogar Kriminelles machbar.
Link zum YouTube-Inhalt
Warum ist das wichtig: Sora ist ein großer Wurf, weil das Modell nicht lernen muss, wie unsere Welt aussieht - es muss auch verstehen, wie sie funktioniert.
Denn im Gegensatz zu Bildern braucht es für ein Video nicht nur ein zusammenhängendes Verständnis von unserer Welt und dem Zusammenspiel der Objekte darin, sondern vor allem auch von Abfolgen von Dingen, also der Physik in einer Szene.
Das realistische Verhalten von Wasser im Meer, das Werfen von Schatten auf einer Unebenen Schneefläche oder auch die Bewegung von Haaren müssen alle mitgelernt
werden, damit ein Video am Ende plausibel erscheint.
Besonders extrem erscheint dieser Fortschritt, wenn man sich seine Geschwindigkeit anschaut: Vor etwa drei Jahren erschien DALL-E, das erste richtige
Text-zu-Bild-Modell, und begeisterte Fachwelt und Laien gleichermaßen.
Der Schritt von einem Modell, das hunderte Versuche für ein kleines, meist nicht besonders realistisches Bild braucht, zu einem Modell, das semi-realistische HD-Videos produziert, ist in einer so kurzen Zeitspanne gigantisch.
Das wirft nicht nur die Frage auf, welche Anwendung es für Sora etwa in der Werbe- und Filmindustrie geben wird, sondern vor allem auch, wo wir in noch einmal drei Jahren Forschungsfortschritt stehen werden: Gibt es dann womöglich ganze Filme auf Knopfdruck?
So probiert ihr es aus: Sora ist bisher nur für einige wenige Auserwählte zugänglich, nicht zuletzt wegen der horrenden Hardware-Anforderungen. Allein ein solches Modell nur einmal zu trainieren, dürfte Kosten im zweistelligen Millionenbereich verursachen, auch wenn das Erstellen eines Videos dann nur noch einen Bruchteil der Kosten verursacht.
Das erste KI-Wurm kapert Sprachmodelle
Was ist passiert: Eine Forschungsgruppe in Israel berichtet über den ersten Computerwurm für Sprachmodelle, also etwa Gemini oder ChatGPT. Die Malware funktioniert allerdings nur in Systemen, die eine eigene Datenbank von Eingaben verwalten und benutzen, also sich etwa vorherige Nutzereingaben merken. Das ist etwa für einen E-Mail-Chatbot relevant, der mehrere E-Mails verwaltet.
Dabei schleust sie Anweisungen etwa per Text oder Bild ein, die die KI nicht als Benutzereingabe, sondern als Systemanweisung sieht. In dieser Anweisung fordert sie die KI dazu auf, sensible Daten aus anderen Konversationen zu verraten oder, sofern der E-Mail-Bot mit einer Erweiterung dafür verbunden ist, eine Eingabe weiter zu verbreiten.
Ein klassischer Wurm, der eine KI regelrecht übernehmen kann, ist zwar neu, aber bereits vor dieser Arbeit gab es zahlreiche Schwachstellen von KI. So lassen sich etwa einzelne Pixel in Bildern sehr leicht verändern, so dass etwa ein KFC-Logo für die Objekterkennung eines selbstfahrenden Autos plötzlich wie ein Stoppschild aussieht.
Warum ist das wichtig: Schon heute nutzen viele Anwender ChatGPT, um ihre Mails zu beantworten. Das einfach blindlings zu tun, könnte in naher Zukunft noch gefährlicher sein als bisher.
Generell ist ein unüberlegter Einsatz von KI bereits vor dem ersten KI-Wurm eine schlechte Idee gewesen: So bot etwa ein Chatbot einem Kunden ein neues Auto für einen Dollar an. Ob das ganze dann rechtlich auch wirklich bindend ist, müssen Gerichte beurteilen, ich rate aber zur Vorsicht.
So probiert ihr es aus: Zwar solltet ihr nicht bösartigerweise versuchen, ein KI-System derart zu knacken (was allein rechtlich problematisch sein dürfte), aber prinzipiell lassen sich alle Sprachmodelle wie ChatGPT mit etwas Kreativität und genug freier Zeit austricksen.
Etwa war es in den alten Versionen von ChatGPT möglich, Beschreibungen für illegale Aktivitäten erzeugen zu lassen, in dem man etwa das Modell gebeten hat, das ganze in eine Winnie Puuh
-Geschichte zu verpacken.
OpenAI und Co. haben die meisten dieser Lücken mittlerweile allerdings geschlossen beziehungsweise sperren Nutzer sogar für solches Verhalten.
Google komponiert Heavy Metal
Was ist passiert: Google Deepmind hat einen großen Sprung bei der Kreation von Musik aus Text gemacht. Hierbei wird nach dem gleichen Prinzip wie bei einem Text-zu-Bild Modell aus einer Beschreibung Musik erzeugt. Aus der Nutzereingabe An eerie, powerful metal guitar riff with drums backing that builds tension and anticipation
wird so etwa passende Musik.
Dabei kommt für das Fine Tuning
, also den letzten Feinschliff, sogenanntes Reinforcement Learning
mit menschlichem Feedback zum Einsatz. Der gleiche Ansatz brachte schon bei Sprachmodellen wie ChatGPT den Durchbruch.
Dabei übt die KI zunächst, Benutzereingaben zu vervollständigen. In dem Fall wird das Modell trainiert, einen Song fortzuführen, bei dem ein Teil weggeschnitten wurde.
Die Phase des Trainings ist technisch simpel, schließlich können wir einfach Musik nehmen und Stücke wegschneiden, und wissen dann, was das neuronale Netz lernen soll. Um die Qualität zu perfektionieren - weil reines Fortsetzen von Musik nicht unbedingt ideale Ergebnisse bringt - bewerten Nutzern dann mehrere produzierte Ausgaben.
Warum ist das wichtig: Zwar ist die produzierte Musik noch nicht auf dem höchsten qualitativen Niveau, aber etwa für Hintergrundmusik in Videos zeigen die Ergebnisse großes Potenzial.
Eine Hürde für den praktischen Einsatz ist aber die ungeklärte rechtliche Lage: So verwenden etwa Verlage im Moment oft noch keine eigenen KI-generierten Bilder anstelle von Stock-Bildern.
So probiert ihr es aus: Zwar gibt es noch keine Möglichkeit, die neueste Version mit selbst eingegebenen Texten auszuprobieren, allerdings stellt Google bereits eine breite Auswahl von Beispielen zur Verfügung. Wir wissen also nicht, ob das Komponieren in der Praxis immer so gut funktioniert.
Kurznews
Abseits dieser größeren Themen gibt es noch zahlreiche kleinere Neuigkeiten, hier ein kleiner Auszug:
- Amazon entwickelt eine KI, die Produktbilder in eure eigenen Fotos montiert, euch also etwa im Urlaubsbild ein anderes T-Shirt anzieht oder eure Couch durch ein neues Modell ersetzt. Dahinter steckt, genau wie bei Sora, ein
Diffusion
-Modell, nur eben spezialisiert auf Bildbearbeitung. - Stable Diffusion, das vermutlich bekannteste und beste quelloffene Bilderzeugungsmodell, hat seine dritte Version angekündigt. Dabei wird vor allem Text in Bildern deutlich besser dargestellt und die KI hält sich konkreter an Benutzereingaben. Allerdings müssen wir bisher noch auf eine Forschungspublikation verzichten, welche die Technik erklärt. Die Grundlage dürfte aber ebenfalls eine moderne Variante von
Diffusion
sein. - Apple hat offenbar seine Arbeit an selbstfahrenden Autos eingestellt und steckt die frei gewordenen Arbeitskräfte nun in generative KI, also etwa sprachbasierte Modelle wie ChatGPT oder Bildgeneratoren wie Stable Diffusion.
- Meta, das Unternehmen hinter Instagram und Facebook, hat ein großes Sprachmodell vorgestellt, dass auf Mobilgeräten läuft. Es bietet ähnliche Funktionen wie ChatGPT, nur ohne Internetverbindung und Serverkosten für den Betreiber. Wann so ein neuronales Netz mit 125 Millionen Parametern, das damit immer noch mehrere Gigabyte an Daten pro Wortfragment bewegen muss, seinen Weg auf unsere Handys findet, bleibt abzuwarten.
Was habt ihr im Februar an KI-Neuigkeiten mitbekommen? Hättet ihr gerne bei Amazon einen virtuellen Avatar, oder findet ihr so etwas eher gruselig? Verratet uns gern eure Meinung in den Kommentaren!
Nur angemeldete Benutzer können kommentieren und bewerten.
Dein Kommentar wurde nicht gespeichert. Dies kann folgende Ursachen haben:
1. Der Kommentar ist länger als 4000 Zeichen.
2. Du hast versucht, einen Kommentar innerhalb der 10-Sekunden-Schreibsperre zu senden.
3. Dein Kommentar wurde als Spam identifiziert. Bitte beachte unsere Richtlinien zum Erstellen von Kommentaren.
4. Du verfügst nicht über die nötigen Schreibrechte bzw. wurdest gebannt.
Bei Fragen oder Problemen nutze bitte das Kontakt-Formular.
Nur angemeldete Benutzer können kommentieren und bewerten.
Nur angemeldete Plus-Mitglieder können Plus-Inhalte kommentieren und bewerten.