Forscher erklärt: Das sind die wichtigsten KI-Neuerungen, die ihr aktuell auf dem Schirm haben solltet

In der Welt der künstlichen Intelligenz den Überblick zu behalten, ist bei all dem Fortschritt mittlerweile selbst für Forscher wie mich alles andere als leicht.

Für euch (wie auch für meinen eigenen Überblick über das Thema) wage ich deshalb eine regelmäßige grobe Zusammenfassung der Geschehnisse, damit ihr auf dem Laufenden bleibt und wisst, wie sich das auf eure Lieblings-Apps und Hobbies auswirken könnte, und versuche, euch dazu immer ein nützliches neues KI-Werkzeug vorzustellen.

Natürlich sind solche Einordnungen auch immer stark gefärbt von der persönlichen Meinung des Autors. Feedback zu Fehleinschätzungen und übersehenen Durchbrüchen nehme ich dennoch gerne entgegen, auch wenn sich zumindest die letzte Jahresvorschau als recht akkurat herausgestellt hat.

Bilderzeugung in Echtzeit

Was ist passiert: StabilityAI, die Leute hinter dem quelloffenen Bildgenerator »Stable Diffusion«, haben eine neue Funktion für Text-zu-Bild-Modelle vorgestellt. Die erzeugt Bilder um ein Vielfaches schneller - ihr seht schon während des Tippens, wie ein Bild entsteht!

Zur Erinnerung: Stable Diffusion erzeugt Bilder, indem es lernt, in einem verrauschten Bild Dinge zu erkennen und das Rauschen zu entfernen. So kann es über sehr viele Schritte aus zufälligem Rauschen neue Bilder erzeugen, wie wir auch schon im Detail erklärt haben.

Tim Elsner

@@daidailoh

Nachdem Videospiele spielen zunächst kein vernünftiger Job zu sein schien, entschied sich Tim für ein Studium in Informatik. Natürlich nur, um später selbst Spiele entwickeln zu können. Nach ein paar falschen Abzweigungen im Studium ist er schließlich bei einer Doktorandenstelle in der künstlichen Intelligenz und Computergrafik gelandet und freut sich darüber, wenn er 3D-Rekonstruktionen von GTA 5 in seine Forschungsarbeiten einbauen kann. Als ihm Teile seines Umfelds Sprechverbot über künstliche Intelligenz erteilten, musste er sich ein anderes Ventil suchen, um Leute mit seiner Begeisterung für das Thema zu quälen - deshalb schreibt er jetzt darüber Artikel.

Mit einigen Tricks ließ sich das schon auf etwa 50 Schritte herunterbrechen, was aber selbst auf moderner Hardware noch etwas dauern kann. Die Anzahl der nötigen Schritte reduziert StabilityAI jetzt bei vergleichbarer Qualität auf nur einen einzigen Durchlauf.

Dazu verwenden sie einen Trick, der das Wissen eines »langsamen« Modells in ein »schnelles« Modell destilliert. Das schnelle Modell wird also darauf trainiert, in nur einem Schritt das gleiche Ergebnis wie das langsame Modell zu produzieren - ohne, dass die vorherigen 49 Schritte notwendig wären.

Warum ist das wichtig? Es klingt erstmal nur nett und kostensparend, ermöglicht aber in der Praxis Dinge, die bisher schlicht nicht praktikabel waren: Etwa lassen sich so auf die Schnelle 3D-Objekte generieren, was bisher Stunden gedauert hat. Genauso wären damit die KI-Features von Photoshop deutlich schneller.

So probiert ihr es aus: Stable Diffusion Turbo könnt ihr auf Clipdrop, der hauseigenen Plattform von Stability AI, live ausprobieren - sofern ihr eingeloggt seid. Die wirklich coolen Neuerungen, die die hohe Geschwindigkeit ermöglichen, stehen aber erst noch bevor. Das gleiche Prinzip könnte etwa auf Videos angewendet werden, die nochmals viel höhere Rechenkosten als Bilder haben.

0:40 Acer zeigt im Trailer die ersten Laptops mit der neuen KI-Taste von Windows Copilot

Video Diffusion

Was ist passiert: Nachdem Bilderzeugung schon länger gut funktioniert, wenden sich jetzt immer mehr Forschung den Videos als Ziel zu, und das Feld brodelt gerade so vor neuen Veröffentlichungen.

Weil für ein KI-Video mehrere, aufeinander passende Bilder erzeugt werden müssen, wird das Ganze dafür deutlich aufwändiger und komplexer. So dürfen etwa stimmige Kamerafahrten durch die Szene nicht außer Acht gelassen werden.

Es gibt mittlerweile immer mehr Ansätze, die KI-generierte Videos in annehmbarer Qualität hinbekommen. An Stelle von Textbeschreibungen, die eine ganze Szene beschreiben, lassen sich natürlich auch einfach Bilder animieren. Die Schwierigkeit liegt dabei sowohl bei den viel größeren Datenmengen (jedes Frame muss einzeln stimmig sein) als auch darin, Kontrolle über das Erzeugte zu erhalten.

Warum ist das wichtig? Wenn das Erzeugen oder das Bearbeiten von kurzen Clips Stunden dauert und schwer kontrollierbar ist, wird es unpraktisch für alles, was über witzige Clips hinausgeht.

Man möchte etwa als Videoersteller entscheiden können, ob eine Kamera in der Vogelperspektive über einen Basar fliegt oder im Tarantino-Style die Handlung aus dem Kofferraum heraus beobachtet. Und genau in diesem Bereich gibt es viel Bewegung.

Googles neue KI

Gemini wird es in drei Varianten geben, von Ultra für anspruchsvolle Aufgaben im Rechenzentrum bis zur Nano-Version, die auf dem Pixel 8 auch ohne Internetverbindung laufen soll.

Was ist passiert: Google hat die nächste Generation seiner KI vorgestellt. Das Modell namens Gemini präsentierte man als Antwort auf ChatGPT & Co. Dabei war das Werbevideo mit dem Nutzer noch stark gestellt. Der aktuelle Stand ist in Wahrheit noch weit von einem fließend zu benutzenden Assistenten entfernt und basiert immer noch auf der bekannten Eingabezeile wie beider Konkurrenz.

Warum ist das wichtig? Das eigentlich Interessante an der Präsentation war eher, was sie über die zukünftige Ausrichtung von Googles KI verrät. Wie bei OpenAIs GPT-4 wählt auch Google einen Weg in die Multimodalität, also weg von reinem Text wie bei ChatGPT hin zu einem Modell, das sowohl Audio und Bilder als auch Text und Code in Kombination versteht - und das laut Messwerten meist noch besser als die Konkurrenz.

Besonders die Aufteilung in drei verschieden starke Varianten macht klar: Man möchte weg von dauerhafter Anbindung ans Rechenzentrum und hin zu Modellen, die einfache Aufgaben wie Bilderkennung auf dem Handy selbst erledigen können.

Das wäre nicht nur günstiger für die Betreiber, sondern unter Umständen auch schneller und praktischer, als dauernd Daten hin- und herzuschicken. Damit könntet ihr beispielsweise auch ohne Internet in einem fremden Land Schilder übersetzen lassen.

So probiert ihr es aus: Google bringt Gemini aktuell auf die neueste Generation seines Pixel-Smartphones, wo sie bald in Echtzeit Aufgaben wie das Zusammenfassen von Sprachnachrichten übernehmen soll.

Außerdem ist Gemini bereits in seiner mittelgroßen Version in Googles Assistent Bard eingebaut worden, den ihr jederzeit selbst ausprobieren könnt.

Der Blick über den Tellerrand: Es bleibt spannend, was etwa Apple an eigenen KI-Funktionen für das iPhone nachliefern wird, und wann wir wirklich bei einem zuverlässigen, flüssig zu benutzenden persönlichen Assistenten ankommen, der lokal etwa unsere Termine verwaltet und auf Zuruf kleinere Aufgaben übernehmen kann.

KI-Tool des Monats

Ein Beispiel, wie euch CompfyUI aus einer Paint Skizze ein realistisches Bild machen lässt. (Quelle: Comfy Anonymous)

Nur Gucken und Staunen ist natürlich nur halb so spannend wie selber machen. Deshalb will ich euch etwas empfehlen, das ihr auch selbst nutzen könnt. Gerade im Bereich der Bildbearbeitung bietet KI da mittlerweile einige praktische Möglichkeiten, weshalb ich euch an dieser Stelle mein kostenloses KI-Tool des Monats vorstellen möchte:

CompfyUI für Stable Diffusion ist ein Drittanbieter-Interface für den quelloffenen Bildgenerator. Damit könnt ihr nicht nur wie bei anderen Webseiten Bilder erzeugen, sondern sie auch editieren.

So könnt ihr etwa Objekte aus Bildern herausschneiden, Bilder erweitern, zwei Gesichter zu einem neuen kombinieren oder die Komposition von Bildern anpassen. Die zu Beginn des Artikels erwähnte »schnelle« Bilderzeugung steht dort ebenso zur Verfügung, ihr braucht also keine Monster-Hardware.

Für CompfyUI braucht ihr auch keinerlei Programmierkenntnisse, aber ein bisschen Zeit, um euch ein paar Beispiele anzuschauen und zu verstehen, wie man mit dem graphbasierten Editor umgeht.

Zwar ist das Interface bisher nur auf Englisch verfügbar, dafür gibt es aber zahlreiche Blogposts oder den offiziellen Subreddit, falls etwas nicht klappen sollte oder ihr bei der Installation Probleme habt.

Podcast

Die Spielegrafik der Zukunft wird atemberaubend - dank KI

Dass Spiele in Zukunft schöner werden, liegt auf der Hand. Wie dieser Sprung zustande kommt, aber nicht unbedingt.

Kurznews

Neben diesen größeren Themen haben wir noch einige kleinere Neuigkeiten gesammelt, die interessant oder skurril sein könnten:

Während ChatGPT und Co. oft noch an einfachen Logikaufgaben scheitern, schafft Googles Deepmind einen (neuen) mathematischen Beweis. Falls Mathematikstudenten jetzt Hoffnungen für ihre Hausaufgaben haben sollten, werden sie leider (vorerst) enttäuscht: Deepmind generiert erst Millionen mögliche Beweise und prüft diese dann auf Richtigkeit.
Nochmal Google: Imagen 2 generiert Bilder aus einer Textbeschreibung, und das besser und genauer zum Text passend als bisherige Modelle. Das Prinzip dahinter soll kompatibel mit allen bekannten Anwendungszwecken sein. Mit dabei ist auch Technik, um erzeugte Bilder mit einem unsichtbaren Wasserzeichen zu versehen.
Während andere noch an der Erzeugung von 2D-Bildern arbeiten, geht Nvidia direkt zwei Schritte weiter und liefert Text zu 4D: Aus einer Textbeschreibung entstehen kleine, animierte 3D-Objekte. Das könnte gerade für erste Prototypen in der Spieleentwicklung oder digitale Avatare praktisch sein.
New York Times verklagt OpenAI, weil ChatGPT in Teilen Text produziert, der fast identisch mit deren Artikeln ist. Für die riesigen Datensätze, die ein Modell wie ChatGPT braucht, wird oft das Internet als Quelle benutzt. Sobald also ein Artikel etwa in der New York Times erscheint und möglicherweise darüber hinaus zitiert wird, generiert ein auf Satzvervollständigung trainiertes ChatGPT natürlich gelegentlich die gleichen Phrasen.
OpenAI arbeitet in Zukunft mit dem Axel-Springer-Verlag, dem Herausgeber der BILD-Zeitung, zusammen, sodass etwa ChatGPT in Zukunft auf deren Material zugreifen kann (und im Gegensatz zur New York Times auch darf).

Ihr wollt mehr darüber erfahren, wie sich ChatGPT sonst noch weiterentwickelt? Dann könnte euch dieser Artikel über den ChatGPT Nachfolger GPT-4 interessieren:

Was GPT-4 wirklich besser macht - und was das für die Zukunft von ChatGPT bedeutet

Was habt ihr im Dezember an KI-Neuigkeiten mitbekommen, und was für KI-Produkte benutzt ihr? Habt ihr vielleicht sogar eure Weihnachtskarten mit KI generiert, und, wie der Autor, euch über die Verwunderung über solche abgefahrenen und persönlichen Motive gefreut? Würdet ihr eine Zusammenfassung dieses schnelllebigen Themas gerne regelmäßiger lesen? Verratet uns gerne mehr in den Kommentaren!


	1	Star Trek: Warum das Raumschiff Enterprise nur 158 Kilo wiegt
	2	Android: Zwei WLAN-Einstellungen, bei denen es sich lohnt, sie zu deaktivieren
	3	Xiaomi kann einpacken: Das schönste Handy der Welt kommt mit Android 15, 120Hz AMOLED und der Preis ist famos!
	4	Kostenlos bei Steam und Co.: Am Wochenende gibt's 3 Spiele geschenkt - und richtig viel für Warhammer-Fans
	5	Atlas: Netflix' neuer Sci-Fi-Film mit Jennifer Lopez wird von Kritikern komplett abgestraft
	mehr anzeigen