Stable Diffusion & Co: Wie ihr mit KI-Tools beeindruckende Bilder erstellt

"Théâtre D'opéra Spatial", erzeugt mit der Midjourney KI nur aus einer Textbeschreibung, hat einen Kunstwettbewerb gewonnen und damit einen Shitstorm ausgelöst.

Kaum jemand, der auf den sozialen Medien wie etwa Twitter unterwegs ist, wird ihnen entgangen sein: Absurde Bilder, die von süßen Tieren auf Motorrädern bis zu Stoff für Albträume reichen. Dahinter stecken Text-to-Image-Modelle, also neuronale Netze, die aus einer kurzen Beschreibung ein Bild erzeugen.

Teilweise klappt das sogar so gut, dass sie von Fotos nicht mehr zu unterscheiden sind. Vielleicht mit Ausnahme davon, dass Katzen normalerweise keine Motorräder fahren können. Was dahinter steckt, wie es genau funktioniert und welche Tools es gibt, erklären wir euch in diesem Artikel.

Warum künstliche Intelligenz in Videospielen nur wenig mit dem aktuellen KI-Hype zu tun hat, erfahrt ihr in unserem Special zur KI in Spielen:

Wir schimpfen gern über dumme KI in Spielen, dabei steckt dahinter oft System

Text to Image - Was ist das?

Frühere Ansätze, etwa das Erzeugen von Gesichtern, funktionierten nur mit viel Aufwand für ein sehr spezielles Gebiet, etwa eben Gesichter. Die aktuell so beliebten Diffusion Modelle dagegen sind absolute Multitalente und noch dazu einfach zu verstehen.

Stellt euch vor, ihr habt das Bild eines Apfels. Das verrauscht ihr jetzt ganz leicht, das heißt, ihr werft die Farbwerte für jeden Pixel etwas durcheinander. Als Mensch ist es für euch einfach, daraus zu erkennen, wie der Apfel vorher mal ausgesehen hat - genau das kann man auch einem neuronalen Netz beibringen.

Ihr nehmt Bilder, macht sie ein wenig kaputt und trainiert dann das Netz darauf, genau dieses Rauschen wieder zu entfernen. Dieses Netz müsst ihr euch dabei vorstellen wie das Kinderspiel Blinde Kuh.

Zwar kein Apfel, aber eine Drachenfrucht mit Karategürtel im Schnee hat doch auch etwas.

Ihr gebt dem Netz ein verrauschtes Bild, schaut, was es so ausspuckt, und sagt dann heiß oder kalt, oder mit anderen Worten: Was davon stimmt und was nicht. Stück für Stück lernt das Netz dann, was es zu tun hat. Etwa, dass der weiße Pixel auf dem sonst roten Apfel (oder der Drachenfrucht) vermutlich eher nicht dorthin gehört.

Dabei macht ihr das Ganze aber nicht in einem Schritt. Für ein verrauschtes Bild, das euer Netz bekommt, entfernt ihr immer nur ein kleines Bisschen von dem Rauschen. Und natürlich macht ihr das nicht nur für einen Apfel, sondern für alle möglichen Bilder und für alle möglichen Rauschstärken - von einem kleinen bisschen bis hin zu kompletten Schneegestöber, in dem man nichts mehr erkennt.

Damit so ein Netz jetzt komplett neue Bilder generiert, lässt man es einfach auf ein Bild los, das nur aus Rauschen, also nur aus Zufallswerten besteht. Das Netz entfernt dann Stück für Stück das Rauschen und baut dadurch ein neues Bild.

Hideo Kojima auf dem Toast

Anfangs erkennt man nicht viel, aber alleine durch den Zufall wird das Netz irgendwann denken, dass es zum Beispiel eine Struktur erkennt - quasi so, wie wenn ihr denkt, auf einer Scheibe Toast Hideo Kojima zu erkennen. Und genau hier hat das Netz ja gelernt, nur das Rauschen zu entfernen - das, was es glaubt zu erkennen, versucht es zu behalten. Über tausend Schritte bekommt ihr dann etwas Sinnvolles heraus.

Alle die verschiedenen Ansätze machen genau das für euch: Wenn ihr ein neues Bild erstellen wollt, werfen sie einfach ein zufälliges Rauschbild für euch in das Netz und lassen schrittweise alles, was es für Rauschen hält, entfernen, bis ihr ein sinnvolles Bild bekommt.

Damit das Netz aber nicht völlig im Dunkeln tappt, bekommt es zusätzlich noch eine Textbeschreibung gegeben und kann damit etwas leichter arbeiten. Beim Stichwort Apfel wird es damit dann etwas schneller merken, dass die Pixel auf der Schale etwa rot sein sollten.

Eigentlich lernen diese Netze nur, mit Hilfe eines Textes ein Bild ein kleines bisschen weniger rauschig zu machen, an Milliarden von Beispielen. Wenn ihr das jetzt sehr oft auf ein anfangs zufälliges Rauschen anwendet, dann kommt irgendwann etwas Sinnvolles dabei heraus. Theoretisch. Meistens.

Nichts anderes machen im Kern all die bekannten Modelle, natürlich mit mehr Herumgeschraube und einer Rechenpower, die selbst so manche Cryptominer alt aussehen lässt. Da kann ein Netz neu trainieren schnell 600.000 Dollar kosten.

KI-Tools: Wo ihr selbst Bilder aus Text generieren könnt

Googles Imagen schafft es oft sogar sehr kreative Texteingaben realistisch darzustellen

Eine der besten Ansätze liefert im Moment Google mit seinem Imagen getauften Modell, das im Gegensatz zur Konkurrenz sogar Schriftzüge (meistens) richtig darstellen kann.

Das ist insofern beeindruckend, als dass das Modell nie gelernt hat, wie Buchstaben eigentlich funktionieren - es hat lediglich beim Training erkannt, dass zum Beispiel bei Bildern, die etwa mit XY mit der Aufschrift Z beschriftet waren, eben bestimmte Formen im Bild auftauchen.

Dazu sollte man allerdings erwähnen, dass Google das Ganze mit Milliarden (!) von beschrifteten Bildern gefüttert hat und allein das Training von dem Teil, der den Eingabetext versteht, schon einen zweistelligen Millionenbetrag gekostet haben dürfte. NUR das Rechnen. Das Modell an sich ist zwar (verhältnismäßig) einfach aufgebaut, aber leider nicht frei verfügbar.

Wer Lust hat, knackscharfe Bilder selber zu generieren, aber gerade weder eine Serverfarm voller Grafikkarten mit dutzenden Gigabyte Speicher samt eigenem Kraftwerk noch Ahnung von Programmierung hat, der kann dabei auf einige zugängliche Alternativen zurückgreifen:

DALL-E 2

So stellt sich OpenAIs DALL·E 2 ein deutsches Magazin für PC Spiele vor

DALL-E 2 ist für jeden im Browser zugänglich und bequem benutzbar - wer mehr als nur ein paar Bilder generieren will, wird jedoch zur Kasse geben.

Midjourney

Habt ihr euch nicht auch schon immer gefragt, wie ein Zentaurenshrimp aussieht? Nein? Ist vermutlich auch besser so.

Midjourney war eins der ersten frei verfügbaren Modelle und erfreut sich insbesondere in der Designszene großer Beliebtheit. Das Ganze lässt sich bequem über einen Discord-Bot bedienen, aber auch hier ist die Benutzung nach ein paar Gratisbildern kostenpflichtig.

Midjourney ist es mit menschlicher Hilfe sogar mittlerweile gelungen, einen Preis für Kunst abzuräumen. Mehr dazu erfahrt ihr im Artikel KI erschleicht sich ersten Platz bei Kunstwettbewerb - echte Künstler sind stinksauer.

Stable Diffusion

Stable Diffusion erfreut sich insbesondere bei Künstlern höchster Beliebtheit.

Stable Diffusion ist für jeden zugänglich, der Code ist vollständig offen im Netz und mit ein bisschen Ahnung schnell lauffähig. Der Haken: Ihr braucht dafür eine moderne Grafikkarte mit viel VRAM. Mittlerweile bieten aber viele Webseiten die Nutzung auch online an.

DALL-E Mini

DALL·EMini hat eine breite Grundlage an Bildern aus der Popkultur, dafür leidet die Qualität etwas.

DALL·E Mini funktioniert zwar technisch nicht durch Diffusion wie die anderen Modelle, ist aber dafür frei zugänglich. Die verwendeten Daten sowie Benutzereingaben wurden dabei merkbar weniger gefiltert, was sich etwa in einem deutlich besseren Verständnis von Popkultur zeigt. Den Demogorgon aus Stranger Things etwa bei der Serie Friends mitspielen zu lassen, klappt bisher nur mit DALL·E Mini wirklich treffsicher.

Es gibt noch viele weitere Modelle, alle mit ihren jeweiligen Stärken und Schwächen. Die alle aufzulisten, würde jedoch den Rahmen dieser kurzen Auflistung sprengen.

Was kommt noch?

Diffusion ploppt gerade nicht nur auf Twitter auf, sondern auch überall in der Forschung wie Fruchtfliegen auf einem überreifen Obstkorb im Hochsommer. Dabei geht es längst über schnöde Bilder hinaus.

Das Prinzip bleibt stets das gleiche: Schritt für Schritt wird einem neuronalen Netz beigebracht, aus purem Rauschen den Rauschanteil immer mehr zu entfernen. Ob das nun mit Videos, Musik, oder 3D-Modellen gemacht wird, ist letztlich egal, solange es nur genug Daten gibt.

Zunächst wäre da natürlich der nächste logische Schritt, aus Bildern bewegte Bilder zu machen. Google hat das auch längst getan, wenn auch noch etwas pixelig und kurz. Aber in ein paar Jahren könnte das vermutlich für einen Film vom Kaliber Till Schweiger oder Uwe Boll reichen.

Eine andere Richtung ist das Erzeugen von 3D-Modellen durch Texteingaben: Das Wissen, wie unsere Welt aussieht und funktioniert, steckt offensichtlich schon in einem Text-zu-Bild-Modell. Google schafft es, genau dieses Wissen aus einem bereits trainierten Modell zu ziehen, so dass ihr nicht nur ein langweiliges Bild, sondern ein ganzes 3D-Modell mit Textur erzeugen könnt. Gerade für etwa Prototypen in der Videospielindustrie könnte das ein absoluter Hammer sein.

Klar, ein Bild von einer Katze auf dem Mond ist cool - aber viel cooler wäre es doch, wenn es genau EURE Katze auf dem Mond zu sehen gäbe! Genau das funktioniert bereits rudimentär: Ihr könnt aus ein paar gegebenen Bildern eine Beschreibung bauen lassen, die ihr dann in einer Texteingabe benutzt (genau meine Katze auf dem Mond!).

Letztlich lässt sich das ganze sogar für gruselige Deepfakes benutzen. Ebenso könnt ihr auch mittlerweile ein einzelnes Bild nehmen und etwa den Hintergrund ändern, oder eine grobe Landschaft vormalen, die das Modell dann in ein wunderschönes Ölgemälde verwandelt.

Ihr müsst Bilder editieren, habt aber keine Lust, euch mit Photoshop rumzuschlagen? In diese Richtung gehen einige neue Ansätze aus der Forschung: Mit diesen Methoden könntet ihr bald ein beliebiges Bild editieren, indem ihr einfach eine andere Beschreibung eingebt. So wird aus einem Foto eines Mädchens auf einem Pferd auf Anweisung eine Dinosaurierreiterin. Natürlich können solche Ansätze auch wieder für allerlei Schabernack und Deepfakes benutzt werden.

Harmlosere Einsatzzwecke gibt es dafür auch: Guckt ihr etwa auf euren Urlaubsfotos auch immer zu grimmig? Keine Sorge, KI bietet jetzt auch dafür eine Lösung ohne Photoshop-Kenntnisse. Ihr müsst nur eingeben, dass ihr das gleiche Bild lächelnd haben wollt:

Wir stehen erst am Anfang

Bilder aus Text zu erzeugen, funktioniert mittlerweile erschreckend gut - die nächsten Schritte gehen dabei in Richtung neuer Anwendungen und vor allem von mehr Kontrolle über die Bildgenerierung.

Wer träumt schließlich nicht davon, in einem zukünftigen Elder Scrolls nicht nur Katzenmensch in ein Textfeld zu tippen, sondern haargenau und präzise kontrollieren zu können, wie unser Charakter eigentlich aussieht.

Bis wir das ganze tatsächlich in einem fertigen Produkt benutzen dürfen, zumindest in Programmen wie Photoshop oder Spielen, dürfte es nicht mehr lange dauern: Microsoft etwa hat bereits mittlerweile ein Designer-Tool für Grafiken aller Art in der Beta veröffentlicht.

Abschließend legen wir euch unseren aktuellen Podcast zum KI-Thema ans Herz, der sich auch mit Chat-Bots wie ChatGPT näher befasst:

Link zum Podcast-Inhalt

Wie steht ihr zum Aufkommen von KI-Tools? Seht ihr es aufgrund der neuen Möglichkeiten positiv oder aufgrund von Problemen wie Copyright und Fakes eher negativ? Schreibt es gerne in die Kommentare!


	1	Pärchen kauft Haus zur Renovierung, findet unter dem Bett überraschend komplette Game Boy-Spielesammlung - und im Rest des Hauses weitere Retro-Schätze
	2	1980 nahm Bill Gates seinen Freund unter Vertrag und gab später 8 % von Microsoft für ihn auf. Heute ist Steve Ballmer reicher als Gates [Best of GameStar]
	3	Das GPU-Äquivalent eines Shiny Pokémon - Spieler schickt RX 9070 XT zur Reparatur und bekommt sie mit kuriosem Fehler zurück [Best of GameStar]
	4	Was Steam-User mit Starfield gemacht haben, ist nicht okay [Best of GameStar]
	5	Laut der Psychologie entwickeln Erwachsene, die seit ihrer Kindheit Zeichentrickfilme schauen, ein spezielles »Schmerzmittel«, um geistige Erschöpfung zu lindern
	mehr anzeigen

Beeindruckende KI-Bilder mit simplen Tools: Wie funktioniert das und was bringt die Zukunft?