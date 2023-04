ChatGPT und Midjourney dürften mittlerweile den meisten Leuten ein Begriff sein. Doch es gibt natürlich noch unzählige künstliche Intelligenzen (und solche, die es werden wollen), die noch nicht so viel Bekanntheit erlangt haben.

Das dürfte die GPU-Entwickler von Nvidia allerdings kaum stören. Immerhin genießen sie bereits einen gewissen Bekanntheitsgrad. Nvidias Toronto AI-Lab hat nun ein KI-Projekt vorgestellt, das eure Bilder bewegbar machen soll.

Harry Potter und die latenten Diffusionsmodelle

Latent Diffusion Models (LDM) sind künstliche Intelligenzen, die Videos generieren, ohne viel Rechenpower zu brauchen. Laut Nvidia basiert die Arbeit an ihrem Projekt auf Text-zu-Bild-Generatoren, wie zum Beispiel Stable Diffusion. Zusätzlich haben sie angeblich eine »zeitliche Dimension« hinzugefügt.

Was heißt das? Einfach gesagt bedeutet das, dass Standbilder »realistisch« animiert werden sollen. Ein einzelnes Bild wird also angeblich zum Video werden - genauer gesagt zum GIF. Uns erinnert das stark an die bewegten Bilder aus Harry Potter. Aber auch das Meme-Potenzial scheint grenzenlos zu sein.

Das Projekt soll Upscaling-Technologie nutzen, um möglichst echt wirkende Bewegungen in guter Qualität darzustellen. Aus einem Bild soll so ein 4,7 Sekunden langes Video mit einer Auflösung von 1.280 x 2.048 Pixel werden. Bei einer Auflösung von 512 x 1.024 sollen die Videos auch länger werden können.

Das bedeutet einen großen Schritt im Text-zu-Video-Bereich und könnte in Zukunft diverse Anwendungsmöglichkeiten in beispielsweise der Filmbranche bieten.

Im momentanen Zustand lässt die Qualität wohl noch etwas zu wünschen übrig, da man noch Artefakte sieht. Auch die sich ständig wandelnde Umgebung sieht im Moment stark künstlich aus, doch es ist kein Geheimnis, dass KI-Technologien die Eigenschaft haben, sehr schnell fortzuschreiten.

Wir bleiben gespannt, was in Kürze noch in diesem Bereich passieren wird.

Werdet ihr die Nvidia-technologe nutzen, um euer Meme-Game etwas aufzuwerten oder sehen euch die Videos momentan noch etwas zu gruselig aus? Bei manchen davon kann es einem ja durchaus kalt den Rücken runter laufen. Freut ihr euch auf weitere Entwicklungen im Text-zu-Video-Bereich? Schreibt es uns gerne in die Kommentare!