Eine Zeitmaschine ins viktorianische London stellen wir uns aus Steam-Punk-Geschichten vielleicht eher so vor. Ein Student hat seine kleine Zeitreise mit seiner eigenen KI gemacht. (Bildquelle: KI-generiert mit Adobe Firefly)

ChatGPT aus dem 19. Jahrhundert: Auf Reddit schreibt ein Student von einem überraschenden Fund im Rahmen eines persönlichen Hobbyprojekts. Er hat eine KI nur mit rund 200 Jahre alten Texten gefüttert.

Nach vielen unzusammenhängenden Ausgaben erzählt ihm die plötzlich eine wahre Geschichte aus dem Jahr 1834.

56:01 GameStar Tech Talk: Geht KI zu weit?

Autoplay

Ein viktorianisches ChatGPT

Im Subreddit r/LocalLLaMA diskutieren Entwickler über ihre eigenentwickelten Chatbots. Der Nutzer Remarkable-Trick-177 schreibt dort von einer spannenden Entdeckung, die er in der Arbeit an seinem Hobbyprojekt, gemacht hat.

Auf GitHub präsentiert der Informatik-Student aus Pennsylvania, der eigentlich Hayk Grigorian heißt, sein TimeCapsuleLLM, deutsch: Zeitkapsel-LLM.

Das Ziel seines Projekts: Einen Chatbot zu schaffen, der authentische Texte im Stil der viktorianischen Ära wiedergibt. So nennt man die Zeit in Großbritannien von 1837 bis 1901.

Für die Entwicklung ging er folgendermaßen vor:

Training von Grund auf: Viele Entwickler erstellen ihre eigenen Chatbots, indem sie ein bereits existierendes Modell lediglich fine-tunen. Hier wird ein bereits ausgereiftes Modell, etwa ein GPT-Modell von OpenAI, nur noch einmal mit einem spezielleren Datenset gefüttert, um spezifischere Ausgaben zu bekommen. Grigorian trainiert TimeCapsuleLLM aber von Grund auf nur mit seinen Datensätzen.
Historischer Datensatz: Er nutzte ausschließlich Texte aus dem Zeitraum 1800 bis 1875, darunter Bücher, Zeitungen und Dokumente aus London, damit der Chatbot eine authentische viktorianische Sprache wiedergibt.
Datengröße: Der gesamte Trainingsdatensatz hat in der aktuellen Version eine Größe von 6,25 Gigabyte (GB), was seiner Angabe nach etwa 7.000 Dokumenten entspricht. Zum Vergleich: Die Forscher von OpenAI geben in ihrem Paper zu GPT-3 von 2020 einen Datensatz von 570 GB an.

Grigorian nennt auf GitHub seine Methode, ein Sprachmodell rein auf historischen Texten aus einer spezifischen Zeit von einem spezifischen Ort zu trainieren, Selective Temporal Training (STT).

Dort schreibt er:

Wenn ich von Grund auf trainiere, wird das Sprachmodell nicht so tun, als sei es alt, es wird es einfach sein.

Eine unerwartete Geschichtsstunde vom Chatbot

LLMs generieren Text, indem sie das wahrscheinlichste nächste Wort vorhersagen – basierend auf dem, was sie in den Trainingsdaten gelernt haben. Sind nur wenige Daten vorhanden, neigen die KI-Chatbots dazu, Fakten zu erfinden.

Auch Grigorian hatte, wie er in der Dokumentation zu seinem Projekt auf Github schreibt, anfänglich dieses Problem. In seiner ersten Version v0 mit einem noch kleineren Datensatz konnte sein Zeitkapsel-LLM kaum einen kohärenten Satz erzeugen.

Mit einer Vergrößerung des Datensets wurden die Sätze kohärenter. Bei 6.25 GB hatte er dann schließlich einen persönlichen Durchbruch.

Auf Reddit teilt er den Prompt, der zu einer überraschenden Geschichtsstunde führte:

Es war das Jahr unseres Herren 1834

Der Chatbot generiert zu dieser Anfrage einen Text, der so beginnt:

Es war im Jahr unseres Herrn 1834, und die Straßen von London waren erfüllt von Protest und Petition.

Die folgende Passage ist zwar grammatikalisch nicht ganz korrekt, aber sie erzählt die Geschichte von Ausschreitungen in der britischen Hauptstadt im Jahr 1834 und erwähnt in diesem Kontext einen Lord Palmerston.

Grigorian weiß nichts von einem Protest und einem solchen Lord und beginnt zu googlen: Tatsächlich kam es 1834 in London zu Ausschreitungen und Lord Palmerston, damals Außenminister, spielte eine zentrale Rolle in der damaligen britischen Politik.

Auf Github erklärt Grigorian die Bedeutung seiner Entdeckung so:

Das zeigt, dass das Modell beginnt, sich an Sachverhalte aus dem Datensatz zu erinnern.

Es fühle sich an wie eine digitale Zeitreise

Für Grigorian ist es ein Durchbruch, dass sein TimeCapsuleLLM mit seinem immer noch ziemlich kleinen Datensatz bereits historische Fakten – die ihm unbekannt waren – wiedergeben kann:

Das alles von einem nur fünf bis sechs GB großen Datensatz, stellt euch die Ergebnisse mit 30 GB oder mehr vor.

Er schränkt zwar ein, dass er sich nicht sicher sei, ob die bloße Skalierung des Datensatzes zu einer Form von logischem Schlussfolgern führen würde, aber für ihn fühle sich sein Projekt schon jetzt wie eine digitale Zeitreise an.

Nun bedeutet Grigorians Erfolg nicht, dass wir einfach so etwa unser persönliches Mittelalter-ChatGPT erzeugen können und in einer lockeren Unterhaltung mit dem Chatbot über erstaunliche Fakten von vor 900 Jahren stolpern.

Denn das ist ja genau das Problem an vielen historischen Epochen: Es sind eben nicht so viele schriftliche Dokumente vorhanden.

Dennoch zeigt das Projekt von Grigorian zweierlei:

Gerade bei kleinen Datensets kann eine Skalierung (die immer noch nichts mit den Datenmassen von ChatGPT zu tun hat) zu erstaunlichen Ergebnissen führen kann.
Auch Sensationsfunde in Archiven, wie etwa der Fund einer Grimm-Bibliothek 2024, demonstrieren immer wieder: Wissensschätze sind vorhanden, aber es braucht oft Zufälle oder jahrelange gezielte Suche, um sie zu entdecken.
LLMs können hier einen interessanten Ansatz zur Verfügbarmachung von Informationen darstellen.

Mehr zu KI

Forscherin konfrontiert ChatGPT und Co. mit schlüpfrigen Anfragen – ein Modell wird besonders explizit

von Ursula Demling

ChatGPT kann viel, doch nicht alles - 3 Funktionen, die Gemini kann und ChatGPT nicht

von Jan Stahnke

Grigorian ist durch seine kleine historische Entdeckung jedenfalls motiviert, sein Projekt auf andere Städte und Perioden auszuweiten und zeigt sich auch interessiert an Kooperationen mit anderen Reddit-Nutzern.

Wir dürfen gespannt bleiben, was er und andere Hobbyforscher in Zukunft mithilfe von KI sonst noch so ans Tageslicht fördern.


	1	Die USA hat es gerade unmöglich gemacht, dass sich ihre Einwohner einen neuen Router kaufen
	2	Lego-Alternative BlueBrixx bringt Asterix und Obelix mit Minifiguren und 25 Sets in die Hände von erwachsenen Sammlern
	3	Zu langsam und altmodisch - Für Eiichiro Oda ist das One-Piece-Remake die Rettung des Originals
	4	Kein Geld für eine finale Schlacht: Der Serien-Chef von The Boys deckelt für Staffel 5 die Erwartungen
	5	Laut Psychologie haben diejenigen, die in den 60er- und 70er-Jahren aufgewachsen sind, mentale Stärken entwickelt, die durch heutige Technik verloren gehen
	mehr anzeigen

Das KI-Zeitreise-Experiment eines Studenten erzeugt versehentlich eine wahre Geschichte aus dem Jahr 1834

Ein viktorianisches ChatGPT

Eine unerwartete Geschichtsstunde vom Chatbot

Es fühle sich an wie eine digitale Zeitreise

Willkommen bei GameStar!

Weiter mit Werbung

Werbefrei mit GameStar Plus