Das KI-Zeitreise-Experiment eines Studenten erzeugt versehentlich eine wahre Geschichte aus dem Jahr 1834

Chats aus der Vergangenheit: Im Rahmen eines KI-Hobbyprojekts ist ein Student unerwartet auf historische Fakten gestoßen.

Eine Zeitmaschine ins viktorianische London stellen wir uns aus Steam-Punk-Geschichten vielleicht eher so vor. Ein Student hat seine kleine Zeitreise mit seiner eigenen KI gemacht. (Bildquelle: KI-generiert mit Adobe Firefly) Eine Zeitmaschine ins viktorianische London stellen wir uns aus Steam-Punk-Geschichten vielleicht eher so vor. Ein Student hat seine kleine Zeitreise mit seiner eigenen KI gemacht. (Bildquelle: KI-generiert mit Adobe Firefly)

ChatGPT aus dem 19. Jahrhundert: Auf Reddit schreibt ein Student von einem überraschenden Fund im Rahmen eines persönlichen Hobbyprojekts. Er hat eine KI nur mit rund 200 Jahre alten Texten gefüttert.

Nach vielen unzusammenhängenden Ausgaben erzählt ihm die plötzlich eine wahre Geschichte aus dem Jahr 1834.

Video starten 56:01 GameStar Tech Talk: Geht KI zu weit?

Ein viktorianisches ChatGPT

Im Subreddit r/LocalLLaMA diskutieren Entwickler über ihre eigenentwickelten Chatbots. Der Nutzer Remarkable-Trick-177 schreibt dort von einer spannenden Entdeckung, die er in der Arbeit an seinem Hobbyprojekt, gemacht hat.

Auf GitHub präsentiert der Informatik-Student aus Pennsylvania, der eigentlich Hayk Grigorian heißt, sein TimeCapsuleLLM, deutsch: Zeitkapsel-LLM.

Das Ziel seines Projekts: Einen Chatbot zu schaffen, der authentische Texte im Stil der viktorianischen Ära wiedergibt. So nennt man die Zeit in Großbritannien von 1837 bis 1901.

Für die Entwicklung ging er folgendermaßen vor:

  • Training von Grund auf: Viele Entwickler erstellen ihre eigenen Chatbots, indem sie ein bereits existierendes Modell lediglich fine-tunen. Hier wird ein bereits ausgereiftes Modell, etwa ein GPT-Modell von OpenAI, nur noch einmal mit einem spezielleren Datenset gefüttert, um spezifischere Ausgaben zu bekommen. Grigorian trainiert TimeCapsuleLLM aber von Grund auf nur mit seinen Datensätzen.
  • Historischer Datensatz: Er nutzte ausschließlich Texte aus dem Zeitraum 1800 bis 1875, darunter Bücher, Zeitungen und Dokumente aus London, damit der Chatbot eine authentische viktorianische Sprache wiedergibt.
  • Datengröße: Der gesamte Trainingsdatensatz hat in der aktuellen Version eine Größe von 6,25 Gigabyte (GB), was seiner Angabe nach etwa 7.000 Dokumenten entspricht. Zum Vergleich: Die Forscher von OpenAI geben in ihrem Paper zu GPT-3 von 2020 einen Datensatz von 570 GB an.

Grigorian nennt auf GitHub seine Methode, ein Sprachmodell rein auf historischen Texten aus einer spezifischen Zeit von einem spezifischen Ort zu trainieren, Selective Temporal Training (STT).

Dort schreibt er:

Wenn ich von Grund auf trainiere, wird das Sprachmodell nicht so tun, als sei es alt, es wird es einfach sein.

Eine unerwartete Geschichtsstunde vom Chatbot

LLMs generieren Text, indem sie das wahrscheinlichste nächste Wort vorhersagen – basierend auf dem, was sie in den Trainingsdaten gelernt haben. Sind nur wenige Daten vorhanden, neigen die KI-Chatbots dazu, Fakten zu erfinden.

Auch Grigorian hatte, wie er in der Dokumentation zu seinem Projekt auf Github schreibt, anfänglich dieses Problem. In seiner ersten Version v0 mit einem noch kleineren Datensatz konnte sein Zeitkapsel-LLM kaum einen kohärenten Satz erzeugen.

Mit einer Vergrößerung des Datensets wurden die Sätze kohärenter. Bei 6.25 GB hatte er dann schließlich einen persönlichen Durchbruch.

Auf Reddit teilt er den Prompt, der zu einer überraschenden Geschichtsstunde führte:

Es war das Jahr unseres Herren 1834

Der Chatbot generiert zu dieser Anfrage einen Text, der so beginnt:

Es war im Jahr unseres Herrn 1834, und die Straßen von London waren erfüllt von Protest und Petition.

Die folgende Passage ist zwar grammatikalisch nicht ganz korrekt, aber sie erzählt die Geschichte von Ausschreitungen in der britischen Hauptstadt im Jahr 1834 und erwähnt in diesem Kontext einen Lord Palmerston.

Grigorian weiß nichts von einem Protest und einem solchen Lord und beginnt zu googlen: Tatsächlich kam es 1834 in London zu Ausschreitungen und Lord Palmerston, damals Außenminister, spielte eine zentrale Rolle in der damaligen britischen Politik.

Auf Github erklärt Grigorian die Bedeutung seiner Entdeckung so:

Das zeigt, dass das Modell beginnt, sich an Sachverhalte aus dem Datensatz zu erinnern.

Samsung Galaxy Tab A9+
Samsung Galaxy Tab A9+
Das Galaxy Tab A9+ überzeugt vor allem mit seinem großen Display und Akku. Das Modell eignet sich ideal für alltägliche Aufgaben wie Mails, Surfen oder Streamen.
Xiaomi Redmi Pad Pro
Xiaomi Redmi Pad Pro
Das Xiaomi Redmi Pad Pro bietet eine ordentliche Leistung, ein großes, hochaufgelöstes Display und sollte euch auch für kommenden Jahre eine solide Ausstattung bieten.
Lenovo Tab M11
Lenovo Tab M11
Das Lenovo Tab M11 mag nicht das stärkste Tablet sein. Dafür kommt es jedoch inklusive Eingabestift, sodass ihr das Gerät für Notizen oder zum Malen und Zeichnen nutzen könnt.

Es fühle sich an wie eine digitale Zeitreise

Für Grigorian ist es ein Durchbruch, dass sein TimeCapsuleLLM mit seinem immer noch ziemlich kleinen Datensatz bereits historische Fakten – die ihm unbekannt waren – wiedergeben kann:

Das alles von einem nur fünf bis sechs GB großen Datensatz, stellt euch die Ergebnisse mit 30 GB oder mehr vor.

Er schränkt zwar ein, dass er sich nicht sicher sei, ob die bloße Skalierung des Datensatzes zu einer Form von logischem Schlussfolgern führen würde, aber für ihn fühle sich sein Projekt schon jetzt wie eine digitale Zeitreise an.

Nun bedeutet Grigorians Erfolg nicht, dass wir einfach so etwa unser persönliches Mittelalter-ChatGPT erzeugen können und in einer lockeren Unterhaltung mit dem Chatbot über erstaunliche Fakten von vor 900 Jahren stolpern.

Denn das ist ja genau das Problem an vielen historischen Epochen: Es sind eben nicht so viele schriftliche Dokumente vorhanden.

Dennoch zeigt das Projekt von Grigorian zweierlei:

  • Gerade bei kleinen Datensets kann eine Skalierung (die immer noch nichts mit den Datenmassen von ChatGPT zu tun hat) zu erstaunlichen Ergebnissen führen kann.
  • Auch Sensationsfunde in Archiven, wie etwa der Fund einer Grimm-Bibliothek 2024, demonstrieren immer wieder: Wissensschätze sind vorhanden, aber es braucht oft Zufälle oder jahrelange gezielte Suche, um sie zu entdecken.
    LLMs können hier einen interessanten Ansatz zur Verfügbarmachung von Informationen darstellen.

Grigorian ist durch seine kleine historische Entdeckung jedenfalls motiviert, sein Projekt auf andere Städte und Perioden auszuweiten und zeigt sich auch interessiert an Kooperationen mit anderen Reddit-Nutzern.

Wir dürfen gespannt bleiben, was er und andere Hobbyforscher in Zukunft mithilfe von KI sonst noch so ans Tageslicht fördern.

zu den Kommentaren (3)

Kommentare(3)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.