Wenn ihr solche reCAPTCHA seht, steht Google dahinter – und der Konzern interessiert sich nicht nur dafür, ob ihr ein Bot seid oder nicht. (Bildquelle: links: NopeCHA.com, rechts: Anastasia, Adobe Stock)

Ich bin kein Roboter: Wie viele Buchstaben, Ampeln, Hydranten habt ihr in eurem Leben schon erkannt und Kästchen abgehakt, um zu beweisen, dass ihr ein Mensch seid?

Eine Studie aus dem Jahr 2023 hat berechnet, dass wir gemeinsam 819 Millionen Stunden damit verbracht haben, sogenannte CAPTCHA auszufüllen. Doch wenn ihr das macht, dann beweist ihr nicht nur, dass ihr kein Bot seid, sondern liefert wertvolle Daten – besonders an Google.

Das ist die Geschichte, wie ihr ganz nebenbei dabei geholfen habt, Zeitungsarchive zu digitalisieren und Autos das Fahren beizubringen – jedes Mal, wenn ihr bewiesen habt: Ich bin kein Roboter.

54:22 Ist die Smartphone-Ära am Ende? Mit iKnowReview - FYNT Talk auf der IFA 2025

Autoplay

CAPTCHA: Ein Tool zur Bot-Erkennung bekommt einen lukrativen Nebenzweck

Ende der Neunziger setzten Hacker vermehrt Bots ein, um möglichst viele Menschen automatisiert im Internet zu betrügen. In dieser Zeit kamen die ersten Tests, die sicherstellen sollten: Hier besucht gerade ein echter Mensch die Webseite – und kein schädliches Programm.

Der Begriff CAPTCHA wurde laut IBM ab 2003 verwendet. Er ist ein Akronym für Completely Automated Public Turing test to tell Computers and Humans Apart, also in etwa: »Vollständig automatisierter öffentlicher Turing-Test, um Computer und Menschen auseinander zu halten«.

Ein Erfinder dieser CAPTCHAs: Luis von Ahn, den man heute eher als KI-begeisterten CEO der Sprachlern-App Duolingo kennt. Die ersten CAPTCHAs, die von Ahn und sein Team entwickelten, waren Text-CAPTCHAS, die die meisten von euch vermutlich noch kennen.

Text-CAPTCHA zeigen eine Bild-Datei mit einem verzerrten Buchstaben. Eure Aufgaben: Die Buchstaben richtig erkennen. (Bildquelle: NopeCHA.com)

Solche verzerrten Texte eigneten sich damals ausgezeichnet, um Mensch und Bot voneinander zu unterscheiden, denn die OCR-Technik war damals noch nicht besonders ausgereift. OCR steht für Optical Character Recognition und auf Deutsch: Optische Zeichenerkennung.

Dahinter steht eine sehr nützliche Technik: Wenn ihr zum Beispiel ein Foto von einem Dokument macht und Adobe Acrobat daraus ein durchsuchbares PDF erstellt, dann steckt OCR dahinter – das Programm erkennt die Pixel der Buchstaben als Text.

Mitte der 2000er Jahre war der Bedarf nach guter OCR-Technik groß: Medium berichtet, dass etwa die New York Times ihr Zeitungsarchiv von 1851 bis 1980 digitalisieren wollte. Das Problem: Viele Texte waren verzerrt, beschädigt und handschriftlich vorhanden.

Luis von Ahn brachte das auf eine Idee, für ihn war die Zeit, die Menschen mit dem Ausfüllen von CAPTCHAs verbrachten Millionen von Stunden einer teuren Ressource: menschliche Gehirnzyklen, alias Rechenleistung. Das Ergebnis: reCAPTCHA.

reCAPTCHA: Der doppelte Nutzen von CAPTCHAs

Von Ahn entwickelte 2007 an der Carnegie-Mellon-Universität reCAPTCHA. Bei reCAPTCHAmussten die Nutzer nicht mehr nur ein Wort erkennen, sondern zwei:

Wort 1: Dient als Sicherheitstest und erfüllt den ursprünglichen Zweck von CAPTCHAs: Mensch und Bot zu unterscheiden.
Wort 2: Stammte aus dem New-York-Times-Archiv. Hier sah der Nutzer ein unlesbares Wort aus dem New-York-Times-Archiv, an dem die Computer noch scheiterten.
Das Ergebnis: Die New York Times verwendete die menschlichen Ergebnisse und digitalisierte ihr Archiv so rasant. Die menschliche Eingabe wurde als korrigiertes Label zur Verbesserung der OCR-Software verwendet.

Das Projekt reCAPTCHA war so erfolgreich, dass es 2009 von Google gekauft wurde. Auch der Internetkonzern hatte mit Google Books und seinen Zeitungsarchiven massenhaft Bücher zu digitalisieren.

Wie ihr mit reCAPTCHAs beim KI-Training helft

Mit der unbezahlten Arbeit von Internet-Nutzern wurden aber nicht nur Dokumente digitalisiert, sondern auch die OCR-Technik extrem verbessert – und zwar durch KI.

Wenn wir heute von Künstlicher Intelligenz (KI) sprechen, meinen wir damit in der Regel neuronale Netze, die Mustererkennung betreiben. Damit diese Netze lernen können, braucht es Unmengen an Daten – und zwar am besten welchen, die mit einem Label versehen sind.

Das bedeutet zum Beispiel: Ein Bild von einem A mit dem Label: Das ist ein A. Genau diese Arbeit verrichtet ihr, wenn ihr ein Text-CAPTCHA ausfüllt: Ihr habt eine Bild-Datei und gebt eine Erklärung, was darauf zu sehen ist.

So wurden die ursprünglich schlechteren OCR-Systeme - mit eurer Hilfe - immer besser. Sogar so gut, dass verzerrte Texte heute von Programmen erkannt werden und nicht mehr zur Unterscheidung von Bot und Mensch taugen

Google konnte eure Gratis-Arbeit laut Medium aber immer noch sehr gut gebrauchen. Zur Bilder-Erkennung:

Die wachsende Abhängigkeit von Computer Vision – besonders für Produkte wie Google Street View, Google Maps und die Initiative für autonome Fahrzeuge – erforderte eine massive Menge an gelabelten Bilddaten.
Ab 2014, mit reCAPTCHA v2, wurden Bilder aus Google Street View gezeigt. Wir mussten nun Ampeln, Zebrastreifen und Verkehrsschilder identifizieren.
Die Antworten verbesserten laut Medium auch die autonomen Fahrsysteme für Waymo, verfeinerten die Objekt-Markierung in Google Maps und automatisierten die Bildanalyse in Google Street View.

Die Bilder, die reCAPTCHA uns in den letzten Jahren präsentiert hat, hatten ein auffallendes übergeordnetes Thema: Straßenverkehr. (Bildquelle: NopeCHA.com)

Gor Grigoryan zitiert in Medium eine Studie von 2023, die die Zeit mit dem Wert der für die unbezahlte Bilder-Annotation ins Verhältnis setzt:

Über die letzten +15 Jahre hinweg hat die Menschheit kollektiv 819 Millionen Stunden unbezahlter Arbeit geleistet – im Wert von geschätzten 6,1 Milliarden US-Dollar an Löhnen – während sie glaubte, der Hauptzweck sei die Bot-Erkennung.

Fazit: Bot-Abwehr macht die Bots immer stärker

Mittlerweile sind auch die Bilder aus dem Straßenverkehr seltener geworden: Eure unbezahlte Arbeit hat schon wieder gefruchtet. Die automatische Objekterkennung in Bildern hat sich deutlich verbessert, auch die taugen immer weniger zur Mensch-Bot-Unterscheidung.

Seit 2018 setzt Google vermehrt auf reCAPTCHA v3. Das System testet weiterhin, ob ihr ein Bot seid oder nicht, aber diesmal ohne Kontrollkästchen und Bilder-Erkennung:

Die Seite Friendly Capture beschreibt die Funktion von reCAPTCHA v3 so:

Das System wurde als Unsichtbares reCAPTCHA entwickelt, das im Hintergrund ohne direkte Nutzerinteraktion läuft.
Zur Risikobewertung sammelt und analysiert Google fortlaufend eine Vielzahl personenbezogener Daten: Dazu gehören detaillierte Interaktionen wie Mausbewegungen, Klicks, Bildlaufmuster und Tippgeschwindigkeit.
Das Ergebnis ist ein Risikoscore (Wert zwischen 0.0 und 1.0), anhand dessen die Website über den Nutzer entscheidet.

Google schreibt auf seiner Developer-Seite: reCAPTCHA lernt, indem es realen Traffic auf Ihrer Website erkennt. Ihr liefert also immer noch Daten, um KI-Systeme zu verbessern, nur mittlerweile ganz unbemerkt.

Der Kreislauf setzt sich fort: Mehr Bots im Internet führen zu immer ausgefeilteren Erkennungssystemen, und die dabei entstehenden Nutzerdaten fließen wiederum in die Verbesserung dieser Systeme ein.


	1	Die USA hat es gerade unmöglich gemacht, dass sich ihre Einwohner einen neuen Router kaufen
	2	Lego-Alternative BlueBrixx bringt Asterix und Obelix mit Minifiguren und 25 Sets in die Hände von erwachsenen Sammlern
	3	Zu langsam und altmodisch - Für Eiichiro Oda ist das One-Piece-Remake die Rettung des Originals
	4	Kein Geld für eine finale Schlacht: Der Serien-Chef von The Boys deckelt für Staffel 5 die Erwartungen
	5	Ihr müsstet 14.281.868.906.496 Runen in den Horadrimwürfel stopfen, um eins der seltensten Items von Diablo 2 herzustellen
	mehr anzeigen

819 Millionen Stunden unbezahlte Arbeit: Wir alle arbeiten gratis für Google – und zwar immer, wenn wir beweisen, dass wir keine Bots sind

CAPTCHA: Ein Tool zur Bot-Erkennung bekommt einen lukrativen Nebenzweck

reCAPTCHA: Der doppelte Nutzen von CAPTCHAs

Wie ihr mit reCAPTCHAs beim KI-Training helft

Fazit: Bot-Abwehr macht die Bots immer stärker

Willkommen bei GameStar!

Weiter mit Werbung

Werbefrei mit GameStar Plus