Anti-Spam-Werkzeug digitalisiert 17.000 Bücher: Zuarbeit für Archivare

Immer dann, wenn man sich im Web irgendwo registriert, muss man einen Code eingeben, um zu zeigen, dass man kein Werbemüll-Roboter ist. Nebenbei werden Bücher transkribiert.

Wenn der Computer nur noch Unsinn sieht, muss ein Mensch die Zeichen deuten. Bild: dpa

Jeder Nutzer kennt die kleinen Prüfkästchen, die erscheinen, wenn man sich für einen neuen Dienst im Web registrieren will: Verzerrte Buchstaben oder Zahlen, die in Form eines Bildes dargestellt sind, müssen eingegeben werden, um die Anmeldung abzuschließen. "Captcha" genannt ("Completely Automated Public Turing Test to tell Computers and Humans Apart", etwa: "automatischer Test, um Computer und Menschen auseinander zu halten"), dienen sie dazu, Online-Gaunern die Nutzung kostenloser Internet-Services zu erschweren. So soll verhindert werden, dass beispielsweise eine Roboter-Software Abertausende Zugänge beim Gratis-Postdienst Google Mail anlegt, um darüber dann Spam zu verschicken. Auch der automatisierte Missbrauch sozialer Netzwerke soll so verhindert werden.

Wissenschaftler an der Carnegie Mellon University, in Pittsburgh, im US-Bundesstaat Pennsylvania, nutzen die Technologie seit anderthalb Jahren noch zu einem anderen Zweck: Sie digitalisieren damit alte Bücher, die in Hochschularchiven und Bibliotheken lagern und von so schlechter Qualität sind, dass ein Computer allein sie nicht entschlüsseln kann. Das Prinzip ist clever: Die Werke werden Wort für Wort zerlegt und mehreren Nutzern in Form des typischen Spam-Schutz-Puzzles vorgelegt. Stimmen drei Lösungen überein, schließt das System, dass es sich um die korrekte Transkription handelt. Das "Recaptcha" genannte Projekt hat bereits erstaunliche Erfolge zu vermelden: Über 17.000 Bände wurden inzwischen transkribiert, teilten die Forscher am Montag mit. Das entspricht insgesamt 440 Millionen für den Rechner nicht lesbaren Worten. Die Fehlerquote ist dabei erstaunlich gering, liegt im Schnitt unter einem Prozent. Eingebunden wurde Recaptcha auf diversen populären Websites - so machen etwa das soziale Netzwerk Facebook, der Kommunikationsdienst Twitter und der Kartenverkäufer Ticketmaster mit. Insgesamt 40.000 Angebote sollen diesen Dienst einsetzen, vier Millionen Recaptchas werden so jeden Tag gelöst.

Captchas an sich sind als Anti-Betrugs-Werkzeug nicht perfekt. So gibt es ein regelrechtes Wettrennen zwischen Website-Betreibern und Spammern, die ihre Erkennungsprogramme regelmäßig anpassen, unter anderem mit Algorithmen aus der künstlichen Intelligenz. Sind die Spam-Schutz-Symbole beispielsweise nicht verzerrt genug dargestellt oder mit einer gewissen Regelmäßigkeit abgeändert, können die Programme der Werbemüllversender sie lesen und dann wieder so tun, als seien sie echte Menschen.

Und wenn das alles nicht mehr funktioniert, bedienen sich die Online-Gauner dem Engagement kostengünstiger Arbeitskräfte: So soll eine russische Internet-Bande Nutzer in Indien und anderen ärmeren Ländern Cent-Beträge für das Ausfüllen zahlreicher Prüfkästchen bezahlen, über die dann wiederum Spam-Zugänge eröffnet werden können. Die Krönung aller Hacks zum Thema setzt jedoch auf die Beliebtheit sexueller Inhalte im Netz: Eine von Sicherheitsexperten kürzlich entdeckte Software zeigt dem Nutzer Pornobildchen, die sich nur aufdecken lassen, wenn er Captchas löst. Die Technologie ist derart trickreich, dass sie deren Korrektheit sogar in Echtzeit überprüfen kann.

Projekte wie Recaptcha stellen zumindest sicher, dass das Spam-Schutz-Puzzle nicht vollständig umsonst ist. Laut der Carnegie Mellon-Forscher gelang es unter anderem, das Archiv der New York Times von 1908 vollständig zu digitalisieren. Für Rechner ist das schwer: Schmutzpartikel befinden sich auf den Originaldokumenten, das Papier ist verblichen oder der Druck verrutscht. Das menschliche Gehirn kann das ausgleichen, der Rechner nicht. Luis von Ahn, der als Juniorprofessor am Informatik-Institut der Pittsburgher Hochschule lehrt, hat Captcha ursprünglich erfunden und die Technik dann um Recaptcha ergänzt. Er hofft, dass bald über 160 Bücher pro Tag digitalisiert werden können. Der Bedarf ist groß: Bücher aus der Zeit vor 1900 sind besonders schwer im Rechner zu erfassen, die Genauigkeit aktueller Schrifterkennungssysteme liegt laut von Ahn nur bei 80 Prozent.

Einmal zahlen
.

Fehler auf taz.de entdeckt?

Wir freuen uns über eine Mail an fehlerhinweis@taz.de!

Inhaltliches Feedback?

Gerne als Leser*innenkommentar unter dem Text auf taz.de oder über das Kontaktformular.

Bitte registrieren Sie sich und halten Sie sich an unsere Netiquette.

Haben Sie Probleme beim Kommentieren oder Registrieren?

Dann mailen Sie uns bitte an kommune@taz.de.