10 Jahre Wikipedia: Wie das Wissen System bekommt

Wikipedia ist nicht nur ein Nachschlagewerk, sondern auch eine Datenbank der Informationen. Mit semantischen Techniken versuchen Forscher den Wissensschatz zu heben.

Wissen im Auge des Betrachters: Wikipedia. Bild: dpa

Wie viele Flüsse gibt es in Europa? Wie viele deutsche Städte werden von Bürgermeisterinnen regiert? Es gibt Fragen, die selbst die Online-Enzyklopädie Wikipedia nicht beantworten kann. In den letzten zehn Jahren hat ein Heer von Freiwilligen Informationen zu fast allem gesammelt – von Politiker-Biografien über technische Standards bis hin zu detaillierten Beschreibungen der Figuren in der Fernsehserie "Die Simpsons".

Seit 2007 versuchen Mitarbeiter der Universität Leipzig, der Freien Universität Berlin und des US-Unternehmens OpenLink Software Ordnung in das Wirrwarr zu bringen. Mit dem Projekt DBpedia extrahieren sie das Faktenwissen aus dem Freiwilligen-Projekt und speisen es in eine gewaltige Datenbank.

Mehr als eine Milliarde Informationen haben sie in den letzten drei Jahren zusammengetragen und aufbereitet: Wer wurde wann geboren? In welcher Stadt? Wie viele Einwohner wohnen in dieser Stadt? Und welcher Fluss fließt durch diese Stadt? Fakten, die in unzähligen verschiedenen Wikipedia-Artikeln zerstreut sind, werden bei DBPedia neu verbunden.

"Es ist sehr nützlich, wenn man auf die Fakten direkt zugreifen kann und sie nicht erst aus dem Text heraussuchen muss", erklärt Dr. Sören Auer von der Universität Leipzig. Mit der DBPedia wollten die Forscher zeigen, wie viele Informationen in der Wikipedia stecken und wie man sie besser verknüpfen kann.

Computer lesen genau

Während sich die unzähligen freiwilligen Autoren der Wikipedia in den umstrittenen Artikeln um jede Formulierung feilschen und regelrechte Editierkriege führen, interessieren sich die Forscher für das reine Faktenwissen. Eine Quelle sind die Info-Boxen, die in den vergangenen Jahren in immer mehr Artikeln auftauchen.

Hier verzeichnen die Autoren Einwohnerzahlen, Geburtsdaten, Erscheinungsdaten - jeder Fachbereich hat seine eigenen Infoboxen. Die Qualität der Daten sei in der Regel sehr gut. "Manchmal gibt es Probleme, wenn zum Beispiel in einer Infobox eine Einheit fehlt", erklärt Auer. Das Problem: anders als menschliche Leser kann die Datenbank solche formalen Inkonsistenzen nicht selbständig korrigieren.

DBpedia soll aber nicht nur eine bessere Suchfunktion für Wikipedia liefern. Richtig spannend werden die Datensätze, wenn sie mit anderen Datenquellen kombiniert werden. So nutzt die BBC die DBPedia, um ihr Fernsehprogramm mit Informationen anzureichern. Auch der Nachrichtenkonzern Thomson Reuters nutzt die freie Datenbank schon, um seine Meldungen aufzupeppen. "DBpedia soll zu einem Kristallisationepunkt werden", sagt Auer. Mit der Datenmacht der Wikipedia soll das "Semantic Web", das Netz der Datenbanken vorangetrieben werden.

Vom Nachschlagewerk zur Antwortmaschine

Das semantische Netz ist seit über einem Jahrzehnt eines der Lieblingsprojekte von Web-Pionieren wie Tim Berners-Lee, dem Begründer des World Wide Web: möglichst viele Informationen im Netz sollen maschinenlesbar aufbereitet werden, um den Menschen wieder mehr Kontrolle über die gewaltigen Datenmengen im Netz zu geben.

Auch Wikipedianer sind von der Idee fasziniert. "Wikipedia ist heute noch an viel zu vielen Stellen an Kompromisse der Print-Zeit gebunden", sagt Mathias Schindler, Projektmanager beim Verein Wikimedia Deutschland. Zum Beispiel wird das Wissen bei Wikipedia immer noch in einzelne Artikel aufgeteilt. Mit Hilfe semantischer Techniken könnte die Online-Enzyklopädie in eine Art Frage- Antwort-Maschine verwandelt werden, die dem Leser zielgenau die Informationen liefert, die er braucht.

Mit dem Projekt Semantic MediaWiki soll die Wikipedia selbst mehr in eine Datenbank verwandelt werden - zudem könnte die Wikipedia automatisch andere Datenquellen wie die offiziellen Einwohnerzahlen einer Stadt automatisch integrieren. Ob und wann das Projekt jedoch in die Wikipedia integriert wird, steht noch nicht fest. Dass die Datenbankabfragen Wikipedia-Artikel komplett ersetzen, ist nicht zu befürchten: das Vokabular der Datenbanken ist noch zu grob, die Wirklichkeit zu vielfältig und uneindeutig, um sie in ein rigides Datenmuster zu pressen.

Einmal zahlen
.

Fehler auf taz.de entdeckt?

Wir freuen uns über eine Mail an fehlerhinweis@taz.de!

Inhaltliches Feedback?

Gerne als Leser*innenkommentar unter dem Text auf taz.de oder über das Kontaktformular.

Bitte registrieren Sie sich und halten Sie sich an unsere Netiquette.

Haben Sie Probleme beim Kommentieren oder Registrieren?

Dann mailen Sie uns bitte an kommune@taz.de.