Semantische Suche im Netz: "Dumm wie Google" war gestern

"Casablanca" bringt bei der Google-Suche Millionen Ergebnisse. Ist die Stadt gemeint oder der Film? Suchmaschinen sind dumm und schnell. Schema.org will das ändern.

Was Google über Casablanca weiß, ist viel und nichts zugleich. Bild: screenshot google

6.500 Einzelsprachen so zu verstehen, dass noch die dümmsten Maschinen sie in all ihren Sätzen, Wörtern, Bedeutungen nicht nur erfassen, sondern auch verarbeiten können - das ist ein komplexer Vorgang, an dem große Teile des Internets inklusive fast aller Suchmaschinen bisher gescheitert sind.

Wem schon der gerade gelesene Satz zu komplex erscheint, dem sei es einfacher ausgedrückt: Erstmal geht es um "Teekesselchen". Wörter haben oft mehrere Bedeutungen. Einige kennen den "Kanal" als künstliche Wasserstraße, andere kennen ihn vom Zappen am Fernsehgerät. Die Waage kann zum Erfassen des Gewichts nützlich sein oder zur Orientierung auf der Horoskopseite einer Zeitung. Casablanca ist eine Stadt und ein Film zugleich.

Wo Menschen mit der Zeit zu unterscheiden lernen, lernen dies Suchmaschinen von selbst nicht. Nach einer entsprechenden Eingabe listen sie dumpf hintereinander weg alles auf, was sie zum Thema finden können. "Dumm wie Google", könnte man sagen, "doof wie Yahoo" oder "blöd wie Bing".

Damit das nicht so bleibt, haben sich nun Google, Yahoo und die zu Microsoft gehörende Suchmaschine Bing zusammengetan, um der Suche im Netz mehr Verständnis zu verpassen. Man spricht dabei auch von einer "semantischen Suche". Das Ergebnis heißt Schema.org. Wer die Webseite einmal besucht, sich ein wenig in die Unterstrukturen hereinklickt und weder Vorkenntnisse im Programmieren noch im Bereich des semantischen Webs hat, wird sich überfordert und gelangweilt wieder abwenden.

Neue Standards

Doch was hier entstehen könnte, hat das Zeug dazu, Teile des Netzes und speziell die Funktionen von Suchmaschinen mittel- oder langfristig zu verändern. "Große Player sind dabei, sich auf Standards zu einigen", sagt Daniel Bahls, Spezialist für Semantische Technologien beim ZBW Leibniz-Informationszentrum Wirtschaft in Hamburg. "Die semantischen Technologien stehen schon seit Jahren im Raum und wurden bisher nur im kleineren Kontext verwendet."

Denn Schema.org lädt Entwickler, Forscher, die Semantic-Web-Community und am Ende auch alle Betreiber von Websites dazu ein, an der Umgestaltung der Suche im Netz mitzuwirken. "Damit wollen Google, Bing und Yahoo! dem Info-Chaos im WWW den Garaus machen", schreibt André Vatter im Blog ZBW Mediatalk. Inhalte von Websites sollen mit einem speziellen, aber einheitlichen Vokabular für die Crawler der Suchmaschinen gekennzeichnet und aufbereitet werden.

Indem Schlagworte, so genannte Tags, in den Code von Websites eingebettet werden, sind Suchmachinen nicht mehr so sehr auf die Analyse der natürlichen Sprache angewiesen, um Texte inhaltlich zu erfassen. Im Blog wird dies als "Semantic Web light" bezeichnet - ein semantisches Web auf niedrigster Ebene. Aber selbst das werde "schon viel bewirken", meint Bahls. "Das semantische Web wird sich über die nächsten Jahrzehnte evolutionär weiterentwickeln." Einen "Abschluss" werde es nie geben, "da eine einheitliche Formalisierung von Begrifflichkeiten auf feiner Stufe kaum möglich ist."

"Gemeinsames Format für strukturierte Daten"

Aber warum sollten Google, Yahoo und Bing plötzlich zusammenarbeiten, wo doch bisher die Konkurrenz das Verhältnis prägte? Stefan Keuchel, Pressesprecher von Google Deutschland, betont, alle beteiligten Unternehmen wollten "ein deutliches Zeichen setzen, um die Qualität der Suche zu verbessern". Man entwickele "ein gemeinsames Format für strukturierte Daten, mit dem Dinge ermöglicht werden, die heute noch nicht möglich sind - Stichwort: semantische Suche".

Die Ergebnisse aus Schema.org würden "zeitnah" in die Suchmaschine integriert, "denn einen Zeitplan" gebe es nicht. "Erst mit der Einigung auf eine gemeinsame Sprache können Suchmaschinen einen Mehrwert durch semantische Technologien generieren", antwortet Daniel Bahls auf die Frage nach Gemeinsamkeit und Konkurrenz der Suchmaschinen.

Er weist außerdem darauf hin, dass es bereits die semantische Suchmaschine Sig.ma gibt. Geschwindigkeit und Menge der Ergebnisse nach einer Suchanfrage spielen hier keine Rolle. Sig.ma sammelt seine Informationen allein im Bereich des semantischen Webs und listet nach einer Anfrage alles Bekannte strukturiert auf.

Einmal zahlen
.

Fehler auf taz.de entdeckt?

Wir freuen uns über eine Mail an fehlerhinweis@taz.de!

Inhaltliches Feedback?

Gerne als Leser*innenkommentar unter dem Text auf taz.de oder über das Kontaktformular.

Bitte registrieren Sie sich und halten Sie sich an unsere Netiquette.

Haben Sie Probleme beim Kommentieren oder Registrieren?

Dann mailen Sie uns bitte an kommune@taz.de.