Anonymität bei Gendatenbanken: Verräterische Verwandschaft

Menschen sind selbst über anonymisierte Genomdaten identifizierbar, zeigen Studien. Schon entfernte Verwandte verraten ganze Stammbäume.

Kann man Genomdaten systematisch entanonymisieren? Bild: dpa

BERLIN taz | Was kann schon ein Neffe dritten Grades über einen verraten? Viele Menschen werden den Enkel des Cousins ihres Vaters vermutlich gar nicht erst getroffen haben. Doch genau der könnte durch seine Genetik männliche Verwandte bloßstellen.

Das zumindest geht aus Studien des US-Forschers Yaniv Erlich hervor. In den USA, wo viele Menschen private Ahnenforschung betreiben, können so Menschen identifiziert werden, die beispielsweise für sensible medizinische Studien ihre Gendaten gespendet haben.

Anstoß für Erlichs Experimente war ein Bericht über den Sohn eines anonymen Samenspenders, sagt Erlich. Der Junge hatte 2005 in einer kommerziellen Genom-Datenbank nach Hinweisen auf seine Vorfahren gesucht. Bei der Abfrage bekam er einen Nachnamen zurück, der mit großer Wahrscheinlichkeit seinem leiblichen Vater gehörte. Zugleich hatte er von seiner Mutter das Geburtsdatum und den Geburtsort des Spenders. Innerhalb von Tagen war der Mann identifiziert.

Die Basis solcher Nachforschungen ist die Tatsache, dass in den USA sowohl Nachnamen als auch Y-Chromosome von Vater zu Sohn weitergegeben werden. „Short Tandem Repeats“, im Volksmund der „genetische Fingerabdruck“, des Y-Chromosoms können deshalb Aufschluss über Verwandtschaften geben. Kommerzielle Ahnendatenbanken arbeiten mit genau diesem Prinzip: Dort können Gendaten eingegeben werden und die Namen möglicher Verwandter ermittelt werden. So auch die Datenbank, in der der junge Mann 2005 nach seinem leiblichen Vater suchte.

Nur vier Datenpunkte sind notwendig

„Wir haben uns gefragt: ist das ein Einzelfall oder kann man das systematisch machen?“, sagt Erlich in einem Online-Video, das seine Forschung ausführlich beschreibt. Als Testperson nahmen sie sich den Biochemiker Craig Venter, der seine vollständige DNA-Sequenz 2007 publiziert hatte. Der Vergleich seiner DNA mit öffentlich zugänglichen, kommerziellen Datenbanken zeigte, dass der wahrscheinlichste Name für die gesuchte Person tatsächlich „Venter“ sei, allerdings mit einer Herkunft aus Großbritannien.

Doch unter der Annahme, Venters Geschlecht, Geburtsjahr und Heimatbundesland seien bekannt, konnte er als einzige Person identifiziert werden. Erlichs Fazit: Nur vier Datenpunkte sind notwendig, um das Genom eines Menschen zu entanonymisieren.

Wir würden Ihnen hier gerne einen externen Inhalt zeigen. Sie entscheiden, ob sie dieses Element auch sehen wollen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Externen Inhalt erlauben

Dass nur wenige Datenpunkte nötig sind, um Menschen zu identifizieren, wies Ende der 90er Jahre die damalige Doktorandin Latanya Sweeney nach. Aus öffentlich zugänglichen Wählerlisten und veröffentlichten medizinischen Daten identifizierte sie die Daten des Gouverneurs von Massachusetts, William Weld.

Weld hatte zuvor die Veröffentlichung der anonymisierten Daten verteidigt. Dafür brauchte Sweeney drei Daten: das Geburtsdatum von Weld, seine Postleitzahl und sein Geschlecht. Im Jahr 2000 wies sie dann nach, dass 87 Prozent aller US-Amerikaner mit diesen Daten identifiziert werden können.

Geht das auch mit Unbekannten?

Doch die Entanonymisierung Venters reichte nicht. Schließlich war die Zielperson ja bekannt. Würde das Konzept auch mit Unbekannten funktionieren? Um die Frage zu beantworten, suchten sich Erlich und seine Kollegen drei Datenbanken heraus: das 1000-Genome-Projekt, das anonymisierte Gendaten publiziert und zwei kommerzielle Genomdatenbanken. Ein Vergleich der Gendaten ergab die wahrscheinlichsten Nachnahmen in jedem Fall – aber auch die wahrscheinliche Verwandtschaft mit der gesuchten Person.

„Um identifiziert zu werden, reicht es, wenn ein Verwandter seine Gendaten in eine Datenbank eingepflegt hat“, sagt Erlich. Bei einem der gesuchten Personen war das ein Neffe dritten Grades, der Enkel vom Cousin des Vaters. Sein Team konnte etwa 50 Menschen namentlich identifizieren, darunter neben den Gendaten-Spendern des 1000-Genome-Projekts auch deren Verwandte.

„Es reicht, wenn man die Zahl der möglichen Kandidaten auf ein Dutzend reduzieren kann“, sagt Erlich. Dann sei der Aufwand sie anzurufen und direkt zu fragen, ob sie mal an einer Genomstudie teilgenommen hätten, gar nicht groß.

Einmal zahlen

.

Fehler auf taz.de entdeckt?

Wir freuen uns über eine Mail an fehlerhinweis@taz.de!

Inhaltliches Feedback?

Gerne als Leser*innenkommentar unter dem Text auf taz.de oder über das Kontaktformular.