Reproduzierbarkeit von Studien: Spektakuläre Ergebnisse sind gefragt

Wissenschaftliche Experimente schlagen oft fehl, wenn sie von anderen Forschern wiederholt werden. Solche Resultate sollten veröffentlicht werden.

Nur wenn die Studien auch publiziert sind, werden sie wahrgenommen. Bild: imago/Stefan Noebel-Heise

Gibt es einen Zusammenhang mit der Größe bestimmter Hirnareale und der Zahl der Facebook-Freunde, die die betreffende Person hat? Eine Studie aus dem Jahr 2012, die an der Universität Sussex in Großbritannien durchgeführt wurde, behauptet das. Doch ein Wissenschaftlerteam um den Mathematiker Eric-Jan Wagenmakers von der Universität Amsterdam zweifelt dieses Ergebnis jetzt an (pdf). Und nicht nur dieses.

Die Forscher haben 17 Hypothesen aus früheren Studien, die alle den Zusammenhang zwischen der Gehirnstruktur und bestimmten psychischen Eigenschaften untersucht haben, wiederholt. Bei keiner einzigen konnten sie die früheren Ergebnisse bestätigen.

Wagenmakers und Kollegen sind vorsichtig in ihrer Schlussfolgerung und behaupten nicht, dass die ursprünglichen Studien alle falsch sind. Doch die Ergebnisse reihen sich ein in eine ganze Reihe von fehlgeschlagenen Versuchen, frühere wissenschaftliche Ergebnisse zu wiederholen.

Die Debatte um die Reproduzierbarkeit wissenschaftlicher Ergebnisse zieht sich durch die unterschiedlichsten Wissenschaftsbereiche. 2011 meldeten Forscher der Pharmafirma Amgen, dass sie von 53 wichtigen Studien aus der Krebsforschung in internen Tests nur sechs mit demselben Ergebnis wiederholen konnten. Ein ähnlicher Bericht aus dem Hause Bayer berichtete davon, dass von 67 Studien nur 14 wiederholt werden konnten.

Das Projekt PsychFileDrawer, das sich um die Wiederholung von Studien aus der Psychologie bemüht, vermeldet auf seiner Webseite 38 fehlgeschlagene versus 20 erfolgreiche Versuche, frühere Studienergebnisse zu bestätigen.

In der Wissenschaft wird über eine Reproduzierbarkeitskrise gesprochen. Dabei steckt die Wissenschaft in einem Dilemma: Die Wiederholung von früheren Ergebnissen ist ein wichtiger Teil wissenschaftlicher Sorgfalt, um festzustellen, ob die Ergebnisse überhaupt stimmen. Doch simple Replikationen sind wenig prestigeträchtig und werden von wissenschaftlichen Fachzeitschriften auch ungern veröffentlicht.

Besonders heftig wurde die Debatte zuletzt unter Psychologen geführt. Die Bemühungen um mehr Replikationsstudien werden längst nicht von allen begrüßt. Der Harward-Professor Daniel Gilbert beklagt auf Twitter sogar, dass sich Forscher von einer Replikationspolizei verfolgt fühlen. Hintergrund von Gilberts Äußerungen war eine fehlgeschlagene Wiederholung einer Studie der Psychologin Simone Schnall.

Moralische Verfehlungen

Sie hatte 2008 in einem vielzitierten Experiment berichtet, dass Studenten, die sich die Hände gewaschen hatten, moralische Verfehlungen deutlich milder beurteilten als die Studenten ohne frisch gewaschene Hände. Schnalls Experiment wurde für eine Sonderausgabe der Fachzeitschrift Social Psychology, die sich nur mit Replikationen befasste, wiederholt – und die Ergebnisse unterschieden sich deutlich von Schnalls ursprünglicher Studie.

Schnall fühlte sich unfair behandelt und meinte, man hätte ihr die Chance geben müssen, auf die fehlgeschlagene Replikation eine Erwiderung in der selben Ausgabe von Social Psychology zu schreiben.

Die Debatte um die Reproduzierbarkeitskrise hat inzwischen die großen Wissenschaftsjournale Nature und Science dazu gebracht, Richtlinien für die bessere Reproduzierbarkeit von Ergebnissen zu formulieren. Eine Checkliste, die gemeinsam mit dem US-amerikanischen National Institutes of Health (NIH) entwickelt wurde, soll dafür sorgen, dass Studien möglichst detaillierte Informationen iefern, die bei einer Wiederholung der Experimente helfen. Neben Nature und Science haben sich mehr als 30 Fachzeitschriften verpflichtet, dieser Checkliste zu folgen.

Doch viele Wissenschaftler sind der Ansicht, dass die großen Fachzeitschriften selbst ein Teil des Problems sind. Sie seien in erster Linie an spektakulären und neuen Resultaten interessiert und weniger an wissenschaftlicher Sorgfalt. Replikationen werden in den großen Fachzeitschriften fast nie veröffentlicht. Und in aller Regel veröffentlichen die großen Wissenschaftsjournale nur positive Ergebnisse. Genau darin liegt aber eins der großen Probleme: Der Druck auf Wissenschaftler, positive Resultate zu veröffentlichen, führt zu einer Verzerrung.

Studien für die Schublade

Die Fachwelt spricht von einem „Publication Bias“. Studien, die Hypothesen untersuchen und anhand der Ergebnisse verwerfen, verschwinden häufig in der Schublade. Sie sind jedoch für die Suche nach korrekten Ergebnissen genauso wichtig wie die positiven Resultate. Der Publication Bias gilt als wichtigster Grund, weshalb so viele Replikationen fehlschlagen.

Ein wichtiges Mittel, um die Zuverlässigkeit wissenschaftlicher Resultate zu verbessern, sehen viele in der generellen öffentlichen Registrierung von Studien vor ihrer Durchführung. Die Idee dabei: Bevor irgendwelche Experimente durchgeführt oder Daten gesammelt werden, wird die Methodik einer Studie detailliert aufgeschrieben und in einem öffentlich einsehbaren Register vorgestellt.

Dadurch soll erreicht werden, dass Negativresultate nicht unveröffentlicht bleiben. Zudem verhindert die vorherige Erläuterung der Methodik, dass das Studienergebnis später an die Resultate angepasst wird.

In der Medikamentenforschung sind solche Studienregister bereits weit verbreitet. Doch eigentlich wären sie in allen Wissenschaften sinnvoll, insbesondere überall dort, wo statistische Daten erfasst werden.