Theorien

Wissenschaft arbeitet mit Theorien. Wie diese genau aussehen, unterscheidet sich zwischen Disziplinen deutlich. Während naturwissenschaftliche Bereiche häufig mit mathematischen Modellen, also Formeln, arbeiten, die den Zusammenhang zwischen Variablen explizit und unmissverständlich beschreiben und Vorhersagen erlauben, arbeiten Sozialwissenschaften häufig mit verbalen Theorien im Stile von „X und Y hängen positiv miteinander zusammen” oder „je höher X, desto höher Y” und traditionelle Geisteswissenschaften arbeiten beispielsweise mit verbalen Erklärungen. Verbale Theorien haben den Vorteil, dass sie tendenziell leicht verständlich und allgemein anwendbar sind, allerdings unterliegen die verwendeten Begriffe häufig individuellen, kulturellen, oder zeitlichen Einflüssen und Diskutant*innen droht, im wissenschaftlichen Diskurs aneinander vorbei zu reden.

Für formale Theorien werden alle beteiligten Variablen genau definiert und die Theorien haben häufig einen stark eingeschränkten Geltungsbereich (z.B. gelten viele physikalische Gesetze nur unter streng kontrollierten Bedingungen wie im Vakuum, bei einer bestimmten Temperatur, usw.). Die Sorge im Rahmen der Replikationskrise ist, dass Theorien nicht klar genug sind, um vorherzusagen, wann Replikationen erfolgreich sind und damit eine der Ursachen für geringe Replikationsraten sind (Buzbas und Devezer 2023; P. Smaldino 2019). Eine Theorie über die Konsequenzen von der Identifikation mit Geschlechterrollen muss beispielsweise die Veränderung von Geschlechterrollen und Besonderheiten von Geschlechterrollen in verschiedenen Ländern berücksichtigen. Dass ein und dasselbe Experiment zu diesem Thema in den USA im Jahre 1980 andere Ergebnisse hat als in Deutschland im Jahr 2020 ist wenig überraschend. Problematisch ist allerdings, dass – auch wenn solche Ergänzungen für viele sozialwissenschaftliche Theorien sinnvoll und nötig erscheinen – nur selten Aussagen darüber gemacht werden.

Verbale Theorien sind per se nicht weniger wissenschaftlich: Im Kontext der jeweiligen Bereiche heben sich wissenschaftliche Theorien stets durch ihren besonders hohen Grad an Systematizität (Hoyningen-Huene und Kincaid 2023) von alltagswissenschaftlichen Erklärungen ab. Bereiche, die Wert auf Vorhersagen von Geschehnissen legen, kommen jedoch nicht ohne formale Theorien aus (Muthukrishna und Henrich 2019). Dabei sei hervorgehoben, dass bestimmte Wissenschaften eben keinen Wert auf Vorhersage legen (z.B. Geschichtswissenschaften oder Disziplinen, die vorwiegend hermeneutisch vorgehen). Sozialwissenschaften wie die Psychologie, quantitative Soziologie, oder Teile der Geisteswissenschaften („Digital Humanities”) nähern sich aktuell formalen Modellen an – in der Sozialpsychologie gab es den Aufruf, Theorien zu formalisieren, beispielsweise schon einmal bei einer Krise in den 1970er Jahren (Lakens 2023). Dadurch, dass Theorien durch ihren Mangel an Objektivität selten von verschiedenen Forschenden verwendet werden und sich durch ihre flexible Auslegung nur schwer widerlegen lassen, ist dort eine enorm große Menge an nutzlosen Theorien entstanden (Ferguson und Heene 2012). Darunter sind auch einander widersprechende Theorien: Beispielsweise argumentierten Banker u. a. (2017), dass „ego depletion”, also die Erschöpfung von Selbstkontrollressourcen, dazu führt, dass Personen sich eher an Hinweise anderer Leute orientieren (S. 2) während Francis u. a. (2018) gegenteilig vermuteten, dass die Erschöpfung verhindert, dass Hinweise überhaupt verarbeitet werden können. Beide lieferten Daten, die die jeweiligen Theorien bestätigten, jedoch fand eine Folgeuntersuchung, dass vermutlich beide falsch lagen (Röseler u. a. 2020).

Robinaugh u. a. (2021) diskutieren Beispiele der Umwandlung verbaler Theorien in formale. Dieser Prozess hat zur Folge, dass sich neue und spezifischere Vorhersagen ableiten lassen. Wenn eine Theorie genauere Vorhersagen macht und die Menge an möglichen Ereignissen, die der Theorie widersprechen, steigt, bedeutet das einen gestiegenen empirischen Gehalt (Glöckner und Betsch 2011; Popper 1959/2008).

Empirischer Gehalt und Strong Inference

Theorien können sich in ihrem empirischen Gehalt unterscheiden. Damit ist konkret gemeint, wie spezifisch ihre Vorhersagen sind. Je mehr mögliche Beobachtungen eine Theorie widerlegen würden, desto höher ist ihr empirische Gehalt.

Nehmen wir den Fall, dass unsere Theorie uns erlaubt, Vorhersagen darüber zu machen, was für ein Auto zu einer bestimmten Zeit an einer bestimmten Straße entlang fährt. In der Abbildung sind alle möglichen Autos abgebildet. Zur Vereinfachung gibt es in unserer Beispielwelt nur neun verschiedene Autos, die sich hinsichtlich der Merkmale Farbe (grün, schwarz, blau), Heckflügel (mit, ohne), und Radfarbe (grau, gelb) unterscheiden.

  • Die lila Theorie sagt: Das beobachtete Auto hat graue Räder. Ohne Theorie wären für uns alle Autos gleich wahrscheinlich, die lila Theorie “verbietet”, dass das Auto gelbe Räder hat. Sie verbietet 3/9 Autos.

  • Die rote Theorie sagt: Das beobachtete Auto ist blau. Die Wahrscheinlichkeit, sie zu widerlegen wäre in unserer Musterwelt höher, nämlich 6/9. Weil die rote Theorie a priori, also ohne weiteres Vorwissen, sozusagen eine riskantere Wette ist, hat sie höheren empirischen Gehalt.

  • Den höchstmöglichen empirischen Gehalt hat die orangene Theorie: Das beobachtete Auto ist grün, ohne Heckflügel, und hat graue Räder. Sie verbietet alle außer einen Fall (8/9).

Das Beispiel mit den neun möglichen Auto-Typen ist natürlich stark vereinfacht. In bestimmten Bereichen schaffen es Forschende jedoch gelegentlich, Resultate von Experimenten auf wenige mögliche Ergebnisse herunterzubrechen und damit zwischen Theorien abzuwägen. Platt (1964) nennt das die Methode der starken Inferenz (Strong Inference) und argumentiert, dass Bereiche, in denen so vorgegangen wird, schnellen Fortschritt erleben. In Anlehnung daran fordert P. E. Smaldino (2017), dass wir mehr Theorien bzw. Modelle benötigen und Forschende immer mehrere Erklärungen gleichzeitig anbieten sollten. Das kann den Vorteil bringen, dass Forschende sich nicht auf eine Möglichkeit festlegen und Theorien nicht als Besitztum von jemandem behandelt werden. Solange sich eine Theorie klar einer Person zuordnen lässt, besteht die Gefahr, das Kritik an der Theorie mit Kritik an der Person verwechselt wird.

Visualisierung von Theorien mit unterschiedlichem empirischem Gehalt

Deduktion und Induktion

Methoden werden reformiert und Wissenschaftler*innen diskutieren, wie Wissenschaft funktioniert, ablaufen sollte, und welche Methoden sinnvoll und unsinnig sind. Wie am hermeneutischen Zirkel klar wird, führt ein Erkenntnisweg darüber, eine Menge von Beobachtungen zu einer Regelmäßigkeit oder Gesetzmäßigkeit zusammenzufassen (Induktion) und ein weiterer besteht daraus, aus einer Gesetzmäßigkeit bzw. Theorie Vorhersagen über noch nicht angestellte Beobachtungen zu machen (Deduktion). Immer wieder wird diese Unterscheidung im wissenschaftlichen Diskurs vernachlässigt oder ausgeblendet. Beispielsweise drehte sich ein Dialog in der Konsumentenpsychologie jahrelang darum, welcher Weg besser sei, obwohl beide Wege gleichermaßen legitim sind und einander ergänzen (Calder, Phillips, und Tybout 1981). Ähnlich verhält es sich bei Konflikten zwischen qualitativer und quantitativer Vorgehensweise, die formal betrachtet jeweils eher induktiv oder deduktiv vorgehen (Borgstede und Scholz 2021). Bei Replikationsforschung hat traditionell die induktive Seite mehr Beachtung erfahren (Hüffmeier, Mazei, und Schultze 2016; Yamashita und Neiriz 2024): Jeder Unterschied zwischen Replikation- und Originalstudie wird als mögliche Ursache für ein Scheitern des Replikationsversuches herangezogen, um die Vertrauenswürdigkeit der Originalbefunde aufrechtzuerhalten (Baumeister und Vohs 2016). Dabei gerät außer Acht, dass kleinere Unterschiede zwischen Original- und Replikationsstudie (z.B. Verwendung der Maße, durchschnittliches Alter der Versuchspersonen, Sprache der Instruktion) von Theorien nicht erfasst werden – ihnen zufolge also unerheblich sein sollten – und eine fehlgeschlagene Replikation klar die Grenzen der Theorie aufzeigt und sich aus ihr Empfehlungen für die Modifikation von Theorien ableiten lassen (Cesario 2014; Dijksterhuis 2014). Ein Überblick über die Vorgehensweisen ist in der folgenden Tabelle zu finden.

Facette Deduktives Vorgehen (Theorie-geleitet) Induktives Vorgehen (Phänomen-geleitet)
Verallgemeinerbarkeit steckt in… der Theorie: Sie ist a priori maximal allgemein (z.B. gilt sie, bis anderweitig nachgewiesen, für alle Menschen). den Daten: Erst vielfältige Beobachtungen in verschiedenen Kontexten erlauben die Annahme, dass das Phänomen allgemeingültig ist.
Veränderung von Verallgemeinerbarkeit Mit mehr Beobachtungen sinkt die Allgemeingültigkeit. Mit mehr Beobachtungen steigt die Allgemeingültigkeit (sofern sie bestätigender Natur sind).
Art der Prüfung Vorhersagen der Theorie werden vorwiegend Versuchen der Widerlegung unterzogen. Wiederholte Beobachtungen bestätigen den ursprünglichen Einzelfall.
Wahl des Studiensettings Studentische Stichproben aus nur einem Land oder Laboruntersuchungen sind unbedenklich. Der Kontext der Untersuchung sollte die Zielbedingungen (z.B. bei der Anwendung der Erkenntnisse in der Praxis) möglichst gut widerspiegeln.

Merkmale induktiver und deduktiver Vorgehensweise; entnommen, übersetzt, und angepasst aus einem unveröffentlichten Manuskript von Röseler & Leder

Hilfshypothesen

Über folgende Wege lassen sich Replikationsfehlschläge erklären:

  1. Fehler erster Art der Originalstudie: Der Originalbefund war nur ein Zufallsbefund oder kam durch wissenschaftliches Fehlverhalten zustande (siehe Kapitel „Freiheitsgrade von Forschenden (Researchers’ Degrees of Freedom)“).

  2. Fehler erster Art der Replikationsstudie: Die Originalstudie lag richtig, die Replikationsstudie hat einen Fehler gemacht (z.B. zu kleine Stichprobe, schlechte Kalibrierung der Instrumente, oder wissenschaftliches Fehlverhalten).

  3. Grenzbereich des Phänomens: Beide Studien sind vertrauenswürdig. Die Replikationsstudie unterscheidet sich auf eine für die Theorie wichtige Weise (z.B. wurde die Replikationsstudie mit Personen aus einem anderen Land durchgeführt und die Theorie gilt nur für Menschen aus dem „Original-Land”).

Variante 3 ist konstruktiv und nimmt beide Einzelbefunde für robust hin. Notwendig dafür ist ein theoretisch relevanter Unterschied zwischen der Original- und Replikationsstudie, der durch die unendliche Anzahl möglicher wichtiger Faktoren in den meisten Fällen zutrifft (Smedslund 2015). Über diesen Weg lässt sich die Theorie dann modifizieren oder eine weitere Theorie aufstellen, die für den Kontext der Untersuchung ebenfalls berücksichtigt werden muss. Schwierig wird es, wenn Forschende nach bestem Wissen eine Replikation durchführen, diese “fehlschlägt” (also nicht das nachgewiesen wird, was nachgewiesen werden sollte), und andere Forschende die Replikation dafür kritisieren, dass sie etwas “falsch” gemacht hat. Nachdem Hagger u. a. (2016) unter Absprache mit Roy Baumeister dessen Ego Depletion Theorie mit einer großangelegten Studie prüften, kritisierten Baumeister und Vohs (2016), dass von Anfang an zu erwarten gewesen wäre, dass die Studie nicht funktioniert und bezeichnete die Studie als fehlgeleitet. Vohs, die Ko-Autorin der Kritik war, führte einige Jahre später eine weitere groß angelegte Replikationsstudie durch. Obwohl sie dieses Mal ihrem eigenen Rat folgen konnten, konnten die Forschenden wieder nicht den erwarteten Effekt finden (Vohs u. a. 2021).

Weiterführende Informationen

  • Eine philosophie Perspektive auf den Zusammenhang zwischen Theorie, Messungen, und Replikationen diskutiert @ramminger2023vermessen

  • Yarkoni (2019) argumentiert, dass die Replikationsprobleme in der Verallgemeinerung von Ergebnissen zu Theorien ihren Ursprung haben.

  • Fanelli diskutiert in einem Vortrag die Komplexität von Forschung als Grund für Replikationsfehlschläge und schlägt eine Theorie zur Messung von Komplexität vor (Fanelli u. a. 2022), Ein Video zu einem Vortrag ist online verfügbar: https://www.youtube.com/watch?v=CEAV7420jBk

Literatur

Banker, Sachin, Sarah E. Ainsworth, Roy F. Baumeister, Dan Ariely, und Kathleen D. Vohs. 2017. „The Sticky Anchor Hypothesis: Ego Depletion Increases Susceptibility to Situational Cues“. Journal of Behavioral Decision Making 87 (1): 23. https://doi.org/10.1002/bdm.2022.
Baumeister, Roy F., und Kathleen D. Vohs. 2016. „Misguided Effort With Elusive Implications“. Perspectives on psychological science : a journal of the Association for Psychological Science 11 (4): 574–75. https://doi.org/10.1177/1745691616652878.
Borgstede, Matthias, und Marcel Scholz. 2021. „Quantitative and Qualitative Approaches to Generalization and Replication-A Representationalist View“. Frontiers in psychology 12: 605191. https://doi.org/10.3389/fpsyg.2021.605191.
Buzbas, Erkan O, und Berna Devezer. 2023. „Tension between theory and practice of replication“. Journal of Trial & Error 4 (1).
Calder, Bobby J., Lynn W. Phillips, und Alice M. Tybout. 1981. „Designing Research for Application“. Journal of Consumer Research 8 (2): 197. https://doi.org/10.1086/208856.
Cesario, Joseph. 2014. „Priming, Replication, and the Hardest Science“. Perspectives on psychological science : a journal of the Association for Psychological Science 9 (1): 40–48. https://doi.org/10.1177/1745691613513470.
Dijksterhuis, Ap. 2014. „Welcome Back Theory!“ Perspectives on psychological science : a journal of the Association for Psychological Science 9 (1): 72–75. https://doi.org/10.1177/1745691613513472.
Fanelli, Daniele, Pedro Batista Tan, Olavo Bohrer Amaral, und Kleber Neves. 2022. „A metric of knowledge as information compression reflects reproducibility predictions in biomedical experiments“.
Ferguson, Christopher J., und Moritz Heene. 2012. „A Vast Graveyard of Undead Theories: Publication Bias and Psychological Science’s Aversion to the Null“. Perspectives on psychological science : a journal of the Association for Psychological Science 7 (6): 555–61. https://doi.org/10.1177/1745691612459059.
Francis, Zoë, Marina Milyavskaya, Hause Lin, und Michael Inzlicht. 2018. „Development of a Within-Subject, Repeated-Measures Ego-Depletion Paradigm“. Social Psychology 49 (5): 271–86. https://doi.org/10.1027/1864-9335/a000348.
Glöckner, Andreas, und Tilmann Betsch. 2011. „The empirical content of theories in judgment and decision making: Shortcomings and remedies“. Judgment and Decision Making 6 (8): 711–21.
Hagger, Martin S., Nikos L. D. Chatzisarantis, Hugo Alberts, Calvin Octavianus Anggono, Cédric Batailler, Angela R. Birt, Ralf Brand, u. a. 2016. „A Multilab Preregistered Replication of the Ego-Depletion Effect“. Perspectives on psychological science : a journal of the Association for Psychological Science 11 (4): 546–73. https://doi.org/10.1177/1745691616652873.
Hoyningen-Huene, Paul, und Harold Kincaid. 2023. „What makes economics special: orientational paradigms“. J. Econ. Methodol., März, 1–15.
Hüffmeier, Joachim, Jens Mazei, und Thomas Schultze. 2016. „Reconceptualizing replication as a sequence of different studies: A replication typology“. Journal of Experimental Social Psychology 66: 81–92. https://doi.org/10.1016/j.jesp.2015.09.009.
Lakens, Daniel. 2023. „Concerns about Replicability, Theorizing, Applicability, Generalizability, and Methodology across Two Crises in Social Psychology“. https://doi.org/10.31234/osf.io/dtvs7.
Muthukrishna, Michael, und Joseph Henrich. 2019. „A problem in theory“. Nature Human Behaviour 349 (Suppl 1): aac4716. https://doi.org/10.1038/s41562-018-0522-1.
Platt, John R. 1964. „Strong Inference: Certain systematic methods of scientific thinking may produce much more rapid progress than others.“ science 146 (3642): 347–53.
Popper, Karl R. 1959/2008. The Logic of Scientific Discovery. Repr. 2008. Routledge classics. London: Routledge Classics; Routledge.
Robinaugh, Donald J., Jonas M. B. Haslbeck, Oisín Ryan, Eiko I. Fried, und Lourens J. Waldorp. 2021. „Invisible Hands and Fine Calipers: A Call to Use Formal Theory as a Toolkit for Theory Construction“. Perspectives on psychological science : a journal of the Association for Psychological Science 16 (4): 725–43. https://doi.org/10.1177/1745691620974697.
Röseler, Lukas, Astrid Schütz, Roy F. Baumeister, und Ulrike Starker. 2020. „Does ego depletion reduce judgment adjustment for both internally and externally generated anchors?“ Journal of Experimental Social Psychology 87: 103942. https://doi.org/10.1016/j.jesp.2019.103942.
Smaldino, Paul. 2019. „Better methods can’t make up for mediocre theory“. Nature 575 (7781): 9. https://doi.org/10.1038/d41586-019-03350-5.
Smaldino, Paul E. 2017. „Models Are Stupid, and We Need More of Them“. In Computational Social Psychology, herausgegeben von Robin R. Vallacher, 311–31. New York : Routledge, 2017. | Series: Frontiers of social psychology: Routledge. https://doi.org/10.4324/9781315173726-14.
Smedslund, Jan. 2015. „Why psychology cannot be an empirical science“. Integrative psychological & behavioral science. https://doi.org/10.1007/s12124-015-9339-x.
Vohs, Kathleen D, Brandon J Schmeichel, Sophie Lohmann, Quentin F Gronau, Anna J Finley, Sarah E Ainsworth, Jessica L Alquist, u. a. 2021. „A multisite preregistered paradigmatic test of the ego-depletion effect“. Psychological Science 32 (10): 1566–81.
Yamashita, Taichi, und Reza Neiriz. 2024. „Why replicate? Systematic review of calls for replication in Language Teaching“. Research Methods in Applied Linguistics 3 (1): 100091.
Yarkoni, Tal. 2019. „The Generalizability Crisis“. https://doi.org/10.31234/osf.io/jqw35.