La lecture en ligne est gratuite
Read Download

Share this publication

Friedrich-Schiller-Universitat¨ Jena
Fakultat¨ fur¨ Sozial- und Verhaltenswissenschaften
Institut fur¨ Psychologie
Dissertation
Causal Inference in Multilevel
Designs
Dissertation
zur Erlangung des akademischen Grades
doctor philosophiae (Dr. phil.)
vorgelegt dem Rat der Fakultat¨ fur¨ Sozial- und Verhaltenswissenschaften
der Friedrich-Schiller-Universitat¨ Jena
von Dipl.-Psych. Benjamin Nagengast
geboren am 14.05.1979 in Mainz.
Gutachter:
1. Prof. Dr. Rolf Steyer (Friedrich-Schiller-Universitat¨ Jena)
2. Prof. Dr. Johannes Hartig (Universitat¨ Erfurt)
Tag des Kolloquiums: 11. Juni 2009Acknowledgments
Many persons supported me during the writing of this thesis, the following list and the
mentioned accomplishments are by no means complete and the support often exceeded
the areas explicitly included here:
My heartfelt thanks go to Prof. Dr. Rolf Steyer who not only supervised this thesis
and stimulated my thinking about causal eects and multilevel designs, in special, and
about psychological methodology, in general, but who — at crucial points — encour-
aged me to pursue a scientific career and supported me in every imaginable way. Special
thanks go to Prof. Dr. Johannes Hartig for agreeing to act as external reviewer of this
thesis and for the skiing colloquium 2008 on research methods in empirical educational
research – I greatly profited from the exchanges and discussions at this meeting.
My parents Silvia and Hans-Joachim Nagengast supported me before, throughout
and after my studies, without their love and support, I would not have become the
person I am. My brother Arne spurned my ambition to finish this thesis quickly and in
time: Thanks for this extra source of motivation! You can do it too!
I am indebted to Ulf Krohne¨ whose superior programming skills – at least in my
humble eyes – allowed me to pursue the sometimes unduly complex simulation studies
in this thesis. Moreover, the cigarette breaks on the balcony were often a source of in-
spiration and sometimes desperately needed for emotion regulation during the last three
years. Christiane Fiege and Norman Rose took upon the burden of reading and com-
menting on earlier versions of this thesis, spotted many inconsistencies and more than
one typo. Their comments improved this thesis significantly, the remaining mistakes
are solely my responsibility. My colleagues Tim Lossnitzer, Ste Pohl, Jan Marten
Ihme and Hendryk Bohme¨ provided an intellectually stimulating and supportive en-
vironment during the last three years. The administrative and organizational skills of
Katrin Schaller and Marcel Bauer made my professional life much easier, as did the in-
dispensable work of my student research assistants Andrea Schubert, Marie-Ann Milde
and Remo Kamm.
iiiii
The Deutsche Bahn AG provided a mobile oce in the ICs from Weimar to Essen
and vice versa for a very reasonable price and did not cancel the late-night connection
on sundays.
My friends Aneka Flamm, Florian Kutzner, Hannes Horn and Henri Weise encour-
aged me to carry on with this thesis at many dierent occasions.
Last, but in no way least, Anne gave me the love, strength, support and the reason
to finish this thesis quickly: The prospects of finally living together again was a major
source of motivation to finish it in time and already puts a smile upon my face!
Benjamin Nagengast
Jena, February 2009Zusammenfassung
In dieser Arbeit wird die allgemeine Theorie kausaler Eekte (Steyer, Partchev, Krohne,¨
Nagengast, & Fiege, 2009) auf Mehrebenendesigns zum Vergleich der Wirksamkeit
verschiedener Behandlungen angewendet und die Bedingungen fur¨ kausale Schlusse¨
in diesen Designs untersucht. In werden Behandlungseekte an
Beobachtungseinheiten (z.B. Schulern¨ oder Patienten) untersucht, die selbst wiederum
in hohere¨ Einheiten (den sogenannten Clustern, z.B. Klassen, Schulen oder Kranken-
hausern)¨ geschachtelt sind. Beispiele fur¨ solche Designs finden sich in der empirischen
Bildungsforschung, der Evaluation von Gruppeninterventionen, z.B. in der Psycho-
therapieforschung, in der Soziologie, z.B. bei der Untersuchung von Interventionen,
die auf der Ebene von Stadtvierteln ansetzen, und in der medizischen Wirksamkeits-
forschung, wenn die Eekte einer Behandlung in mehr als einem Krankenhaus unter-
sucht werden.
Konzeptuell lassen sich zwei prototypische Klassen von Mehrebenendesigns un-
terscheiden: (1) Designs, in denen die Behandlung auf der Ebene der individuellen
Beobachtungseinheit ansetzt und (2) Designs, in denen die Behandlungszuweisung auf
¨der Ebene der Cluster stattfindet. Weiterhin und unabhangig von der vorangehenden Di-
mension, lassen sich Designs mit expliziter Zuweisung von Beobachtungseinheiten zu
Clustern und Designs mit bereits existierenden Clustern unterscheiden. Bisherige Ar-
beiten zur statistischen Analyse von Mehrebenendesigns beschrank¨ en sich weitgehend
auf experimentelle Designs mit randomisierter Zuweisung von
oder Clustern zu den Behandlungsbedingungen und vernachlassigen¨ die Analyse nicht-
randomisierter und quasi-experimenteller Designs. Nur eine kleine Zahl von Studien
befasst sich explizit mit der kausaler Inferenz in Mehrebenendesigns insbesondere auch
in nicht-randomisierten Designs. Die darin vorgestellten theoretischen Ansatze¨ sind je-
doch entweder zu allgemein formuliert, zu wenig formalisiert oder auf die Betrachtung
von Fallstudien beschrankt,¨ und konnen¨ daher nicht als allgemeine Theorie fur¨ kausale
Inferenzen in Mehrebenendesigns dienen. Die vorliegende Arbeit schließt diese Luck¨ e
ivv
und entwickelt aufbauend auf der allgemeinen Theorie kausaler Eekte die Grundlagen
fur¨ kausale Inferenz in Mehrebenendesigns.
Im Vergleich zu einfachen Evaluationsdesigns ergeben sich bei der Identifikation und
empirischen Schatzung¨ von Behandlungseekten in Mehrebenendesigns – neben der
Auswahl der relevanten Kovariaten und der Spezifkation des Adjustierungsmodells –
zusatzliche¨ konzeptuelle wie auch statistische Herausforderungen. Auf der konzep-
tuellen Ebene ist zu berucksichtigen,¨ dass sich Behandlungseekte fur¨ die Beobach-
tungseinheiten unterscheiden konnen,¨ je nachdem, welchem Cluster diese zugeordnet
werden. Das Cluster selber kann die Beziehung zwischen Behandlung und Behand-
lungsergebnis konfundieren. Weiterhin muss berucksichtigt¨ werden, dass stochastische
und regressive Abhangigk¨ eiten zwischen Variablen auf den verschiedenen Ebenen des
Designs unterschiedlich ausfallen konnen.¨ Solche sogenannten Kontexteekte mussen¨
sowohl bei der Definition kausaler Eekte, als auch bei deren statistischer Analyse
¨ ¨gesondert berucksichtigt werden. Weiterhin konnen Interaktionen und Interferenzen
zwischen den Beobachtungseinheiten innerhalb eines Clusters oder zwischen den Be-
handlungsgruppen innerhalb eines Clusters die Interpretation von Behandlungseekten
gefahrden.¨ Bei der Formulierung statistischer Modelle ist zu beachten, dass residuale
Eekte der Clustervariablen zu einer Unterschatzung¨ von Standardfehlern und liberalen
Signifikanztests fuhren¨ konnen.¨
Wie sich zeigt, kann die allgemeine Theorie kausaler Eekte leicht auf Mehrebe-
nendesigns angewendet werden und bietet einen formalisierten Rahmen, um die beson-
deren Probleme dieser Designs zu losen.¨ Durch die Definition von sogenannten wahren
Eektvariablen bedingt auf alle potentiell konfundierenden Variablen konnen¨ konfun-
dierende Eekte der Clustervariablen direkt in der elementaren Definition kausaler Ef-
fekte berucksichtigt¨ werden. Der durchschnittliche kausale Behandlungseekt bleibt
dabei als Erwartungswert der wahren Eektvariablen wohldefiniert. Vorlaufer¨ der all-
gemeinen Theorie kausaler Eekte und deren Anwendung auf Mehrebenendesigns sind
als Spezialfalle¨ in der allgemeinen Theorie enthalten. Die explizite Grundierung der
Theorie in einem Einzelversuch, der das Zufallsexperiment des empirischen Phanomens¨
reprasentiert,¨ auf dass sich alle Inferenzen beziehen, erlaubt es zudem die Relevanz
von Interferenzen zwischen Beobachtungseinheiten fur¨ die Definition kausaler Eekte
in verschiedenen Designtypen studieren. Fur¨ Designs mit Behandlungszuweisung auf
Ebene der Cluster zeigt sich dabei, dass solche Interferenzen nur in Designs mit Zuwei-
sung von Individuen zu Clustern die Validitat¨ von Eektdefinitionen gefahrden¨ konnen,¨vi
aber auch nur dann, wenn diese Interferenzeekte nicht vollstandig¨ durch Kovariaten
erfasst werden. In Designs mit bereits existierenden Clustern sind Interferenzeekte
generell unproblematisch, wenn die Behandlungszuweisung auf der Ebene der Cluster
stattfindet. Auch in Designs mit auf der Ebene der Beobach-
tungseinheiten sind Interferenzen zwischen behandelten und nicht-behandelten Beo-
bachtungseinheiten innerhalb eines Clusters unproblematisch, solange sie als Funktion
der Clustervariable aufgefasst werden konnen.¨ Unabhangig¨ von der Art des Designs
sind valide Schlusse¨ aus Stichproben an die Voraussetzung der Wiederholung kausal-
stabiler Einzelversuche geknupft¨ und die Generalisierbarkeit von Befunden ohne wei-
tere Annahmen auf das durch den Einzelversuch und die entsprechenden Verteilungen
und Parameter reprasentierte¨ Design beschrankt.¨
Auf der Grundlage der allgemeinen Theorie kausaler Eekte wurden im folgenden
generalisierte Kovarianzanalysen (ANCOVA) zur Schatzung¨ durchschnittlicher kausa-
¨ler Eekte fur bedingt-randomisierte und quasi-experimentelle Designs mit Behand-
lungszuweisung auf individueller Ebene und auf der Ebene des Clusters dargestellt.
Dabei wurden diese Verfahren zunachst¨ fur¨ allgemeine bedingte Eektfunktionen en-
twickelt und dann fur¨ lineare Eektfunktionen spezifiziert. Herkommliche¨ Ansatze¨ der
Kovarianzanalyse fur¨ Mehrebenenmodelle werden erweitert, indem einerseits Interak-
tionen zwischen der Behandlungsvariablen und den Kovariaten zugelassen und dabei
auch Kontexteekte berucksichtigt¨ werden, andererseits der durchschnittlichen kausale
Eekt eindeutig identifiziert wird. Die Implementierung der generalisierten ANCOVA
in verschiedenen statistischen Verfahren wurde in zwei separaten Simulationsstudien
fur¨ Designs mit Behandlungszuweisung auf Individuuen- und auf Clusterebene getestet
und die Modelle auf Datenbeispiele angewandt. Dabei zeigte sich, dass sowohl die
Mehrebenenstruktur der Daten als auch die Stochastizitat¨ der Pradiktoren¨ bei der Be-
stimmung von Standardfehlern und bei Signifikanztests berucksichtigt¨ werden muss.
¨In Designs mit Behandlungszuweisung auf der Clusterebene schatzten nur solche Ver-
fahren den durchschnittlichen kausalen Eekt erwartungstreu, die berucksichtigten,¨
dass die empirischen Mittelwerte der Kovariaten innerhalb der Cluster die bedingten
Erwartungswerte der Kovariaten nur fehlerbehaftet messen. Statistische Verfahren,
die dies nicht berucksichtigten,¨ zeigten unter bestimmten Bedingungen einen Bias in
der Parameterschatzung.¨ Das vielversprechendste Verfahren in beiden Simulationen,
die Implementierung des hierarchichen linearen Regression als Mehrebenenstruktur-
gleichungsmodell in Mplus, wies jedoch unter realistischen Parameterkonstellationenvii
teilweise Konvergenzprobleme auf und fuhrte¨ teilweise zu leichten Verschatzungen¨ der
Standardfehler, so dass es nicht vorbehaltlos fur¨ den Einsatz in der Praxis empfohlen
werden kann.
In der abschließenden Diskussion wird ausfuhrlich¨ auf den Geltungsbereich der all-
gemeinen Theorie kausaler Eekte eingegangen. Außerdem werden die Vor- und Nach-
teile der generalisierten ANCOVA fur¨ Mehrebenendesigns und ihrer Implementierung
in verschiedenen statistischen Modellen diskutiert, kritische Annahmen expliziert und
Alternativverfahren kurz vorgestellt. Abschließend werden die noch oenen Fragen fur¨
kausale Schlusse¨ in Mehrebenendesigns kurz vorgestellt.Abstract
The general theory of causal eects (Steyer et al., 2009) is used to develop a theory
of causal inference for multilevel designs - i.e., for designs in which the eects of
treatments are evaluated on units nested within clusters - that extends and consolidates
previous approaches. Two multilevel causality spaces for dierent classes of multi-
level designs are used to define true-eect variables, average causal eects, conditional
causal eects and prima-facie eects. Unbiasedness, as the weakest condition under
which average and conditional causal eects are identified, and its sucient conditions
are outlined. Next, stability assumptions for causal inference in multilevel designs are
discussed in relation to the general theory of causal eects and a taxonomy of multi-
level designs is introduced. Building upon this theoretical framework, the generalized
analysis of covariance (ANCOVA), that extends the conventional multilevel ANCOVA
by identifying the average causal eect in the presence of interactions, is developed
for non-randomized multilevel designs with treatment assignment at unit- and at the
cluster-level. Two simulation studies tested several statistical implementations of the
generalized ANCOVAs. The results showed that contextual eects have to be taken
into account in the specification of adjustment models, that predictors have to be mod-
eled as stochastic to obtain correct standard errors of the average causal eects and that
the unreliability of the empirical cluster means has to be accounted for in designs with
treatment assignment at the cluster-level. The statistical methods studied in the simula-
tions were applied to two empirical examples from educational research to demonstrate
the implementations in practice. Finally, the scope of the general theory of causal ef-
fects, the advantages and disadvantages of the generalized ANCOVA and alternative
adjustment methods are discussed and an overview of further research needs is given.
viiiContents
1 Introduction 1
1.1 Multilevel Designs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Statistical Inference in Multilevel Designs . . . . . . . . . . . . . . . . 4
1.3 Causal Inference in Multilevel Designs . . . . . . . . . . . . . . . . . . 7
1.3.1 Literature Review . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Common Themes and Challenges . . . . . . . . . . . . . . . . 14
1.4 Outlook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Causal Effects – A General Theory 17
2.1 Single-Unit Trials . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1 Pre-Existing Clusters . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.2 Assignment to Clusters . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Causality Space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Probability Space . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Filtration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.3 Random Variables . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Multilevel Properties of Random Variables . . . . . . . . . . . . . . . . 31
2.3.1 Decomposition of Variables . . . . . . . . . . . . . . . . . . . 31
2.3.2 Intraclass Correlation Coecient . . . . . . . . . . . . . . . . 33
2.3.3 Within- and Between-Cluster Dependencies . . . . . . . . . . . 34
2.4 Causal Eects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4.1 True-Outcome Variables and True-Eect Variables . . . . . . . 36
2.4.2 Average Causal Eects and Conditional Causal Eects . . . . . 37
2.4.3 Individual and Cluster-Specific Causal Eects . . . . . . . . . . 38
2.4.4 Specific Conditional Eects . . . . . . . . . . . . . . . . . . . 42
ix