Asymptotic and exact results on FWER and FDR in multiple hypotheses testing [Elektronische Ressource] / vorgelegt von Veronika Gontscharuk
133 Pages
English

Asymptotic and exact results on FWER and FDR in multiple hypotheses testing [Elektronische Ressource] / vorgelegt von Veronika Gontscharuk

-

Downloading requires you to have access to the YouScribe library
Learn all about the services we offer

Description

AsymptoticandExactResultsonFWERandFDRinMultipleHypothesesTestingInaugural-DissertationzurErlangungdesDoktorgradesderMathematisch-NaturwissenschaftlichenFakultätderHeinrich-Heine-UniversitätDüsseldorfvorgelegtvonVeronikaGontscharukausCharkowDüsseldorf,Oktober2010AusdemInstitutfürBiometrieundEpidemiologiedesDeutschenDiabetes-Zentrums,Leibniz-InstitutanderHeinrich-Heine-UniversitätDüsseldorfGedrucktmitderGenehmigungderMathematisch-NaturwissenschaftlichenFakultätderHeinrich-Heine-UniversitätDüsseldorfReferent: Apl. Prof. Dr. H.FinnerKoreferenten: Prof. Dr. A.JanssenProf. Dr. G.BlanchardTagdermündlichenPrüfung: 27. Oktober2010ContentsAbstract iiiZusammenfassung ivListofAbbreviationsandSymbols viOverview 11 Generalframeworkformultipletesting 41.1 Introductiontobasicconcepts . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Family-WiseErrorRate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3 FalseDiscoveryRate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4 GeneralassumptionsandDirac-uniformmodels . . . . . . . . . . . . . . . . . . 112 Plug-inprocedurescontrollingtheFWER 142.1 Bonferroniplug-inprocedure . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2 AsymptoticbehaviourofBonferroniplug-intests . . . . . . . . . . . . . . . . . 272.3 Step-downplug-inprocedures . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.4 Powerinvestigation . . . . . . . . . . . . . . . . . . . . . . . .

Subjects

Informations

Published by
Published 01 January 2010
Reads 20
Language English
Document size 2 MB

AsymptoticandExactResultsonFWERandFDR
inMultipleHypothesesTesting
Inaugural-Dissertation
zur
ErlangungdesDoktorgradesder
Mathematisch-NaturwissenschaftlichenFakultät
derHeinrich-Heine-UniversitätDüsseldorf
vorgelegtvon
VeronikaGontscharuk
ausCharkow
Düsseldorf,Oktober2010AusdemInstitutfürBiometrieundEpidemiologiedes
DeutschenDiabetes-Zentrums,Leibniz-Institutan
derHeinrich-Heine-UniversitätDüsseldorf
GedrucktmitderGenehmigungder
Mathematisch-NaturwissenschaftlichenFakultätder
Heinrich-Heine-UniversitätDüsseldorf
Referent: Apl. Prof. Dr. H.Finner
Koreferenten: Prof. Dr. A.Janssen
Prof. Dr. G.Blanchard
TagdermündlichenPrüfung: 27. Oktober2010Contents
Abstract iii
Zusammenfassung iv
ListofAbbreviationsandSymbols vi
Overview 1
1 Generalframeworkformultipletesting 4
1.1 Introductiontobasicconcepts . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Family-WiseErrorRate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 FalseDiscoveryRate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 GeneralassumptionsandDirac-uniformmodels . . . . . . . . . . . . . . . . . . 11
2 Plug-inprocedurescontrollingtheFWER 14
2.1 Bonferroniplug-inprocedure . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 AsymptoticbehaviourofBonferroniplug-intests . . . . . . . . . . . . . . . . . 27
2.3 Step-downplug-inprocedures . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Powerinvestigation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3 FDRcontrollingmultipletestsrelatedtotheAORC 41
3.1 SUDtestsandupperFDRbounds . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2 Generalcomputationalissues . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3 AlternativeFDRcurvesandexactsolving . . . . . . . . . . . . . . . . . . . . . 52
3.4 AORCadjustments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.1 Single-parameteradjustment . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.2 AdjustmentofthemodifiedAORC . . . . . . . . . . . . . . . . . . . . 61
3.4.3 Behaviouroftheadjustingparameters . . . . . . . . . . . . . . . . . . . 62
3.4.4 Multiple-parameteradjustment . . . . . . . . . . . . . . . . . . . . . . . 69
3.4.5 Exactsolving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.5 Iterativemethod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
i3.6 Concludingremarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4 Dependentp-valuesandmultipletestprocedures 76
4.1 Weakdependence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.2 Plug-intestsandasymptoticcontroloftheFWER . . . . . . . . . . . . . . . . . 79
4.3 SUDtestsandasymptoticFDRcontrolunderweakdependence . . . . . . . . . 83
4.4 Sufficientconditionsforconvergenceofecdfs . . . . . . . . . . . . . . . . . . . 88
4.5 Block-dependentp-values. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.6 Pairwisecomparisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.7 SimulationsofFWERandpowerforBPItests . . . . . . . . . . . . . . . . . . . 106
4.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
A Typesofconvergence 112
ListofTables 117
ListofFigures 118
Bibliography 119
iiAbstract
Nowadays, multiple hypotheses testing has become a promising area of statistics. In medicine,
biology, pharmacology, epidemiology and even marketing, many hypotheses often have to be
tested simultaneously. In some applications like genome-wide association studies, there may be
severalhundredsofthousandshypothesestobetested.
An important concept in multiple testing is controlling a suitable Type I error rate. The
Family-Wise Error Rate (FWER) is a classical error rate criterion and denotes the probability
of one or more false rejections. Unfortunately, the FWER is often too restrictive if the number of
hypotheses is very large. In 1995, Benjamini and Hochberg introduced an alternative error rate
called the False Discovery Rate (FDR). The FDR denotes the expected proportion of falsely re-
jected hypotheses among all rejections. Typically, multiple test procedures controlling the FDR
are more powerful than multiple tests controlling the FWER. However, if the number of true hy-
potheses is large and almost all hypotheses are true, procedures controlling the FWER may be a
goodalternativetotestscontrollingtheFDR.
In this work we deal with multiple test procedures that control one of the aforementioned
multiple error rates for independent test statistics and dependent ones as well. In the case of de-
pendentteststatistics,asymptoticconsiderationsplayadecisiverole. Chapter1isanintroduction
intobasicconceptsandproblemsconcerningmultiplehypothesestesting.
In Chapter 2 we discuss a possibility to improve the power of some classical multiple tests
controlling the FWER by applying a plug-in estimate for the number of true null hypotheses. We
investigate several plug-in estimates and prove FWER control of Bonferroni, Šidàk and so-called
step-down plug-in multiple test procedures. Moreover, we obtain some asymptotic results and
comparethepowerofplug-intestswiththepowerofthecorrespondingclassicalprocedures.
In Chapter 3 we restrict our attention to exact control of the FDR for step-up-down (SUD)
testprocedures. Wegivearecursiveschemewhichallowstocalculatecriticalvaluessuchthatthe
corresponding FDR equals the pre-specified FDR bounding curve. This scheme is numerically
extremely sensitive so that computation of feasible solutions remains a challenging problem. We
introduce alternative FDR bounding curves and study their connection to rejection curves as well
as the existence of valid sets of critical values leading to these FDR bounding curves. In order to
computefeasiblecriticalvaluestwofurtherapproachesarepresented.
In Chapter 4 we focus on situations where some kind of weak dependence occurs. We con-
sider models where the empirical cumulative distribution function of p-values corresponding to
true null hypotheses is asymptotically bounded by the distribution function of a uniform vari-
ate. Importantexamplesofweakdependencelikeblock-dependenceofteststatisticsandpairwise
comparisonsareinvestigatedinmoredetail. Weprovethatlargeclassesofplug-intestsandSUD
procedures control the corresponding error rate under weak dependence at least asymptotically.
Variousnumericalexamplesillustrateourtheoreticalresults.
iiiZusammenfassung
In den letzten Jahrzehnten ist multiples Hypothesentesten ein vielversprechender Bereich der
Statistik geworden. In der Medizin, Biologie, Pharmakologie, Epidemiologie und sogar im Bere-
ichMarketinghandeltessichbeivielenFragestellungenummultipleTestprobleme. ZumBeispiel
werden in genomweiten Assoziationsstudienmanchmal viele Hunderttausende von SNPs auf As-
soziationmiteinerErkrankunggetestet.
Ein wichtiges Konzept multiplen Hypothesentestens ist die Kontrolle eines geeigneten mul-
tiplen Fehlerkriteriums. Die bekannteste Fehlerrate ist die sogenannte Family Wise Error Rate
(FWER). Damit wird die Wahrscheinlichkeit bezeichnet, dass mindestens eine Nullhypothese
fälschlicherweise abgelehnt wird. Ist die Anzahl von Tests groß, so sind die meisten FWER
kontrollierenden multiplen Testverfahren sehr konservativ. Im Jahr 1995 haben Benjamini und
Hochberg vorgeschlagen, die False Discovery Rate (FDR) zu kontrollieren, d.h. den erwarteten
AnteilfälschlichabgelehnterNullhypothesenbzgl. allerabgelehntenHypothesen. Typischerweise
lehnen FDR kontrollierende Verfahren mehr Hypothesen ab als Prozeduren, die die FWER kon-
trollieren. Dennoch,dieletzterenkönneneineguteAlternativezuFDRkontrollierendenVerfahren
darstellen,fallsdieAnzahlderTestsgroßistundfastalleHypothesenwahrsind.
IndieserArbeituntersuchenwirmultipleTestverfahren,diedieFWERoderdieFDRkontrol-
lieren,sowohlfürunabhängigealsauchabhängigeTeststatistiken. IndemabhängigenFallspielen
asymptotische Betrachtungen eine entscheidende Rolle. In Kapitel 1 werden Grundkonzepte und
ProblemstellungendesmultiplenTestenseingeführt.
InKapitel2wirddieGüteeinigerklassischerFWERkontrollierenderTestsverbessert,indem
dieAnzahlallerTestsdurchdiegeschätzteAnzahlwahrerHypothesenbeiderBerechnungkritis-
cher Werte ersetzt wird. Wir untersuchen einige Schätzer für die Anzahl wahrer Hypothesen und
beweisen FWER Kontrolle für Bonferroni, Šidàk und sogenannte step-down plug-in Tests. Wir
präsentierenasymptotischeErgebnisseundvergleichenGütenvonneuenundklassischenTests.
In Kapitel 3 wird der Fokus auf step-up-down Testsverfahren gelegt, die die FDR kontrol-
lieren. Wir präsentieren ein rekursives Schema zur Berechnung zulässiger kritischer Werte, die
zu vorher festgesetzten Schranken für die FDR führen. Das Schema ist numerisch sehr sensibel,
so dass die Existenz einer zulässigen Lösung ein anspruchsvolles Problem ist. Wir führen neue
sogenannte FDR beschränkende Kurven ein und untersuchen sowohl deren Zusammenhang zu
AblehnkurvenalsauchdieLösbarkeitdesrekursivenSchemasfürdieseFDRbeschränkendeKur-
ven. AußerdemwerdenweitereVerfahrenzurBerechnungzulässigerkritischerWertevorgestellt.
Kapitel 4 widmet sich abhängigen Teststatistiken, die eine sogenannte "weak dependence"
Bedingung erfüllen. Wir betrachten Modelle, bei denen die empirische Verteilungsfunktion von
p-Werten unter Nullhypothesen asymptotisch nicht oberhalb der Winkelhalbierenden verläuft.
Blockabhängigkeit von Teststatistiken und Paarvergleiche sind die bedeutendsten Beispiele für
"weakdependence"undwerdenausführlichuntersucht. WirprüfenFWERundFDRKontrollefür
große Klassen von plug-in und SUD Tests. Verschiedene numerische Beispiele veranschaulichen
dietheoretischenErgebnisse.
ivAcknowledgments
There are many people who I would like to thank for their support during the preparation process
ofthisthesis.
Firstandforemost,IwanttoexpressmysincereappreciationtomyadvisorProf. Dr. Helmut
Finner for his invaluable support and continuous encouragement over the last years. Many exten-
sivediscussionsfilledwithhelpfulsuggestionsmadeitpossibleformetocompletethiswork.
Warm thanks are due to many colleagues at the German Diabetes Center, especially Klaus
Straßburger and Marsel Scheer, who always had an open door for discussing problems, Thorsten
Dickhaus, meanwhile working at Humboldt-University Berlin, for exchanging ideas and some
fruitfuljointwork,andSandraLandwehrforhercarefulproofreading.
SpecialthanksareduetotheDirectoroftheInstituteofBiometricsandEpidemiologie,Prof.
Dr. Guido Giani, and also to Prof. Dr. Arnold Janssen and Prof. Dr. Gilles Blanchard for writing
the referee reports on this thesis. I am also very grateful for the financial support of the Deutsche
Forschungsgemeinschaft(DFG).
Finally,Ithankmyfamilyfortheirloveandunderstanding.
vListofAbbreviationsandSymbols
AORC Asymptotically Optimal Rejection Curve
a∨b max(a,b)
BPI Bonferroni plug-in
cdf Cumulative distribution function
F Cdf of a univariate (central)t-distribution withν degrees of freedomtν
Cov Covariance
DU Dirac-uniform
ecdf Empirical cumulative distribution function
F (t|ζ) 1−ζ +ζt∞
ˆF Ecdf ofp-valuesn
ˆF Ecdf ofp-values corresponding to true null hypothesesn,0
ˆF Ecdf ofp-values corresponding to alternativesn,1
FDR False Discovery Rate
Φ Standard Gaussian cdf
φ Standard Gaussian pdf
FWER Family-Wise Error Rate
I {1,...,n}n
I {i∈I : H is true}n,0 n i
I {i∈I : H is false}n,1 n i
I(p≤t) Indicator function of the event{p≤t}
iid independent and identically distributed
⌈x⌉ Largest integer smaller than or equal tox
LFC Least Favourable Configuration
vi⌊x⌋ Smallest integer larger than or equal tox
LSU Linear step-up
2 2N(,σ ) Normal distribution with mean and varianceσ
N Set of natural numbers
pdf Probability density function
PRDS Positive Regression Dependency on Subset
R #{i∈I : H is rejected}n n i
R (t) #{i∈I : p ≤t}n n i
O(g(n)) {f(n) : ∃C > 0 : ∃N ∈N : ∀n≥N : 0≤f(n)≤Cg(n)}0 0
o(g(n)) {f(n) : ∀C > 0 : ∃N ∈N : ∀n≥N : 0≤f(n)≤Cg(n)}0 0
OB Oracle Bonferroni
R Set of real numbers
SD Step-down
SDPI Step-down plug-in
SU Step-up
SUD Step-up-down
U([0,1]) Uniform distribution on the interval[0,1]
V #{i∈I : H is rejected}n n,0 i
V (t) #{i∈I : p ≤t}n n,0 i
WD Weak dependence
viiOverview
In various applications of statistics, simultaneous testing of a large number of hypotheses is ev-
eryday life. For example, in multiple endpoints studies in clinical trials, a new treatment has to
becomparedwithanexistingoneintermsofanumberofmeasurements(endpoints). Ingenome-
wide association studies, sometimes hundreds of thousands of single-nucleotide polymorphisms
(SNPs) have to be tested simultaneously. Other applications in multiple testing can be found in
medicine,biology,pharmacology,epidemiology,bioinformaticsandevenmarketing.
Typically, one is not interested in whether or not all null hypotheses are true. It is important
to make decisions about individual hypotheses, that is, we want to decide which hypotheses are
false. Clearly,ifwecarryoutmanystatisticaltestssimultaneously,theprobabilityofmakingfalse
rejections increases with the number of tests. The aim of a multiple test procedure is to control a
suitableTypeIerrorrateandtomaximisethenumberofcorrectrejectionsatthesametime. Note
that a single test controls the probability of a false rejection (Type I error). In the multiple case,
theTypeIerrorratecanbegeneralisedindifferentways.
One of the well-known multiple error measures is the so-called Family-Wise Error Rate
(FWER), that is, the probability of falsely rejecting at least one true null hypothesis. Up to a
fewyearsago, theFWERwasthemostusederrorratecriterion. Unfortunately, multipletestpro-
cedurescontrollingtheFWERrequirethatindividualtestsareperformedatalowerlevelthanthe
pre-specified FWER-level, which often results in a low power. Instead of controlling the FWER,
one can control the False Discovery Rate (FDR) introduced in BenjaminiandHochberg [1995].
The FDR is the expected proportion of falsely rejected null hypotheses among all rejected hy-
potheses. Since the FDR is less restrictive than the FWER, the FDR has become an attractive
errormeasureespeciallyifthenumberofhypothesesislarge. Ontheotherhand,ifthenumberof
null hypotheses increases and the proportion of true null hypotheses converges to 1, multiple test
procedurescontrollingtheFWERmaybegoodalternativestomultipletestscontrollingtheFDR.
In this dissertation we deal with both types of multiple test procedures, that is, multiple tests
controllingtheFWERandotherscontrollingtheFDR.Weconsiderindependentteststatisticsand
dependentonesaswell,wherethelatteroftenoccurinapplications. Moreover,becauseofmassive
multiplicityappearinginmanyapplications,asymptoticinvestigationsfeatureprominentlyinthis
work. Thisdissertationisorganisedasfollows.
Chapter 1 serves as an introduction for this treatise. A general multiple-testing problem and
possible error rate criteria are presented. We consider various classical multiple test procedures
1