263 Pages
English

Statistical learning in high energy and astrophysics [Elektronische Ressource] / vorgelegt von Jens Zimmermann

-

Gain access to the library to view online
Learn more

Description

Statistical Learning inHigh Energy and AstrophysicsJens ZimmermannMunchen˜ 2005Statistical Learning inHigh Energy and AstrophysicsJens ZimmermannDissertationan der Fakult˜ at fur˜ Physikder Ludwig{Maximilians{Universit˜ atMunc˜ henvorgelegt vonJens Zimmermannaus BerlinMunc˜ hen, den 16. Juni 2005Erstgutachter: Prof. Dr. Christian KieslingZweitgutachter: Prof. Dr. Paul TavanTag der mundlic˜ hen Prufung:˜ 24. Oktober 2005Contents1 Introduction and Motivation 12 Experiments, Detectors and Physics Motivation 52.1 The H1 Experiment at HERA . . . . . . . . . . . . . . . . . . . . . . . . . 52.1.1 HERA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1.2 H1 Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.3 Trigger System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.1.4 The Level 2 Neural Network Trigger . . . . . . . . . . . . . . . . . 122.1.5 Important Physics Channels for L2NN . . . . . . . . . . . . . . . . 142.1.6 O†ine Analysis: Instantons . . . . . . . . . . . . . . . . . . . . . . 192.2 Higgs Boson Parity Measurement at a Future Linear Collider . . . . . . . . 212.3 Small-Angle Neutron Scattering Detector . . . . . . . . . . . . . . . . . . . 242.4 The MAGIC Telescope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.4.1 Extensive Air Showers and Imaging of Cherenkov Light . . . . . . . 282.4.2 Shower Image Analysis and Background Rejection . . . . . . . . . . 312.

Subjects

Informations

Published by
Published 01 January 2005
Reads 15
Language English
Document size 9 MB

Statistical Learning in
High Energy and Astrophysics
Jens Zimmermann
Munchen˜ 2005Statistical Learning in
High Energy and Astrophysics
Jens Zimmermann
Dissertation
an der Fakult˜ at fur˜ Physik
der Ludwig{Maximilians{Universit˜ at
Munc˜ hen
vorgelegt von
Jens Zimmermann
aus Berlin
Munc˜ hen, den 16. Juni 2005Erstgutachter: Prof. Dr. Christian Kiesling
Zweitgutachter: Prof. Dr. Paul Tavan
Tag der mundlic˜ hen Prufung:˜ 24. Oktober 2005Contents
1 Introduction and Motivation 1
2 Experiments, Detectors and Physics Motivation 5
2.1 The H1 Experiment at HERA . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 HERA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 H1 Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.3 Trigger System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.4 The Level 2 Neural Network Trigger . . . . . . . . . . . . . . . . . 12
2.1.5 Important Physics Channels for L2NN . . . . . . . . . . . . . . . . 14
2.1.6 O†ine Analysis: Instantons . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Higgs Boson Parity Measurement at a Future Linear Collider . . . . . . . . 21
2.3 Small-Angle Neutron Scattering Detector . . . . . . . . . . . . . . . . . . . 24
2.4 The MAGIC Telescope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Extensive Air Showers and Imaging of Cherenkov Light . . . . . . . 28
2.4.2 Shower Image Analysis and Background Rejection . . . . . . . . . . 31
2.4.3 Energy Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5 The XEUS Satellite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.1 The Mesh-Experiment . . . . . . . . . . . . . . . . . . . . . . . . . 40
3 Statistical Learning for Physics Experiments 41
3.1 Statistical in the World of Artiflcial Intelligence . . . . . . . . . . 41
3.2 Inputs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 Supervised and Unsupervised Learning . . . . . . . . . . . . . . . . . . . . 43
3.4 Classiflcation vs. Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5 Online vs. O†ine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.6 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.7 Standard Approach to Classiflcation: \Cuts" . . . . . . . . . . . . . . . . . 47
3.8h to Regression: \Fit" . . . . . . . . . . . . . . . . . . . 49
3.9 Knowledge and Time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.10 Prerequisite: Training Data . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.11 Overtraining and Regularisation . . . . . . . . . . . . . . . . . . . . . . . . 53
3.12 Performance Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.12.1 Performance Evaluation for Classiflcation . . . . . . . . . . . . . . . 56
3.12.2 P Ev for Regression . . . . . . . . . . . . . . . . 59
3.13 Calculation of Uncertainties for Statistical Learning Methods . . . . . . . . 59
3.13.1 Statisticalties . . . . . . . . . . . . . . . . . . . . . . . . 60
3.13.2 Systematic Uncertainties . . . . . . . . . . . . . . . . . . . . . . . . 63vi CONTENTS
3.14 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.15 Comparison of Statistical Learning Methods . . . . . . . . . . . . . . . . . 67
3.15.1 Comparing Hypotheses . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.15.2 Learning Methods . . . . . . . . . . . . . . . . . . . . . 69
4 Statistical Learning Theory 71
4.1 Error Measurement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2 Bayesian Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.3 PAC Learning (Probably Approximately Correct) . . . . . . . . . . . . . . 74
4.4 The VC-Framework (Vapnik-Chervonenkis) . . . . . . . . . . . . . . . . . 75
4.5 Criticism: No-Free-Lunch Theorems . . . . . . . . . . . . . . . . . . . . . . 77
4.6 Regularisation Schemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.6.1 Occam’s Razor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.6.2 MDL Principle (Minimum Description Length) . . . . . . . . . . . 79
4.6.3 Structural Risk Minimisation . . . . . . . . . . . . . . . . . . . . . 80
5 Statistical Learning Methods 81
5.1 Model-Based vs. Instance-Based Methods . . . . . . . . . . . . . . . . . . 82
5.2 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3 Local Density Estimators . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3.1 k-Nearest-Neighbours . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3.2 Kernel Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.3.3 Range Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3.4 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4 Methods Based on Linear Separation . . . . . . . . . . . . . . . . . . . . . 89
5.4.1 Linear Discriminant Analysis . . . . . . . . . . . . . . . . . . . . . 89
5.4.2 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.4.3 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . 93
5.5 Meta Learning Strategies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.5.1 Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.5.2 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.5.3 Random Subspace Method . . . . . . . . . . . . . . . . . . . . . . . 97
5.5.4 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.6 Typical Properties of Difierent Classiflcation Methods . . . . . . . . . . . . 98
5.6.1 Toy Example ’Hole’ . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.6.2 Toy ’Rings’ . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.6.3 Toy Example ’Gaussians’ . . . . . . . . . . . . . . . . . . . . . . . . 103
5.6.4 Summary of Typical Properties of Difierent Classiflcation Methods 106
6 Software Development 109
6.1 Data Access and Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . 109
6.2 Data Visualisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.3 Statistical Learning Methods and their Automation . . . . . . . . . . . . . 111
6.4 Performance Evaluation and Control . . . . . . . . . . . . . . . . . . . . . 112CONTENTS vii
7 Analysis and Results 115
7.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.2 Applications for H1: The Level 2 Neural Network Trigger . . . . . . . . . . 117
7.2.1 Training Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.2.2 Performance Check . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
7.2.3 Deeply Virtual Compton Scattering . . . . . . . . . . . . . . . . . . 119
7.2.4 Charged Current Interactions . . . . . . . . . . . . . . . . . . . . . 131
+ ¡7.2.5 Exclusive J=ˆ Photoproduction { J=ˆ!e e . . . . . . . . . . . . 139
+ ¡7.2.6 Inelastic J=ˆ { J=ˆ!„ „ . . . . . . . . . . . . 142
⁄7.2.7 D and Dijet production . . . . . . . . . . . . . . . . . . . . . . . . 145
7.2.8 Summary of Newly Developed Neural Networks . . . . . . . . . . . 149
7.3 Applications for H1: Instanton Puriflcation . . . . . . . . . . . . . . . . . . 150
7.3.1 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
7.3.2 Evaluation Strategy . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
7.3.3 Training and Search Strategy . . . . . . . . . . . . . . . . . . . . . 154
7.3.4 Veriflcation of Previous Results . . . . . . . . . . . . . . . . . . . . 154
7.3.5 New Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
7.4 Higgs Boson Parity Measurement at a Future Linear Collider . . . . . . . . 162
7.4.1 Data Source and Preprocessing . . . . . . . . . . . . . . . . . . . . 162
7.4.2 Training and Evaluation Strategy . . . . . . . . . . . . . . . . . . . 162
7.4.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.4.4 Future Research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.5 Position Measurement for a Small-Angle Neutron Scattering Detector . . . 170
7.5.1 Data Sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
7.5.2 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.5.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.6 Applications for the MAGIC Telescope . . . . . . . . . . . . . . . . . . . . 177
7.6.1 Gamma-Hadron Separation . . . . . . . . . . . . . . . . . . . . . . 177
7.6.2 Energy Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7.6.3 Future Research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
7.7 Applications for the XEUS satellite . . . . . . . . . . . . . . . . . . . . . . 195
7.7.1 Pileup Rejection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
7.7.2 Sub-pixel Resolution . . . . . . . . . . . . . . . . . . . . . . . . . . 203
8 Discussion 213
8.1 Physics Results with Statistical Learning Methods . . . . . . . . . . . . . . 213
8.2 Performance of Statistical Learning Methods . . . . . . . . . . . . . . . . . 214
8.3 Control of Statistical Learning Methods . . . . . . . . . . . . . . . . . . . . 215
8.4 Handling of Methods . . . . . . . . . . . . . . . . . . . 217
8.5 The \Best Learning Method" . . . . . . . . . . . . . . . . . . . . . . . . . 218
8.6 Artiflcial Intelligence in Statistical Learning Methods . . . . . . . . . . . . 218
8.7 The Future of Statistical Learning in Physics Analysis . . . . . . . . . . . . 219
9 Conclusion 221
A Statistical Learning Methods in Hardware 223viii CONTENTS
B Implementation Details 227
B.1 Preprocessing for the Pixel-detector . . . . . . . . . . . . . . . . . . . . . . 227
B.1.1 Correction of detector and readout efiects . . . . . . . . . . . . . . 227
B.1.2 Signal Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
B.2 Analysis of the Mesh Experiment . . . . . . . . . . . . . . . . . . . . . . . 229
B.3 Automatic Parameter Optimisation . . . . . . . . . . . . . . . . . . . . . . 231
B.3.1 Parameters for Neural Networks . . . . . . . . . . . . . . . . . . . . 231
B.3.2 P for Support Vector Machines . . . . . . . . . . . . . . . 232
B.3.3 Parameters for Random Forests . . . . . . . . . . . . . . . . . . . . 232
Index 242
Danksagung 250Abstract
This thesis studies the performance of statistical learning methods in high energy and
astrophysics where they have become a standard tool in physics analysis. They are used to
perform complex classiflcation or regression by intelligent pattern recognition. This kind of
artiflcial intelligence is achieved by the principle \learning from examples": The examples
describe the relationship between detector events and their classiflcation.
The application of statistical learning methods is either motivated by the lack of know-
ledge about this relationship or by tight time restrictions. In the flrst case learning from
examples is the only possibility since no theory is available which would allow to build an
algorithm in the classical way. In the second case a classical algorithm exists but is too
slow to cope with the time restrictions. It is therefore replaced by a pattern recognition
machine which implements a fast statistical learning method. But even in applications
where some kind of classical algorithm had done a good job, statistical learning methods
convinced by their remarkable performance.
This thesis gives an introduction to statistical learning methods and how they are ap-
plied correctly in physics analysis. Their exibilit y and high performance will be discussed
by showing intriguing results from high energy and astrophysics. These include the de-
velopment of highly e–cient triggers, powerful puriflcation of event samples and exact
reconstruction of hidden event parameters.
The presented studies also show typical problems in the application of statistical learn-
ing methods. They should be only second choice in all cases where an algorithm based
on prior knowledge exists. Some examples in physics analyses are found where these me-
thods are not used in the right way leading either to wrong predictions or bad performance.
Physicists also often hesitate to proflt from these methods because they fear that statistical
learning methods cannot be controlled in a physically correct way. Besides there are many
difierent statistical learning methods to choose from and all the difierent methods have
their advantages and disadvantages { compared to each other and to classical algorithms.
By discussing several examples from high energy and astrophysics experiments the
principles, advantages and weaknesses of all popular statistical learning methods will be
analysed. A focus will be put on neural networks as they form some kind of standard
among difierent learning methods in physics analysis.x ABSTRACT
Zusammenfassung
Die vorliegende Arbeit untersucht die Leistungsf˜ ahigkeit von statistischen Lernmethoden in
den Bereichen der Hochenergie- und Astrophysik, wo sie heute zu einem Standardhilfsmittel
der physikalischen Analyse geworden sind. Sie werden fur˜ komplexe Klassiflkations- oder
Regressionsaufgaben eingesetzt, die sie durch intelligente Mustererkennung bew˜ altigen.
Diese Form der kunstlic˜ hen Intelligenz wird durch das Prinzip \Lernen an Beispielen"
erreicht, wobei die Beispiele den Zusammenhang zwischen den Detektordaten und deren
Klassiflkation darstellen.
Grunde˜ fur˜ die Anwendung von statistischen Lernmethoden sind entweder ein Man-
gel an Wissen ub˜ er diesen Zusammenhang oder zeitliche Beschr˜ ankungen. Im ersten Fall
ist das Lernen an Beispielen der einzig gangbare Weg, da keine Theorie vorhanden ist,
die das Erstellen eines Algorithmus’ auf klassischem Wege erlauben wurde.˜ Im zweiten
Fall existiert ein klassischer Algorithmus, der aber zu langsam und damit angesichts der
vorgegebenen Zeitanforderungen ungeeignet ist. Er wird deshalb von einer Mustererken-
nungsmaschine ersetzt, die eine schnelle statistische Lernmethode implementiert. Aber
sogar in Anwendungen, in denen ein klassischer Algorithmus gute Dienste tat, ub˜ erzeugten
die Ergebnisse statistischer Lernmethoden.
Diese Arbeit gibt eine Einfuhrung˜ in statistische Lernmethoden und ihre korrekte An-
wendung in der physikalischen Analyse. Ihre Flexibilit˜ at und hohe Leistungsf˜ ahigkeit
werden diskutiert, indem eindrucksvolle Resultate aus der Hochenergie- und Astrophysik
gezeigt werden. Darunter fallen die Entwicklung hoch e–zienter Trigger, die e–ziente
Bereinigung von Datens˜ atzen und die exakte Rekonstruktion versteckter Parameter eines
Ereignisses.
Die vorliegende Untersuchung zeigt darub˜ er hinaus auch typische Probleme der An-
wendung statistischer Lernmethoden auf. Sie sollten in jenen F˜ allen nur die zweite Wahl
sein, in denen ein auf Vorwissen basierender Algorithmus vorhanden ist. Bei nicht korrek-
ter Anwendung fuhren˜ sie zu falschen Vorhersagen oder schlechten Leistungen, wie leider
Beispiele in physikalischen Analysen belegen. Physiker z˜ogern auch oft von diesen Metho-
den zu profltieren, weil sie befurc˜ hten, dass statistische Lernmethoden nicht in physikalisch
ad˜ aquater Weise kontrolliert werden k˜ onnen. Au…erdem gibt es viele verschiedene statis-
tische Lernmethoden, unter denen ausgew˜ ahlt werden muss. Jede einzelne Methode hat
{ verglichen mit den anderen Lernmethoden und klassischen Algorithmen { ihre eigenen
Vor- und Nachteile.
Die Diskussion zahlreicher Beispiele aus Experimenten der Hochenergie- und Astro-
physik analysiert die Prinzipien, Vorteile und Schw˜ achen aller g˜angigen statistischen Lern-
methoden. Ein Schwerpunkt liegt dabei auf neuronalen Netzen, da diese eine Art Standard
unter den verschiedenen Lernmethoden in der physikalischen Analyse darstellen.