Graph based spatial motion tracking using affine covariant regions [Elektronische Ressource] / vorgelegt von Andreas Haja

-

English
183 Pages
Read an excerpt
Gain access to the library to view online
Learn more

Description

INAUGURAL — DISSERTATIONzurErlangung der DoktorwürdederNaturwissenschaftlich-Mathematischen GesamtfakultätderRuprecht – Karls – UniversitätHeidelbergvorgelegt vonDipl.-Ing. Andreas Hajaaus HannoverTag der mündlichen Prüfung: 18.12.2008Graph-based SpatialMotion Tracking UsingAffine-covariant RegionsGutachter: Prof. Dr. Bernd JähneProf. Dr. Dr. h.c. Hans Georg BockAbstractThis thesis considers the task of spatial motion reconstruction from image sequencesusing a stereoscopic camera setup. In a variety of fields, such as flow analysis in physicsor the measurement of oscillation characteristics and damping behavior in mechanicalengineering, efficient and accurate methods for motion analysis are of great importance.This work discusses each algorithmic step of the motion reconstruction problem usinga set of freely available image sequences. The presented concepts and evaluation resultsare of a generic nature and may thus be applied to a multitude of applications in variousfields, where motion can be observed by two calibrated cameras.The first step in the processing chain of a motion reconstruction algorithm is con-cerned with the automated detection of salient locations (=features or regions) withineach image of a given sequence. In this thesis, detection is directly performed on thenatural texture of the observed objects instead of using artificial marker elements (aswith many currently available methods).

Subjects

Informations

Published by
Published 01 January 2009
Reads 9
Language English
Document size 5 MB
Report a problem

INAUGURAL — DISSERTATION
zur
Erlangung der Doktorwürde
der
Naturwissenschaftlich-Mathematischen Gesamtfakultät
der
Ruprecht – Karls – Universität
Heidelberg
vorgelegt von
Dipl.-Ing. Andreas Haja
aus Hannover
Tag der mündlichen Prüfung: 18.12.2008Graph-based Spatial
Motion Tracking Using
Affine-covariant Regions
Gutachter: Prof. Dr. Bernd Jähne
Prof. Dr. Dr. h.c. Hans Georg BockAbstract
This thesis considers the task of spatial motion reconstruction from image sequences
using a stereoscopic camera setup. In a variety of fields, such as flow analysis in physics
or the measurement of oscillation characteristics and damping behavior in mechanical
engineering, efficient and accurate methods for motion analysis are of great importance.
This work discusses each algorithmic step of the motion reconstruction problem using
a set of freely available image sequences. The presented concepts and evaluation results
are of a generic nature and may thus be applied to a multitude of applications in various
fields, where motion can be observed by two calibrated cameras.
The first step in the processing chain of a motion reconstruction algorithm is con-
cerned with the automated detection of salient locations (=features or regions) within
each image of a given sequence. In this thesis, detection is directly performed on the
natural texture of the observed objects instead of using artificial marker elements (as
with many currently available methods). As one of the major contributions of this work,
five well-known detection methods from the contemporary literature are compared to
each other with regard to several performance measures, such as localization accuracy
or the robustness under perspective distortions. The given results extend the available
literature on the topic and facilitate the well-founded selection of appropriate detectors
according to the requirements of specific target applications.
In the second step, both spatial and temporal correspondences have to be established
between features extracted from different images. With the former, two images taken at
the same time instant but with different cameras are considered (stereo reconstruction)
while with the latter, correspondences are sought between temporally adjacent images
from the same camera instead (monocular feature tracking). With most classical meth-
ods, an observed object is either spatially reconstructed at a single time instant yielding
a set of three-dimensional coordinates, or its motion is analyzed separately within each
camera yielding a set of two-dimensional trajectories.
A major contribution of this thesis is a concept for the unification of both stereo recon-
struction and monocular tracking. Based on sets of two-dimensional trajectories from
each camera of a stereo setup, the proposed method uses a graph-based approach to
find correspondences not between single features but between entire trajectories instead.
Thereby, the influence of locally ambiguous correspondences is mitigated significantly.
The resulting spatial trajectories contain both the three-dimensional structure and the
motion of the observed objects at the same time. To the best knowledge of the author, a
similar concept does not yet exist in the literature. In a detailed evaluation, the superior-
ity of the new method is demonstrated.Zusammenfassung
Die vorliegende Arbeit behandelt das Problem der räumlichen Bewegungsrekonstruktion
aus Bildsequenzen unter Verwendung eines stereoskopischen Kameraaufbaus. Die zu-
verlässige und genaue Bestimmung von Bewegungsparametern spielt eine bedeutende
Rolle in einer Vielzahl von Anwendungsgebieten, z.B. der Analyse von Strömungs-
feldern in der Physik oder der Messung von Schwingungscharakteristiken und des Däm-
pfungsverhaltens im Maschinenbau.
Im Rahmen dieser Arbeit wird jeder Verarbeitungsschritt des Rekonstruktionsprob-
lems anhand von frei verfügbaren Bildsequenzen diskutiert. Die vorgestellten Konzepte
und die Untersuchungsergebnisse sind allgemeiner Natur und können daher auf eine
Vielzahl von Anwendungsfällen übertragen werden, in denen die Beobachtung von Be-
wegung mittels zweier kalibrierter Kameras möglich ist.
Der erste Schritt in der vorgestellten Verarbeitungskette befasst sich mit der automa-
tischen Detektion geeigneter Merkmale (oder Regionen) in jedem Einzelbild einer Bild-
sequenz. Im Rahmen dieser Arbeit erfolgt dieser Schritt direkt auf Basis der Eigentextur
der beobachteten Objekte, d.h. es werden keine künstlichen Messmarken oder sonstige
Markierungselemente verwendet. Als ein wesentlicher Beitrag dieser Arbeit werden fünf
populäre Detektionsmethoden aus der Literatur hinsichtlich verschiedener Leistungskri-
terien miteinander verglichen. Diese beinhalten z.B. die Positionsgenauigkeit der detek-
tierten Merkmale und deren Robustheit gegenüber perspektivischen Verzerrungen des
Bildinhaltes. Die umfangreichen Untersuchungsergebnisse ergänzen die vorhandene
Literatur zum Thema und ermöglichen die wohlbegründete Auswahl eines geeigneten
Detektionsverfahrens anhand der Erfordernisse einer Zielapplikation.
Im zweiten Schritt werden sowohl räumliche als auch zeitliche Korrespondenzen zwi-
schen Merkmalen aus verschiedenen Bildern extrahiert. Erstere werden aus Bilddaten
gewonnen, die zum gleichen Zeitpunkt von unterschiedlichen Kameras erzeugt wurden
(Stereorekonstruktion). Letztere hingegen stammen aus zeitlich benachbarten Bildern
der gleichen Bildsequenz, d.h. die Aufnahme erfolgt unter Verwendung einer einzel-
nen Kamera (monokulare Merkmalsverfolgung). Die meisten klassischen Methoden be-
fassen sich entweder mit der dreidimensionalen Rekonstruktion eines Objektes zu einem
Zeitpunkt oder mit der Analyse dessen zweidimensionaler Bewegung.
Ein weiterer Beitrag dieser Arbeit besteht in einem Konzept zur Vereinigung von
Stereorekonstruktion und monokularer Merkmalsverfolgung. Dieses beinhaltet im Kern
einen graphenbasierten Ansatz zur Korrespondenzanalyse, der anstelle von Einzelmerk-
malen aus zwei Bildern zweidimensionale Merkmalstrajektorien aus mehreren Bildern
als Datenbasis verwendet. Hierdurch wird der Einfluss von Mehrdeutigkeiten deutlich
gesenkt. Ergebnisse dieses Verarbeitungsschrittes sind sowohl die räumliche Struktur
des beobachteten Objektes als auch dessen Bewegung. Nach Kenntnis des Autors ex-
istiert in der Literatur derzeit kein vergleichbares Verfahren. Die Leistungsfähigkeit der
neuen Methode wird anhand von detaillierten Untersuchungen demonstriert.Danksagung
An dieser Stelle möchte ich mich bei allen bedanken, die zum Gelingen dieser Arbeit
beigetragen haben. Mein Dank für die fachliche Betreuung der Arbeit gilt Prof. Bernd
Jähne von der Universität Heidelberg und Dr. Steffen Abraham, die mich mit zahlrei-
chen Anregungen und Ideen nach Kräften unterstützt haben. Weiterhin danke ich den
Hildesheimer Doktoranden und Kollegen der Robert Bosch GmbH für die Zeit, die ich
mit vielen Fragen und Diskussionen beanspruchen durfte.
Meiner Frau Petra danke ich für ihre Geduld, ihr ausdauerndes Verständnis und ihre
emotionale Unterstützung, die mich durch die Verfassung dieser Schrift getragen haben.
Auch meiner Familie sei an dieser Stelle mein besonderer Dank ausgesprochen.
Nicht zuletzt muss hier mein Opa Kurt Schilling erwähnt werden, der mit seiner uner-
müdlichen und geduldigen Mathe-Nachhilfe das Entstehen dieser Arbeit überhaupt erst
ermöglicht hat. Tausend Dank!
viiviiiContents
Contents
1 Introduction 1
2 Evaluation of Region Detectors 7
2.1 Chapter Introduction........................... 7
2.2 Background . .............................. 9
2.2.1 Camera Calibration . . ..................... 9
2.2.2 Feature Detection . . . 14
2.2.3 Rotation-invariant Region Descriptors ............. 24
2.2.4 Homography Estimation From Region Correspondences.... 30
2.3 Measurement Setup and Image Datasets................. 33
2.4 Camera Calibration Results . . 36
2.4.1 Single-Camera Calibration ................... 36
2.4.2 Stereo-Camera 40
2.5 Evaluation . . 43
2.5.1 Homography Estimation Results . . . ............. 43
2.5.2 Region Performance Measures ................. 46
2.5.3 Overlap-based Region Correspondences ............ 53
2.5.4 Descriptor-based Region ........... 61
2.6 Chapter Conclusion ........................... 65
3 Monocular Region Tracking 69
3.1 Chapter Introduction 69
3.2 Background . .............................. 71
3.2.1 An Introduction to Tracking................... 71
3.2.2 Generic Bayesian Filtering Framework ............. 76
3.2.3 The Kalman Filter . . . ..................... 77
3.2.4 Kanade-Lucas-Tomasi Tracker ................. 80
3.3 Concepts for Descriptor-based Region Tracking ............ 83
3.3.1 Multi-Region Tracking Using a Constant Gating Region .... 84
3.3.2gion T Using Kalman-Filtering ........ 87
3.3.3 A Graph-based Approach to Multi-Region Tracking . . .... 95
3.4 Evaluation . . .............................. 102
3.4.1 Tracking Performance Measures . . . ............. 102
3.4.2 Descriptor-based Region Trackers . . 104
ixContents
3.4.3 Kanade-Lucas-Tomasi Tracker: A Reference .......... 118
3.5 Chapter Conclusion ........................... 123
4 Binocular Region Tracking and Spatial Reconstruction 127
4.1 Chapter Introduction 127
4.2 Background: Overview of Stereo Matching Techniques......... 129
4.3 Concepts for Feature-based Stereo Matching . ............. 132
4.3.1 Single-Frame Stereo Matching ................. 132
4.3.2 Multi-Frame Graph-based Stereo Matching........... 135
4.4 Evaluation . . .............................. 139
4.4.1 Matching Performance Measures . . . 139
4.4.2 Single-Frame Stereo Matching 144
4.4.3 Multi-Frame Graph-based Stereo Matching........... 147
4.5 Chapter Conclusion ........................... 154
5 Conclusions 157
Bibliography 161
x