Extracting textual information from images and videos for automatic content-based annotation and retrieval [Elektronische Ressource] / vorgelegt von Julinda Gllavata
235 Pages
English
Gain access to the library to view online
Learn more

Extracting textual information from images and videos for automatic content-based annotation and retrieval [Elektronische Ressource] / vorgelegt von Julinda Gllavata

-

Gain access to the library to view online
Learn more
235 Pages
English

Description

Extracting Textual Information from Imagesand Videos for Automatic Content-BasedAnnotation and RetrievalDissertationzur Erlangung des akademischen GradesDoktor der Naturwissenschaften (Dr. rer. nat)demFachbereich Mathematik und Informatik derPhilipps-Universit¨at Marburgvorgelegt vonJulinda Gllavataaus Durr¨es, AlbanienMarburg/Lahn, 2007Vom Fachbereich Mathematik und Informatik derPhilipps-Universit¨at Marburg als Dissertation am29. Januar 2007 angenommen.Erstgutachter: Prof. Dr. Bernd Freisleben, Philipps-Universit¨at MarburgZweitgutachter: Prof.Dr.ManfredSommer,Philipps-Universit¨atMarburgTag der mu¨ndlichen Pru¨fung: 5. Februar 2007DedicationTo my lovely parents Esi and Meti.Prind¨erve t¨e mi t¨e dashur Esit dhe Metit.AcknowledgementsFirst of all, I would like to express my gratitude to my advisor Prof. Dr.Bernd Freisleben for his invaluable support, guidance and encouragementthroughout this research project. Without the helpful discussions, sugges-tions and insights, this work would not have been completed.I would like to thank Prof. Dr. Manfred Sommer for accepting to act asthe second reviewer of this thesis.The research work presented in this thesis was financially supported bythe Deutsche Forschungsgemeinschaft (SFB/FK 615, Teilprojekt MT) andby Deutscher Akademischer Austausch Dienst (DAAD, Stability Pact forSouth Eastern Europe). The support of these two institutions is gratefullyacknowledged. In this context, I wish to thank Prof.

Subjects

Informations

Published by
Published 01 January 2007
Reads 16
Language English
Document size 9 MB

Exrait

Extracting Textual Information from Images
and Videos for Automatic Content-Based
Annotation and Retrieval
Dissertation
zur Erlangung des akademischen Grades
Doktor der Naturwissenschaften (Dr. rer. nat)
dem
Fachbereich Mathematik und Informatik der
Philipps-Universit¨at Marburg
vorgelegt von
Julinda Gllavata
aus Durr¨es, Albanien
Marburg/Lahn, 2007Vom Fachbereich Mathematik und Informatik der
Philipps-Universit¨at Marburg als Dissertation am
29. Januar 2007 angenommen.
Erstgutachter: Prof. Dr. Bernd Freisleben, Philipps-Universit¨at Marburg
Zweitgutachter: Prof.Dr.ManfredSommer,Philipps-Universit¨atMarburg
Tag der mu¨ndlichen Pru¨fung: 5. Februar 2007Dedication
To my lovely parents Esi and Meti.
Prind¨erve t¨e mi t¨e dashur Esit dhe Metit.Acknowledgements
First of all, I would like to express my gratitude to my advisor Prof. Dr.
Bernd Freisleben for his invaluable support, guidance and encouragement
throughout this research project. Without the helpful discussions, sugges-
tions and insights, this work would not have been completed.
I would like to thank Prof. Dr. Manfred Sommer for accepting to act as
the second reviewer of this thesis.
The research work presented in this thesis was financially supported by
the Deutsche Forschungsgemeinschaft (SFB/FK 615, Teilprojekt MT) and
by Deutscher Akademischer Austausch Dienst (DAAD, Stability Pact for
South Eastern Europe). The support of these two institutions is gratefully
acknowledged. In this context, I wish to thank Prof. Dr. Mira Mezini and
Dr. Jochen Mu¨nch for their support.
I want to thank all the people at the Department of Mathematics and
Computer Science of the University of Marburg for supporting me during my
timehere. Inparticular, IwouldliketothankmycolleagueRalphEwerthfor
the helpful discussions, joint collaborative research and for carefully reading
parts of this thesis. I also would like to thank our secretary Mechthild Keßler
for offering me her help when needed.
Many thanks also go to all my friends, who were so enthusiastic in their
support during the preparation of this thesis and for cheering me up during
much-needed study breaks.
Lovely thanks go also to Artan Gllavata for proof-reading part of this
thesis.
I wish to express sincere appreciation and love to Ermir, for his patience,
understanding and support during all these years. I would also like to thank
him for the collaborative discussions that we had and for spending time for
proof-reading this thesis.
Last, butnotleast, Iamindebtedtomywholefamily, especiallymyfather
MetiandmymotherEsi. Theirunwaveringfaithinmegavemetheconfidence
to pursue my ambitions, and I will forever be thankful for all they have done.The following sentence is written for them in Albanian. Ju falenderoj nga
zemra t¨e gjith¨eve p¨er mb¨eshtetjen e madhe q¨e m¨e keni dh¨en¨e.Abstract
One way to utilize semantic knowledge for annotating databases of digital
imagesandvideosistousethetextualinformationwhichispresent. Usually,
itprovidesimportantinformationaboutthecontentandisaverygoodentity
for queries based on keywords. In this context, the extraction of scene and
artificial text from images and videos is an important research problem, with
the aim of achieving automatic content-based retrieval and summarization of
the visual information. The process of text extraction includes several steps:
• Text detection is aimed at identifying image parts containing text.
• Text localization merges text regions which belong to the same text
candidate and determines the exact text positions.
• Text trackingtracksthelocalized textoversuccessiveframesinavideo.
• Text segmentation and binarization include the separation of the local-
izedtextfromtheimagebackground. Theoutputofthisstepisabinary
image where black text characters appear on a white background.
• Character recognition performs optical character recognition (OCR) on
the binarized image and converts the binarized image to ASCII text.
In this thesis, a robust system for automatically extracting text appear-
ing in images and videos with complex background is presented. Different
algorithms are proposed addressing solutions to different steps of the text ex-
traction process mentioned above. The system can operate on JPEG images
and MPEG-1 videos. The tracking of the text appearing in videos is also
addressed and a novel algorithm is presented. Individual and comparative
experimentalresultsdemonstratetheperformanceoftheproposedalgorithms
for the main processing steps: text detection, localization and segmentation,
and in particular, their combination.Text in images or videos can appear in different scripts, such as Latin,
Ideographic, Arabic, etc. The identification of the used script can help in
improving the segmentation results and in increasing the accuracy of OCR
by choosing the appropriate algorithms. Thus, a novel technique for script
recognition in complex images is presented.
Content-basedmediaretrievalhasreceivedalotofattentionduringthelast
yearsandquerybyexampleisthemostusedmethodology. Inthiscontext, it
may be of interest to search for images of video frames where a text visually
similarwiththeinputtextimageappears. Thus,anoveltechniquethatdeals
with the holistic comparison of text images is proposed. Recently, relevance
feedback methods have attracted researchers due to the possibility they offer
tointeractwiththeusertoincreasetheperformanceofacontent-basedimage
retrieval (CBIR) system. However, due to the increasing number of images
and the need of the user to explore the media before taking a decision, the
employment of techniques to visualize or browse a collection of images is
becoming important. Consequently, several visualization/browsing methods
are proposed to facilitate the interactive exploratory analysis of large image
data sets and assist the user during the semantic search.Zusammenfassung
Die in digitalen Bildern und Videos vorhandene textuelle Information bi-
etet eine hervorragende M¨oglichkeit, um semantisches Wissen in den Prozess
der Indexierung von Bild- und Videodatenbest¨anden einfließen zu lassen.
Die Verbindung dieser Information mit dem Inhalt der digitalen Medien
erm¨oglicht wortbasierte Abfragen, die diese textuelle Information ausnutzen.
Deshalb ist die Textextraktion aus Bildern und Videos im Rahmen von au-
tomatischen inhaltsbasierten Suchsystemen von großer Bedeutung.
Die Textextraktion aus Bildern und Videos besteht aus folgenden Schrit-
ten.
• Die TextdetektiondefiniertdenProzessderIdentifizierungderRegionen
in Bildern, in denen Text erscheint.
• Die Textlokalisierung baut auf der Textdetektion auf und verschmilzt
die gleichem Text zugeh¨origen Regionen zwecks Bestimmung der exak-
ten Textposition.
• Die Textverfolgung in Videos realisiert die Verfolgung von zuvor lokali-
siertem Text u¨ber mehrere aufeinander folgende Einzelbilder hinweg.
• Die Textsegmentierung und Textbina¨risierung ist der Prozess der Tren-
nung der Textpixel und Hintergrundpixel. Die Ausgabe dieses Schritts
ist ein bin¨ares Bild, in dem die Zeichen schwarz auf einem weißen Hin-
tergrund erscheinen.
• Die Zeichenerkennung verfolgt das Ziel der Extraktion von ASCII-Text
aus einem bin¨aren Bild mittels optischer Zeichenerkennung.
Diese Arbeit stellt ein robustes System fu¨r die automatische Extraktion
von Text in Bildern und Videos vor. Verschiedene Algorithmen werden fu¨r
jedesderobengenanntenProblemepr¨asentiert. DasSystemkannsowohlmit
JPEG Bildern als auch mit MPEG-1 Videos arbeiten. Die experimentellenErgebnisse dokumentieren die Gu¨te der einzelnen Schritte und deren Kombi-
nation.
Da Text in Bildern in unterschiedlichen Schriften (z. B. ideographische
Schrift oder lateinische Schrift) erscheinen kann, erm¨oglicht die vorherige
Erkennung der Schrift eine bessere Textsegmentierung oder Texterkennung.
Fu¨r diesen Zweck wird eine Methode zur Schrifterkennung in Bildern mit
komplexem Hintergrund vorgestellt.
Des Weiteren ist eine neue Methode entwickelt worden, um den holistis-
chenVergleichzwischenTextbildernzuerm¨oglichen. ImRahmenderinhalts-
basiertenSuchesindsolcheAns¨atzevonInteresse, umdieSuchenachBildern
mit¨ahnlichenTextvorkommenzuvereinfachen. AußerdemgewinntdieSuche
anhand von Beispielen im Rahmen von inhaltsbasierter Suche zunehmend an
Bedeutung. Seit Kurzem sind Relevanz-Feedback-Verfahren in den Blick-
punkt des Interesses geru¨ckt, da sie Benutzern die M¨oglichkeit bieten, mit
dem System zu interagieren. Daru¨ber hinaus w¨achst der Bedarf fu¨r Metho-
den zur Visualisierung und Exploration (Browsing) von Bilddatenbest¨anden,
begru¨ndet durch deren zunehmende Gr¨oße und dem daraus resultierenden
Benutzerinteresse, schnell und einfach diese großen Best¨ande durchsuchen
zu k¨onnen. Daher werden neue Methoden vorgeschlagen, die den Benutzer
w¨ahrend dieses semantischen Suchprozesses unterstu¨tzen.