Text-based similarity searching for hit- and lead-candidate identification [Elektronische Ressource] / von Volker Dirk Hähnke

-

English
261 Pages
Read an excerpt
Gain access to the library to view online
Learn more

Description

Text-Based Similarity Searching for Hit- and Lead-Candidate Identification Dissertation zur Erlangung des Doktorgrades der Naturwissenschaften vorgelegt beim Fachbereich Biowissenschaften (15) der Johann Wolfgang Goethe-Universität in Frankfurt am Main von Volker Dirk Hähnke aus Frankfurt am Main Frankfurt 2010 (D 30) vom Fachbereich Biowissenschaften (15) der Johann Wolfgang Goethe-Universität als Dissertation angenommen Dekan: Prof. Dr. Anna Starzinski-Powitz Gutachter: Prof. Dr. Gisbert Schneider Prof. Dr. Ina Koch Datum der Disputation: ……………………................................... “Gegenüber der Fähigkeit, die Arbeit eines einzigen Tages sinnvoll zu ordnen, ist alles andere im Leben ein Kinderspiel.” Johann Wolfgang von Goethe (28.8.1749 – 22.3.1832) Table of Contents !1 - Abbreviations 6 2 - Zusammenfassung 9 3 - Abstract 14 4 - Introduction 16 4.1 - The Drug Development Process 16 4.2 - From High-Throughput Screening to Virtual Screening 17 4.3 - Chemical Similarity 21 4.4 - Line Notations 23 4.4.1 - Wiswesser Line-Formula Notation 24 4.4.2 - Representation of Organic Structures Description Arranged Linearly 25 4.4.3 - Simplified Molecular Input Line Entry System 26 4.4.4 - IUPAC International Chemical Identifier 26 4.5 - Virtual Screening employing Line Notations 29 4.5.1 - LINGO 30 4.5.

Subjects

Informations

Published by
Published 01 January 2010
Reads 11
Language English
Document size 10 MB
Report a problem






Text-Based Similarity Searching for Hit- and Lead-Candidate Identification



Dissertation
zur Erlangung des Doktorgrades
der Naturwissenschaften


vorgelegt beim Fachbereich Biowissenschaften (15)
der Johann Wolfgang Goethe-Universität
in Frankfurt am Main


von
Volker Dirk Hähnke
aus Frankfurt am Main


Frankfurt 2010
(D 30)







vom Fachbereich Biowissenschaften (15) der

Johann Wolfgang Goethe-Universität als Dissertation angenommen






Dekan: Prof. Dr. Anna Starzinski-Powitz

Gutachter: Prof. Dr. Gisbert Schneider
Prof. Dr. Ina Koch

Datum der Disputation: ……………………...................................




















“Gegenüber der Fähigkeit, die Arbeit
eines einzigen Tages sinnvoll zu ordnen,
ist alles andere im Leben ein
Kinderspiel.”

Johann Wolfgang von Goethe
(28.8.1749 – 22.3.1832)




Table of Contents
!
1 - Abbreviations 6
2 - Zusammenfassung 9
3 - Abstract 14
4 - Introduction 16
4.1 - The Drug Development Process 16
4.2 - From High-Throughput Screening to Virtual Screening 17
4.3 - Chemical Similarity 21
4.4 - Line Notations 23
4.4.1 - Wiswesser Line-Formula Notation 24
4.4.2 - Representation of Organic Structures Description Arranged Linearly 25
4.4.3 - Simplified Molecular Input Line Entry System 26
4.4.4 - IUPAC International Chemical Identifier 26
4.5 - Virtual Screening employing Line Notations 29
4.5.1 - LINGO 30
4.5.2 - Comparison by Compression 30
4.5.3 - General String Metrics 31
5 - Study Objective 32
5.1 - Pharmacophore Alignment Search Tool (PhAST) 32
5.2 - Preliminary Parameterization 39
5.2.1 - Scoring System 39
5.2.2 - Alignment Evaluation 40
5.3 - Retrospective Evaluation 41
5.3.1 - Dataset 41
5.3.2 - Performance Measure 41
5.3.3 - Significance Assessment 44
6 - Influence of Canonical Atom Labeling on Similarity Searching 45
6.1 - Motivation 45
6.2 - Discussion 47
7 - Influence of the Third Dimension on Text-based Similarity Searching 49
7.1 - Motivation 49
7.2 - Discussion 50
8 - Influence of Scoring Systems on Text-based Similarity Searching 52
8.1 - Motivation 52
8.2 - Discussion 53
9 - Comparison of Text-Based Virtual Screening Techniques 55
10 - Significance-Assesment in Global Sequence Alignment 57
10.1 - Motivation 57
10.2 - Calculation of p-values 58
10.2.1 - Simple Sampling 59
10.2.2 - Sampling of Rare Events 60
10.3 - Retrospective Evaluation 64
10.3.1 Parameterization 64
10.3.2 - Results and Discussion 65
10.4 - Calculation of E-values 67
10.5 - Discussion 69
!
4!11 - Prospective Application 73
11.1 - Bacterial Thymidinkinase of Staphylococcus aureus 73
11.2 - Application to !-Secretase 75
12 - Conclusions 79
13 - Outlook 81
14 - List of Publications 84
15 - References 88
16 - Acknowledgements 102
17 - Appendix 103
Appendix A
Appendix B
Appendix C
Appendix D
18 - Curriculum Vitae
!
!
5!1 - Abbreviations

2D two-dimensional
3D three-dimensional
A! Amyloid-!
ACE Angiotensine-converting enzyme
AD Alzheimer's Disease
APP Amyloid Precursor Protein
AWLN Advanced Wiswesser Line-Formula Notation
BEDROC Boltzmann-enhanced Receiver Operating Characteristic
BLOSUM Block Substitution Matrix
CANGEN Canonization and Generation
CbC Comparison by Compression
COBRA Collection Of Bioactive Reference Analogues
COX Cyclooxygenase
CROSSBOW Computer Retrieval of Organic SubStructures by means of Wiswesser
CSI Chemical Substructure Index
CUDA Compute Unified Device Architecture
DDP Double Dynamic Programming
DHFR Dihydrofolatreductase
dMTP Deoxythymidine Monophosphate
EF Enrichment Factor
ELISA Enzyme-linked immunosorbent assay
FAST Fragment Alignment Search Tool
FDA Food and Drug Administration
FPGA Field Programmable Gate Array
FSM Finite State Machine
FXA Factor Xa
GPU Graphics Processing Unit
GS "-Secretase
GSI " -Secretase Inhibitor
GSM " -Secretase Modulator
6!HTS High Throughput Screening
IC Inhibitory Concentration 50% 50
InChi International Union of Pure and Applied Chemistry International
Chemical Identifier
InChiKey International Union of Pure and Applied Chemistry International
Chemical Identifier Key
IUPAC International Union of Pure and Applied Chemistry
LBVS Ligand-based Virtual Screening
MCMC Marcov Chain Monte Carlo
MCMCMC Metropolis-coupled Marcov Chain Monte Carlo
MCS Maximal Common Subgraph
MIC Minimal Inhibitory Concentration
MOE Molecular Operating Environment
MOS Maximum Overlapping Set
MQL Molecular Query Language
NID Normalized Information Distance
NIST National Institute of Standard and Technology
NP Non-deterministic Polynomial Time
NSAID Non-Steroidal Anti-Inflammatory Drug
OpenGL Open Graphics Library
PAM Point Accepted Mutations
PhAST Pharmacophore Alignment Search Tool
PID Percent Sequence Identity
PPAR Peroxisome-Proliferator Activated Receptor
PPP Potential Pharmacophoric Point
PSI-BLAST Position-Specific Iterated Basic Local Alignment Search Tool
RMSE Root Mean Squared Error
ROC Receiver Operating Characteristic
ROCAUC Receiver Operating Characteristic Area Under Curve
ROSDAL Representation of Organic Structures Description Arranged Linearly
SBVS Structure-based Virtual Screening
SHA Secure Hash Algorithm
SMILES Simplified Molecular Input Line Entry System
SPP Similar Property Principle
7!SSE2 Streaming Single Instruction Multiple Data Streams Extensions 2
SXT combination of Trimethoprim and Sulfamethoxazole
THR Thrombine
VEGFR Vascular Endothelial Growth-Factor Receptor
VS Virtual Screening
WLN Wiswesser Line-Formula Notation

8!2 - Zusammenfassung

Die Entwicklung neuer Wirkstoffe ist ein langiweriger und kostenintensiver Prozess, der bis
zu 15 Jahre dauern und 2 Millarden Dollar kosten kann. Das ‚High Throughput Screening’
(HTS) hat sich in diesem Prozess als Technik für die Identifizierung vielversprechender
Startstrukturen, so genannter ‚Hits’, etabliert. Während eines HTS werden 50.000 bis 100.000
Substanzen automatisiert in einem Assay auf ihre biologische Aktivität getestet. Setzt man
diese Anzahl evaluierter Substanzen in Relation zu vorsichtigen Schätzungen der Gesamtzahl
60möglicher wirkstoffartiger Verbindungen (10 ), wird klar, dass mit HTS allein ein großer
Teil dieses ‚Chemischen Raums’ unerforscht bleibt.
Eine schnellere Alternative bieten computerbasierte Methoden. Ist eine Struktur mit
einer gewünschten biologischen Wirkung bekannt, ist es mit diesen Methoden möglich, die
Einträge in Molekülsammlungen nach ihrer berechneten Ähnlichkeit zu dieser
Referenzstruktur zu sortieren. Diese Technik wird als virtuelles Screening bezeichnet. Die
Annahme hierbei ist, dass Substanzen, die als ähnlich zur verwendeten Referenzstruktur
bewertet werden auch in ihren biologischen Wirkeigenschaften ähnlich zu dieser sind.
In dieser Arbeit wurde eine neue Methode entwickelt und evaluiert, mit der sich die
Ähnlichkeit zweier Moleküle berechnen lässt. Die Bezichnung dieser Methode ist
‚Pharmacophore Alignment Search Tool’ (PhAST). In dieser Methode werden Moleküle
verglichen durch paarweises globales Sequenzalignment, einer Technik für den Vergleich von
Zeichenketten. Sie wurde bisher nur auf Sequenzen aus Aminosäuren oder Nukleotiden
angewendet, um Homologe zu identifizieren. In einem Sequenzalignment werden die
Symbole zweier Sequenzen einander zugeordnet, wobei die Reihenfolge der Symbole
innerhalb jeder Sequenz erhalten bleibt. Das Einfügen von Lücken (‚Gaps’) in Sequenzen ist
erlaubt, wenn es die Gesamtzuordnung verbessert. Werden gleiche Symbole einander
zugeordnet, wird dies als ‚Match’ bezeichnet, bei ungleichen Symbolen wird dies als
‚Mismatch’ bezeichnet. Jedes dieser Ereignisse wird bewertet. Der Score eines Alignments
wird berechnet als die Summe der Einzelbewertungen. Die in dieser Arbeit verwendeten
Algorithmen berechnen stets das ‚optimale’ Alignment, also das, das den höchstmöglichen
Alignment Score hat.
Bedingt durch die Unterschiede zwischen Biopolymeren und wirkstoffartigen
Molekülen wurde Sequenzalignment auf die Problemstellung des Molekülvergleichs
angepasst und neue parametrisiert. Mit allen Parametrisierungen wurde PhAST in
9!retrospektiven Screenings auf seine Fähigkeit getestet, mit einer aktiven Substanz als
Referenz andere aktive Substanzen zu erkennen und für diese höhere Ähnlichkeiten zu
berechnen als für inaktive Substanzen. Werden die Einträge einer Molekülsammlung nach
den berechneten Ähnlichkeiten absteigend sortiert, konzentrieren sich so die aktiven
Moleküle am Beginn der Rangliste, verglichen mit einer uniformen Verteilung über die
gesamte Molekülsammlung (Anreicherung). Die Grundlage dieser retrospektiven
Experimente war die Wirkstoffsammlung COBRA, die in der verwendeten Version 6.1
insgesamt 8,311 wirkstoffartige Moleküle enthält. Dabei wurden die aktiven Liganden von
insgesamt sechs verschiedenen Zielproteinen jeweils einmal als Referenz verwendet.
PhAST berechnet nicht die strukturelle sondern die funktionelle Ähnlichkeit zwischen
Molekülen. Um dies zu erreichen, wurde eine Abstraktion jedes Moleküls erstellt, die aus
potentiellen Interaktionspunkten besteht. Die Zuweisung dieser Interaktionsmöglichkeiten
geschah basierend auf einer Sammlung von Fragmenten, in der jedem nicht Wasserstoff Atom
eines Fragments bereits eine Interaktionsmöglichkeit zugewiesen war. Immer, wenn ein
Molekül ein Fragment als Substruktur aufwies, wurden die Zuweisungen aus dem Fragment
auf die korrespondierenden Atome des Moleküls übertragen. Insgesamt wurde zwischen den
folgenden neun Interaktionstypen unterschieden: positive Ladung, negative Ladung,
aromatisch, lipophil, Wasserstoffbrücken Akzeptor, Wasserstoffbrücken Akzeptor kombiniert
mit Wasserstoffbrücken Donor, Wasserstoffbrücken Akzeptor kombiniert mit Polarität,
Wasserstoffbrücken Akzeptor kombiniert mit Wasserstoffbrücken Donor und Polarität sowie
keiner möglichen Interaktion. Jeder dieser neun Typen wurde durch ein einziges Symbol
repräsentiert.
Sequenzen aus Aminosäuren oder Nukleotiden sind unverzweigt, azyklisch und
gerichtet. Wirkstoffartige Moleküle hingegen sind verzweigt, enthalten Ringschlüsse und sind
ungerichtet. Um paarweises globales Sequenzalignment zum Vergleich von wirkstoffartigen
Molekülen nutzen zu können, mussten diese folglich zunächst in einer linearisierten Form
gespeichert werden. Die Notwendigkeit dieses Schritts wurde in dieser Arbeit bewiesen. Die
Umwandlung von Molekülen in Zeichenketten muss eindeutig sein in dem Sinn, dass für ein
Molekül nur eine einzige Zeichenkette generiert werden kann. Dies ist notwendig, damit
identische Moleküle durch die Identität ihrer linearen Repräsentationen erkannt werden
können. Um dies sicherzustellen, wurden verschiedene Algorithmen implementiert und
evaluiert, die den Atomen in einem Molekül einen eindeutigen Satz von Indizes zuweisen.
Die Zuweisung der Indizes zu den Atomen ist eindeutig, es wird also jedem Atom stets
derselbe Index zugewisen, unabhängig davon, in welcher Form das Molekül an den
10!