RapidMiner 4.4

RapidMiner 4.4

English
677 Pages
Read
Download
Downloading requires you to have access to the YouScribe library
Learn all about the services we offer

Description

RapidMiner 4.4
User Guide
Operator Reference
Developer Tutorial 2
Rapid-I GmbH
Stockumer Str. 475
44227 Dortmund, Germany
http://www.rapidminer.com/
Copyright 2001-2009 by Rapid-I
March 14, 2009 Contents
1 Introduction 29
1.1 Modeling Knowledge Discovery Processes as Operator Trees . . 30
1.2 RapidMiner as a Data Mining Interpreter . . . . . . . . . . . 30
1.3 Di erent Ways of Using RapidMiner . . . . . . . . . . . . . . 32
1.4 Multi-Layered Data View Concept . . . . . . . . . . . . . . . . 32
1.5 Transparent Data Handling . . . . . . . . . . . . . . . . . . . . 33
1.6 Meta Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.7 Large Number of Built-in Data Mining Operators . . . . . . . . 33
1.8 Extending RapidMiner . . . . . . . . . . . . . . . . . . . . . 34
1.9 Example Applications . . . . . . . . . . . . . . . . . . . . . . . 35
1.10 How this tutorial is organized . . . . . . . . . . . . . . . . . . . 36
2 Installation and starting notes 37
2.1 Download . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2 Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.1 Installing the Windows executable . . . . . . . . . . . . 37
2.2.2 the Java version (any platform) . . . . . . . . 38
2.3 Starting RapidMiner . . . . . . . . . . . . . . . . . . . . . . 38
2.4 Memory Usage . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.5 Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6 General settings . ...

Subjects

Informations

Published by
Reads 347
Language English
Document size 2 MB
Report a problem
RapidMiner 4.4 User Guide Operator Reference Developer Tutorial 2 Rapid-I GmbH Stockumer Str. 475 44227 Dortmund, Germany http://www.rapidminer.com/ Copyright 2001-2009 by Rapid-I March 14, 2009 Contents 1 Introduction 29 1.1 Modeling Knowledge Discovery Processes as Operator Trees . . 30 1.2 RapidMiner as a Data Mining Interpreter . . . . . . . . . . . 30 1.3 Di erent Ways of Using RapidMiner . . . . . . . . . . . . . . 32 1.4 Multi-Layered Data View Concept . . . . . . . . . . . . . . . . 32 1.5 Transparent Data Handling . . . . . . . . . . . . . . . . . . . . 33 1.6 Meta Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 1.7 Large Number of Built-in Data Mining Operators . . . . . . . . 33 1.8 Extending RapidMiner . . . . . . . . . . . . . . . . . . . . . 34 1.9 Example Applications . . . . . . . . . . . . . . . . . . . . . . . 35 1.10 How this tutorial is organized . . . . . . . . . . . . . . . . . . . 36 2 Installation and starting notes 37 2.1 Download . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2 Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2.1 Installing the Windows executable . . . . . . . . . . . . 37 2.2.2 the Java version (any platform) . . . . . . . . 38 2.3 Starting RapidMiner . . . . . . . . . . . . . . . . . . . . . . 38 2.4 Memory Usage . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.5 Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.6 General settings . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.7 External Programs . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.8 Database Access . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3 4 CONTENTS 3 First steps 45 3.1 First example . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2 Process con guration les . . . . . . . . . . . . . . . . . . . . . 48 3.3 Parameter Macros . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.4 File formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.4.1 Data les and the attribute description le . . . . . . . . 51 3.4.2 Model les . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.4.3 Attribute construction les . . . . . . . . . . . . . . . . 55 3.4.4 Parameter set les . . . . . . . . . . . . . . . . . . . . . 56 3.4.5 Attribute weight les . . . . . . . . . . . . . . . . . . . 56 3.5 File format summary . . . . . . . . . . . . . . . . . . . . . . . 57 4 Advanced processes 59 4.1 Feature selection . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.2 Splitting up Processes . . . . . . . . . . . . . . . . . . . . . . . 61 4.2.1 Learning a model . . . . . . . . . . . . . . . . . . . . . 61 4.2.2 Applying the model . . . . . . . . . . . . . . . . . . . . 61 4.3 Parameter and performance analysis . . . . . . . . . . . . . . . 63 4.4 Support and tips . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5 Operator reference 69 5.1 Basic operators . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.1.1 ModelApplier . . . . . . . . . . . . . . . . . . . . . . . 70 5.1.2 ModelGrouper . . . . . . . . . . . . . . . . . . . . . . . 70 5.1.3 ModelUngrouper . . . . . . . . . . . . . . . . . . . . . . 71 5.1.4 ModelUpdater . . . . . . . . . . . . . . . . . . . . . . . 72 5.1.5 OperatorChain . . . . . . . . . . . . . . . . . . . . . . . 72 5.2 Core operators . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.2.1 CommandLineOperator . . . . . . . . . . . . . . . . . . 74 5.2.2 DataMacroDe nition . . . . . . . . . . . . . . . . . . . 75 5.2.3 Experiment . . . . . . . . . . . . . . . . . . . . . . . . 76 March 14, 2009 CONTENTS 5 5.2.4 FileEcho . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2.5 IOConsumer . . . . . . . . . . . . . . . . . . . . . . . . 78 5.2.6 IOMultiplier . . . . . . . . . . . . . . . . . . . . . . . . 79 5.2.7 IORetriever . . . . . . . . . . . . . . . . . . . . . . . . 79 5.2.8 IOSelector . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.2.9 IOStorer . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2.10 MacroConstruction . . . . . . . . . . . . . . . . . . . . 82 5.2.11 MacroDe nition . . . . . . . . . . . . . . . . . . . . . . 85 5.2.12 MaterializeDataInMemory . . . . . . . . . . . . . . . . . 86 5.2.13 MemoryCleanUp . . . . . . . . . . . . . . . . . . . . . . 87 5.2.14 Process . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.2.15 SQLExecution . . . . . . . . . . . . . . . . . . . . . . . 88 5.2.16 SingleMacroDe nition . . . . . . . . . . . . . . . . . . . 89 5.3 Input/Output operators . . . . . . . . . . . . . . . . . . . . . . 91 5.3.1 AccessExampleSource . . . . . . . . . . . . . . . . . . . 91 5.3.2 Ar ExampleSetWriter . . . . . . . . . . . . . . . . . . . 92 5.3.3 Ar ExampleSource . . . . . . . . . . . . . . . . . . . . 92 5.3.4 AttributeConstructionsLoader . . . . . . . . . . . . . . . 94 5.3.5 AttributeConstructionsWriter . . . . . . . . . . . . . . . 95 5.3.6 AttributeWeightsLoader . . . . . . . . . . . . . . . . . . 96 5.3.7 AeightsWriter . . . . . . . . . . . . . . . . . . 96 5.3.8 BibtexExampleSource . . . . . . . . . . . . . . . . . . . 97 5.3.9 C45ExampleSource . . . . . . . . . . . . . . . . . . . . 98 5.3.10 CSVExampleSetWriter . . . . . . . . . . . . . . . . . . 100 5.3.11 CSVExampleSource . . . . . . . . . . . . . . . . . . . . 101 5.3.12 CachedDatabaseExampleSource . . . . . . . . . . . . . 102 5.3.13 ChurnReductionExampleSetGenerator . . . . . . . . . . 104 5.3.14 ClusterModelReader . . . . . . . . . . . . . . . . . . . . 105 5.3.15delWriter . . . . . . . . . . . . . . . . . . . . 105 5.3.16 DBaseExampleSource . . . . . . . . . . . . . . . . . . . 106 The RapidMiner 4.4 Tutorial 6 CONTENTS 5.3.17 DasyLabExampleSource . . . . . . . . . . . . . . . . . . 106 5.3.18 DatabaseExampleSetWriter . . . . . . . . . . . . . . . . 107 5.3.19 DatabaseExampleSource . . . . . . . . . . . . . . . . . 108 5.3.20 DirectMailingExampleSetGenerator . . . . . . . . . . . . 111 5.3.21 ExampleSetGenerator . . . . . . . . . . . . . . . . . . . 111 5.3.22 ExampleSetWriter . . . . . . . . . . . . . . . . . . . . . 112 5.3.23 ExampleSource . . . . . . . . . . . . . . . . . . . . . . 114 5.3.24 ExcelExampleSetWriter . . . . . . . . . . . . . . . . . . 117 5.3.25 ExcelExampleSource . . . . . . . . . . . . . . . . . . . . 117 5.3.26 GnuplotWriter . . . . . . . . . . . . . . . . . . . . . . . 118 5.3.27 IOContainerReader . . . . . . . . . . . . . . . . . . . . 119 5.3.28 IOContainerWriter . . . . . . . . . . . . . . . . . . . . . 120 5.3.29 IOObjectReader . . . . . . . . . . . . . . . . . . . . . . 120 5.3.30 IOObjectWriter . . . . . . . . . . . . . . . . . . . . . . 121 5.3.31 MassiveDataGenerator . . . . . . . . . . . . . . . . . . 122 5.3.32 ModelLoader . . . . . . . . . . . . . . . . . . . . . . . . 123 5.3.33 ModelWriter . . . . . . . . . . . . . . . . . . . . . . . . 123 5.3.34 MultipleLabelGenerator . . . . . . . . . . . . . . . . . . 124 5.3.35 NominalExampleSetGenerator . . . . . . . . . . . . . . . 125 5.3.36 ParameterSetLoader . . . . . . . . . . . . . . . . . . . . 126 5.3.37 ParameterSetWriter . . . . . . . . . . . . . . . . . . . . 127 5.3.38 PerformanceLoader . . . . . . . . . . . . . . . . . . . . 127 5.3.39 PerformanceWriter . . . . . . . . . . . . . . . . . . . . 128 5.3.40 ResultWriter . . . . . . . . . . . . . . . . . . . . . . . . 129 5.3.41 SPSSExampleSource . . . . . . . . . . . . . . . . . . . 129 5.3.42 SalesExampleSetGenerator . . . . . . . . . . . . . . . . 130 5.3.43 SimpleExampleSource . . . . . . . . . . . . . . . . . . . 131 5.3.44 SingleTextObjectInput . . . . . . . . . . . . . . . . . . . 133 5.3.45 SparseFormatExampleSource . . . . . . . . . . . . . . . 134 5.3.46 StataExampleSource . . . . . . . . . . . . . . . . . . . 135 March 14, 2009 CONTENTS 7 5.3.47 TeamPro tExampleSetGenerator . . . . . . . . . . . . . 136 5.3.48 TextCleaner . . . . . . . . . . . . . . . . . . . . . . . . 137 5.3.49 TextExtractor . . . . . . . . . . . . . . . . . . . . . . . 137 5.3.50 TextObject2ExampleSet . . . . . . . . . . . . . . . . . . 138 5.3.51 TextObjectLoader . . . . . . . . . . . . . . . . . . . . . 139 5.3.52 TextObjectWriter . . . . . . . . . . . . . . . . . . . . . 139 5.3.53 TextSegmenter . . . . . . . . . . . . . . . . . . . . . . 140 5.3.54 ThresholdLoader . . . . . . . . . . . . . . . . . . . . . . 141 5.3.55 ThresholdWriter . . . . . . . . . . . . . . . . . . . . . . 141 5.3.56 TransfersExampleSetGenerator . . . . . . . . . . . . . . 142 5.3.57 UpSellingExampleSetGenerator . . . . . . . . . . . . . . 143 5.3.58 WekaModelLoader . . . . . . . . . . . . . . . . . . . . . 143 5.3.59 Xr ExampleSetWriter . . . . . . . . . . . . . . . . . . . 144 5.3.60 Xr ExampleSource . . . . . . . . . . . . . . . . . . . . 145 5.4 Learning schemes . . . . . . . . . . . . . . . . . . . . . . . . . 148 5.4.1 AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . 148 5.4.2 AdditiveRegression . . . . . . . . . . . . . . . . . . . . 149 5.4.3 AgglomerativeClustering . . . . . . . . . . . . . . . . . 150 5.4.4 AssociationRuleGenerator . . . . . . . . . . . . . . . . . 151 5.4.5 AttributeBasedVote . . . . . . . . . . . . . . . . . . . . 152 5.4.6 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . 153 5.4.7 BasicRuleLearner . . . . . . . . . . . . . . . . . . . . . 154 5.4.8 BayesianBoosting . . . . . . . . . . . . . . . . . . . . . 154 5.4.9 BestRuleInduction . . . . . . . . . . . . . . . . . . . . . 156 5.4.10 Binary2MultiClassLearner . . . . . . . . . . . . . . . . . 157 5.4.11 CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 5.4.12 Classi cationByRegression . . . . . . . . . . . . . . . . 160 5.4.13 Cluster2Prediction . . . . . . . . . . . . . . . . . . . . . 160 5.4.14 ClusterModel2ExampleSet . . . . . . . . . . . . . . . . 161 5.4.15 CostBasedThresholdLearner . . . . . . . . . . . . . . . . 162 The RapidMiner 4.4 Tutorial 8 CONTENTS 5.4.16 DBScanClustering . . . . . . . . . . . . . . . . . . . . . 163 5.4.17 DecisionStump . . . . . . . . . . . . . . . . . . . . . . 164 5.4.18 DecisionTree . . . . . . . . . . . . . . . . . . . . . . . . 165 5.4.19 DefaultLearner . . . . . . . . . . . . . . . . . . . . . . . 166 5.4.20 EMClustering . . . . . . . . . . . . . . . . . . . . . . . 167 5.4.21 EvoSVM . . . . . . . . . . . . . . . . . . . . . . . . . . 168 5.4.22 ExampleSet2ClusterModel . . . . . . . . . . . . . . . . 170 5.4.23 ExampleSet2Similarity . . . . . . . . . . . . . . . . . . . 171 5.4.24rityExampleSet . . . . . . . . . . . . 172 5.4.25 FPGrowth . . . . . . . . . . . . . . . . . . . . . . . . . 173 5.4.26 FastLargeMargin . . . . . . . . . . . . . . . . . . . . . . 174 5.4.27 FlattenClusterModel . . . . . . . . . . . . . . . . . . . . 175 5.4.28 GPLearner . . . . . . . . . . . . . . . . . . . . . . . . . 176 5.4.29 HyperHyper . . . . . . . . . . . . . . . . . . . . . . . . 177 5.4.30 ID3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 5.4.31 ID3Numerical . . . . . . . . . . . . . . . . . . . . . . . 179 5.4.32 IteratingGSS . . . . . . . . . . . . . . . . . . . . . . . . 180 5.4.33 JMySVMLearner . . . . . . . . . . . . . . . . . . . . . . 181 5.4.34 KMeans . . . . . . . . . . . . . . . . . . . . . . . . . . 183 5.4.35 KMedoids . . . . . . . . . . . . . . . . . . . . . . . . . 184 5.4.36 KernelKMeans . . . . . . . . . . . . . . . . . . . . . . . 185 5.4.37 KernelLogisticRegression . . . . . . . . . . . . . . . . . 187 5.4.38 LibSVMLearner . . . . . . . . . . . . . . . . . . . . . . 188 5.4.39 LinearDiscriminantAnalysis . . . . . . . . . . . . . . . . 190 5.4.40 LinearRegression . . . . . . . . . . . . . . . . . . . . . . 191 5.4.41 LogisticRegression . . . . . . . . . . . . . . . . . . . . . 192 5.4.42 MetaCost . . . . . . . . . . . . . . . . . . . . . . . . . 193 5.4.43 MultiCriterionDecisionStump . . . . . . . . . . . . . . . 194 5.4.44 MyKLRLearner . . . . . . . . . . . . . . . . . . . . . . 195 5.4.45 NaiveBayes . . . . . . . . . . . . . . . . . . . . . . . . 196 March 14, 2009 CONTENTS 9 5.4.46 NearestNeighbors . . . . . . . . . . . . . . . . . . . . . 197 5.4.47 NeuralNet . . . . . . . . . . . . . . . . . . . . . . . . . 198 5.4.48 NeuralNetSimple . . . . . . . . . . . . . . . . . . . . . 200 5.4.49 OneR . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 5.4.50 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . 202 5.4.51 PolynomialRegression . . . . . . . . . . . . . . . . . . . 203 5.4.52 PsoSVM . . . . . . . . . . . . . . . . . . . . . . . . . . 204 5.4.53 QuadraticDiscriminantAnalysis . . . . . . . . . . . . . . 205 5.4.54 RVMLearner . . . . . . . . . . . . . . . . . . . . . . . . 206 5.4.55 RandomFlatClustering . . . . . . . . . . . . . . . . . . . 208 5.4.56 RandomForest . . . . . . . . . . . . . . . . . . . . . . . 208 5.4.57 RandomTree . . . . . . . . . . . . . . . . . . . . . . . . 210 5.4.58 RegularizedDiscriminantAnalysis . . . . . . . . . . . . . 211 5.4.59 RelativeRegression . . . . . . . . . . . . . . . . . . . . . 212 5.4.60 RelevanceTree . . . . . . . . . . . . . . . . . . . . . . . 213 5.4.61 RuleLearner . . . . . . . . . . . . . . . . . . . . . . . . 214 5.4.62 Similarity2ExampleSet . . . . . . . . . . . . . . . . . . . 215 5.4.63 Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . 216 5.4.64 SubgroupDiscovery . . . . . . . . . . . . . . . . . . . . 217 5.4.65 SupportVectorClustering . . . . . . . . . . . . . . . . . 218 5.4.66 TopDownClustering . . . . . . . . . . . . . . . . . . . . 219 5.4.67 TransformedRegression . . . . . . . . . . . . . . . . . . 220 5.4.68 Tree2RuleConverter . . . . . . . . . . . . . . . . . . . . 221 5.4.69 Vote . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 5.4.70 W-ADTree . . . . . . . . . . . . . . . . . . . . . . . . . 222 5.4.71 W-AODE . . . . . . . . . . . . . . . . . . . . . . . . . 223 5.4.72 W-AODEsr . . . . . . . . . . . . . . . . . . . . . . . . 224 5.4.73 W-AdaBoostM1 . . . . . . . . . . . . . . . . . . . . . . 225 5.4.74 W-AdditiveRegression . . . . . . . . . . . . . . . . . . . 226 5.4.75 W-Apriori . . . . . . . . . . . . . . . . . . . . . . . . . 227 The RapidMiner 4.4 Tutorial 10 CONTENTS 5.4.76 W-BFTree . . . . . . . . . . . . . . . . . . . . . . . . . 228 5.4.77 W-BIFReader . . . . . . . . . . . . . . . . . . . . . . . 229 5.4.78 W-Bagging . . . . . . . . . . . . . . . . . . . . . . . . 230 5.4.79 W-BayesNet . . . . . . . . . . . . . . . . . . . . . . . . 231 5.4.80 W-BayesNetGenerator . . . . . . . . . . . . . . . . . . . 232 5.4.81 W-BayesianLogisticRegression . . . . . . . . . . . . . . 233 5.4.82 W-CLOPE . . . . . . . . . . . . . . . . . . . . . . . . . 234 5.4.83 W-CitationKNN . . . . . . . . . . . . . . . . . . . . . . 235 5.4.84 W-ClassBalancedND . . . . . . . . . . . . . . . . . . . 236 5.4.85 W-Classi cationViaClustering . . . . . . . . . . . . . . . 237 5.4.86 W-Cobweb . . . . . . . . . . . . . . . . . . . . . . . . . 238 5.4.87 W-ComplementNaiveBayes . . . . . . . . . . . . . . . . 239 5.4.88 W-ConjunctiveRule . . . . . . . . . . . . . . . . . . . . 240 5.4.89 W-CostSensitiveClassi er . . . . . . . . . . . . . . . . . 241 5.4.90 W-DMNBtext . . . . . . . . . . . . . . . . . . . . . . . 242 5.4.91 W-DTNB . . . . . . . . . . . . . . . . . . . . . . . . . 243 5.4.92 W-Dagging . . . . . . . . . . . . . . . . . . . . . . . . 244 5.4.93 W-DataNearBalancedND . . . . . . . . . . . . . . . . . 245 5.4.94 W-DecisionStump . . . . . . . . . . . . . . . . . . . . . 246 5.4.95 W-DecisionTable . . . . . . . . . . . . . . . . . . . . . 247 5.4.96 W-Decorate . . . . . . . . . . . . . . . . . . . . . . . . 248 5.4.97 W-EM . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 5.4.98 W-END . . . . . . . . . . . . . . . . . . . . . . . . . . 250 5.4.99 W-EditableBayesNet . . . . . . . . . . . . . . . . . . . 251 5.4.100 W-EnsembleSelection . . . . . . . . . . . . . . . . . . . 252 5.4.101 W-FLR . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 5.4.102 W-FT . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 5.4.103 W-FarthestFirst . . . . . . . . . . . . . . . . . . . . . . 256 5.4.104 W-GaussianProcesses . . . . . . . . . . . . . . . . . . . 256 5.4.105 W-GeneralizedSequentialPatterns . . . . . . . . . . . . . 257 March 14, 2009