RapidMiner 4.6

RapidMiner 4.6

English
695 Pages
Read
Download
Downloading requires you to have access to the YouScribe library
Learn all about the services we offer

Description

RapidMiner 4.6
User Guide
Operator Reference
Developer Tutorial 2
Rapid-I GmbH
Stockumer Str. 475
44227 Dortmund, Germany
http://www.rapidminer.com/
Copyright 2001-2009 by Rapid-I
October 1, 2009 Contents
1 Introduction 29
1.1 Modeling Knowledge Discovery Processes as Operator Trees . . 30
1.2 RapidMiner as a Data Mining Interpreter . . . . . . . . . . . 30
1.3 Di erent Ways of Using RapidMiner . . . . . . . . . . . . . . 32
1.4 Multi-Layered Data View Concept . . . . . . . . . . . . . . . . 32
1.5 Transparent Data Handling . . . . . . . . . . . . . . . . . . . . 33
1.6 Meta Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.7 Large Number of Built-in Data Mining Operators . . . . . . . . 33
1.8 Extending RapidMiner . . . . . . . . . . . . . . . . . . . . . 34
1.9 Example Applications . . . . . . . . . . . . . . . . . . . . . . . 35
1.10 How this tutorial is organized . . . . . . . . . . . . . . . . . . . 36
2 Installation and starting notes 37
2.1 Download . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2 Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.1 Installing the Windows executable . . . . . . . . . . . . 37
2.2.2 the Java version (any platform) . . . . . . . . 38
2.3 Starting RapidMiner . . . . . . . . . . . . . . . . . . . . . . 38
2.4 Memory Usage . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.5 Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6 General settings ...

Subjects

Informations

Published by
Reads 242
Language English
Document size 2 MB
Report a problem
RapidMiner 4.6 User Guide Operator Reference Developer Tutorial 2 Rapid-I GmbH Stockumer Str. 475 44227 Dortmund, Germany http://www.rapidminer.com/ Copyright 2001-2009 by Rapid-I October 1, 2009 Contents 1 Introduction 29 1.1 Modeling Knowledge Discovery Processes as Operator Trees . . 30 1.2 RapidMiner as a Data Mining Interpreter . . . . . . . . . . . 30 1.3 Di erent Ways of Using RapidMiner . . . . . . . . . . . . . . 32 1.4 Multi-Layered Data View Concept . . . . . . . . . . . . . . . . 32 1.5 Transparent Data Handling . . . . . . . . . . . . . . . . . . . . 33 1.6 Meta Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 1.7 Large Number of Built-in Data Mining Operators . . . . . . . . 33 1.8 Extending RapidMiner . . . . . . . . . . . . . . . . . . . . . 34 1.9 Example Applications . . . . . . . . . . . . . . . . . . . . . . . 35 1.10 How this tutorial is organized . . . . . . . . . . . . . . . . . . . 36 2 Installation and starting notes 37 2.1 Download . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2 Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2.1 Installing the Windows executable . . . . . . . . . . . . 37 2.2.2 the Java version (any platform) . . . . . . . . 38 2.3 Starting RapidMiner . . . . . . . . . . . . . . . . . . . . . . 38 2.4 Memory Usage . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.5 Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.6 General settings . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.7 External Programs . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.8 Database Access . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3 4 CONTENTS 3 First steps 45 3.1 First example . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2 Process con guration les . . . . . . . . . . . . . . . . . . . . . 48 3.3 Parameter Macros . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.4 File formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.4.1 Data les and the attribute description le . . . . . . . . 51 3.4.2 Model les . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.4.3 Attribute construction les . . . . . . . . . . . . . . . . 55 3.4.4 Parameter set les . . . . . . . . . . . . . . . . . . . . . 56 3.4.5 Attribute weight les . . . . . . . . . . . . . . . . . . . 56 3.5 File format summary . . . . . . . . . . . . . . . . . . . . . . . 57 4 Advanced processes 59 4.1 Feature selection . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.2 Splitting up Processes . . . . . . . . . . . . . . . . . . . . . . . 61 4.2.1 Learning a model . . . . . . . . . . . . . . . . . . . . . 61 4.2.2 Applying the model . . . . . . . . . . . . . . . . . . . . 61 4.3 Parameter and performance analysis . . . . . . . . . . . . . . . 63 4.4 Support and tips . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5 Operator reference 69 5.1 Basic operators . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.1.1 ModelApplier . . . . . . . . . . . . . . . . . . . . . . . 70 5.1.2 ModelGrouper . . . . . . . . . . . . . . . . . . . . . . . 70 5.1.3 ModelUngrouper . . . . . . . . . . . . . . . . . . . . . . 71 5.1.4 ModelUpdater . . . . . . . . . . . . . . . . . . . . . . . 72 5.1.5 OperatorChain . . . . . . . . . . . . . . . . . . . . . . . 72 5.2 Core operators . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.2.1 CommandLineOperator . . . . . . . . . . . . . . . . . . 74 5.2.2 DataMacroDe nition . . . . . . . . . . . . . . . . . . . 75 5.2.3 Experiment . . . . . . . . . . . . . . . . . . . . . . . . 76 October 1, 2009 CONTENTS 5 5.2.4 FileEcho . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2.5 IOConsumer . . . . . . . . . . . . . . . . . . . . . . . . 78 5.2.6 IOMultiplier . . . . . . . . . . . . . . . . . . . . . . . . 79 5.2.7 IORetriever . . . . . . . . . . . . . . . . . . . . . . . . 79 5.2.8 IOSelector . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.2.9 IOStorer . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2.10 MacroConstruction . . . . . . . . . . . . . . . . . . . . 82 5.2.11 MacroDe nition . . . . . . . . . . . . . . . . . . . . . . 85 5.2.12 MaterializeDataInMemory . . . . . . . . . . . . . . . . . 86 5.2.13 MemoryCleanUp . . . . . . . . . . . . . . . . . . . . . . 87 5.2.14 Process . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.2.15 SQLExecution . . . . . . . . . . . . . . . . . . . . . . . 88 5.2.16 Script . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.2.17 SingleMacroDe nition . . . . . . . . . . . . . . . . . . . 90 5.3 Input/Output operators . . . . . . . . . . . . . . . . . . . . . . 92 5.3.1 AccessExampleSource . . . . . . . . . . . . . . . . . . . 92 5.3.2 Ar ExampleSetWriter . . . . . . . . . . . . . . . . . . . 93 5.3.3 Ar ExampleSource . . . . . . . . . . . . . . . . . . . . 93 5.3.4 AttributeConstructionsLoader . . . . . . . . . . . . . . . 95 5.3.5 AttributeConstructionsWriter . . . . . . . . . . . . . . . 96 5.3.6 AttributeWeightsLoader . . . . . . . . . . . . . . . . . . 97 5.3.7 AeightsWriter . . . . . . . . . . . . . . . . . . 97 5.3.8 BibtexExampleSource . . . . . . . . . . . . . . . . . . . 98 5.3.9 C45ExampleSource . . . . . . . . . . . . . . . . . . . . 99 5.3.10 CSVExampleSetWriter . . . . . . . . . . . . . . . . . . 101 5.3.11 CSVExampleSource . . . . . . . . . . . . . . . . . . . . 102 5.3.12 CachedDatabaseExampleSource . . . . . . . . . . . . . 103 5.3.13 ChurnReductionExampleSetGenerator . . . . . . . . . . 105 5.3.14 ClusterModelReader . . . . . . . . . . . . . . . . . . . . 106 5.3.15delWriter . . . . . . . . . . . . . . . . . . . . 106 The RapidMiner 4.6 Tutorial 6 CONTENTS 5.3.16 DBaseExampleSource . . . . . . . . . . . . . . . . . . . 107 5.3.17 DasyLabExampleSource . . . . . . . . . . . . . . . . . . 108 5.3.18 DatabaseExampleSetWriter . . . . . . . . . . . . . . . . 108 5.3.19 DatabaseExampleSource . . . . . . . . . . . . . . . . . 110 5.3.20 DirectMailingExampleSetGenerator . . . . . . . . . . . . 112 5.3.21 ExampleSetGenerator . . . . . . . . . . . . . . . . . . . 112 5.3.22 ExampleSetWriter . . . . . . . . . . . . . . . . . . . . . 113 5.3.23 ExampleSource . . . . . . . . . . . . . . . . . . . . . . 116 5.3.24 ExcelExampleSetWriter . . . . . . . . . . . . . . . . . . 118 5.3.25 ExcelExampleSource . . . . . . . . . . . . . . . . . . . . 118 5.3.26 GnuplotWriter . . . . . . . . . . . . . . . . . . . . . . . 120 5.3.27 IOContainerReader . . . . . . . . . . . . . . . . . . . . 120 5.3.28 IOContainerWriter . . . . . . . . . . . . . . . . . . . . . 121 5.3.29 IOObjectReader . . . . . . . . . . . . . . . . . . . . . . 122 5.3.30 IOObjectWriter . . . . . . . . . . . . . . . . . . . . . . 122 5.3.31 MassiveDataGenerator . . . . . . . . . . . . . . . . . . 123 5.3.32 ModelLoader . . . . . . . . . . . . . . . . . . . . . . . . 124 5.3.33 ModelWriter . . . . . . . . . . . . . . . . . . . . . . . . 124 5.3.34 MultipleLabelGenerator . . . . . . . . . . . . . . . . . . 126 5.3.35 NominalExampleSetGenerator . . . . . . . . . . . . . . . 126 5.3.36 ParameterSetLoader . . . . . . . . . . . . . . . . . . . . 127 5.3.37 ParameterSetWriter . . . . . . . . . . . . . . . . . . . . 128 5.3.38 PerformanceLoader . . . . . . . . . . . . . . . . . . . . 128 5.3.39 PerformanceWriter . . . . . . . . . . . . . . . . . . . . 129 5.3.40 ResultWriter . . . . . . . . . . . . . . . . . . . . . . . . 130 5.3.41 SPSSExampleSource . . . . . . . . . . . . . . . . . . . 130 5.3.42 SalesExampleSetGenerator . . . . . . . . . . . . . . . . 131 5.3.43 SimpleExampleSource . . . . . . . . . . . . . . . . . . . 132 5.3.44 SingleTextObjectInput . . . . . . . . . . . . . . . . . . . 134 5.3.45 SparseFormatExampleSource . . . . . . . . . . . . . . . 135 October 1, 2009 CONTENTS 7 5.3.46 StataExampleSource . . . . . . . . . . . . . . . . . . . 136 5.3.47 TeamPro tExampleSetGenerator . . . . . . . . . . . . . 137 5.3.48 TextCleaner . . . . . . . . . . . . . . . . . . . . . . . . 138 5.3.49 TextExtractor . . . . . . . . . . . . . . . . . . . . . . . 138 5.3.50 TextObject2ExampleSet . . . . . . . . . . . . . . . . . . 139 5.3.51 TextObjectLoader . . . . . . . . . . . . . . . . . . . . . 140 5.3.52 TextObjectWriter . . . . . . . . . . . . . . . . . . . . . 140 5.3.53 TextSegmenter . . . . . . . . . . . . . . . . . . . . . . 141 5.3.54 ThresholdLoader . . . . . . . . . . . . . . . . . . . . . . 142 5.3.55 ThresholdWriter . . . . . . . . . . . . . . . . . . . . . . 142 5.3.56 TransfersExampleSetGenerator . . . . . . . . . . . . . . 143 5.3.57 URLExampleSource . . . . . . . . . . . . . . . . . . . . 144 5.3.58 UpSellingExampleSetGenerator . . . . . . . . . . . . . . 145 5.3.59 WekaModelLoader . . . . . . . . . . . . . . . . . . . . . 145 5.3.60 Xr ExampleSetWriter . . . . . . . . . . . . . . . . . . . 146 5.3.61 Xr ExampleSource . . . . . . . . . . . . . . . . . . . . 147 5.4 Learning schemes . . . . . . . . . . . . . . . . . . . . . . . . . 150 5.4.1 AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . 150 5.4.2 AdditiveRegression . . . . . . . . . . . . . . . . . . . . 151 5.4.3 AgglomerativeClustering . . . . . . . . . . . . . . . . . 152 5.4.4 AssociationRuleGenerator . . . . . . . . . . . . . . . . . 153 5.4.5 AttributeBasedVote . . . . . . . . . . . . . . . . . . . . 154 5.4.6 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . 155 5.4.7 BasicRuleLearner . . . . . . . . . . . . . . . . . . . . . 156 5.4.8 BayesianBoosting . . . . . . . . . . . . . . . . . . . . . 156 5.4.9 BestRuleInduction . . . . . . . . . . . . . . . . . . . . . 158 5.4.10 Binary2MultiClassLearner . . . . . . . . . . . . . . . . . 159 5.4.11 CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.4.12 Classi cationByRegression . . . . . . . . . . . . . . . . 162 5.4.13 Cluster2Prediction . . . . . . . . . . . . . . . . . . . . . 162 The RapidMiner 4.6 Tutorial 8 CONTENTS 5.4.14 ClusterModel2ExampleSet . . . . . . . . . . . . . . . . 163 5.4.15 CostBasedThresholdLearner . . . . . . . . . . . . . . . . 164 5.4.16 DBScanClustering . . . . . . . . . . . . . . . . . . . . . 165 5.4.17 DecisionStump . . . . . . . . . . . . . . . . . . . . . . 166 5.4.18 DecisionTree . . . . . . . . . . . . . . . . . . . . . . . . 167 5.4.19 DefaultLearner . . . . . . . . . . . . . . . . . . . . . . . 168 5.4.20 EMClustering . . . . . . . . . . . . . . . . . . . . . . . 169 5.4.21 EvoSVM . . . . . . . . . . . . . . . . . . . . . . . . . . 170 5.4.22 ExampleSet2ClusterModel . . . . . . . . . . . . . . . . 172 5.4.23 ExampleSet2Similarity . . . . . . . . . . . . . . . . . . . 173 5.4.24rityExampleSet . . . . . . . . . . . . 174 5.4.25 ExhaustiveSubgroupDiscovery . . . . . . . . . . . . . . . 175 5.4.26 FPGrowth . . . . . . . . . . . . . . . . . . . . . . . . . 176 5.4.27 FastLargeMargin . . . . . . . . . . . . . . . . . . . . . . 178 5.4.28 FlattenClusterModel . . . . . . . . . . . . . . . . . . . . 179 5.4.29 GPLearner . . . . . . . . . . . . . . . . . . . . . . . . . 179 5.4.30 HyperHyper . . . . . . . . . . . . . . . . . . . . . . . . 181 5.4.31 ID3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 5.4.32 ID3Numerical . . . . . . . . . . . . . . . . . . . . . . . 182 5.4.33 IteratingGSS . . . . . . . . . . . . . . . . . . . . . . . . 183 5.4.34 JMySVMLearner . . . . . . . . . . . . . . . . . . . . . . 185 5.4.35 KMeans . . . . . . . . . . . . . . . . . . . . . . . . . . 187 5.4.36 KMedoids . . . . . . . . . . . . . . . . . . . . . . . . . 188 5.4.37 KernelKMeans . . . . . . . . . . . . . . . . . . . . . . . 189 5.4.38 KernelLogisticRegression . . . . . . . . . . . . . . . . . 190 5.4.39 KernelNaiveBayes . . . . . . . . . . . . . . . . . . . . . 192 5.4.40 LibSVMLearner . . . . . . . . . . . . . . . . . . . . . . 193 5.4.41 LinearDiscriminantAnalysis . . . . . . . . . . . . . . . . 194 5.4.42 LinearRegression . . . . . . . . . . . . . . . . . . . . . . 195 5.4.43 LogisticRegression . . . . . . . . . . . . . . . . . . . . . 196 October 1, 2009 CONTENTS 9 5.4.44 MetaCost . . . . . . . . . . . . . . . . . . . . . . . . . 197 5.4.45 MultiCriterionDecisionStump . . . . . . . . . . . . . . . 198 5.4.46 MultiwayDecisionTree . . . . . . . . . . . . . . . . . . . 199 5.4.47 MyKLRLearner . . . . . . . . . . . . . . . . . . . . . . 200 5.4.48 NaiveBayes . . . . . . . . . . . . . . . . . . . . . . . . 202 5.4.49 NearestNeighbors . . . . . . . . . . . . . . . . . . . . . 202 5.4.50 NeuralNet . . . . . . . . . . . . . . . . . . . . . . . . . 204 5.4.51 NeuralNetImproved . . . . . . . . . . . . . . . . . . . . 205 5.4.52 NeuralNetSimple . . . . . . . . . . . . . . . . . . . . . 207 5.4.53 OneR . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 5.4.54 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . 209 5.4.55 PolynomialRegression . . . . . . . . . . . . . . . . . . . 210 5.4.56 PsoSVM . . . . . . . . . . . . . . . . . . . . . . . . . . 211 5.4.57 QuadraticDiscriminantAnalysis . . . . . . . . . . . . . . 213 5.4.58 RVMLearner . . . . . . . . . . . . . . . . . . . . . . . . 213 5.4.59 RandomFlatClustering . . . . . . . . . . . . . . . . . . . 215 5.4.60 RandomForest . . . . . . . . . . . . . . . . . . . . . . . 216 5.4.61 RandomTree . . . . . . . . . . . . . . . . . . . . . . . . 217 5.4.62 RegularizedDiscriminantAnalysis . . . . . . . . . . . . . 218 5.4.63 RelativeRegression . . . . . . . . . . . . . . . . . . . . . 219 5.4.64 RelevanceTree . . . . . . . . . . . . . . . . . . . . . . . 220 5.4.65 RuleLearner . . . . . . . . . . . . . . . . . . . . . . . . 221 5.4.66 Similarity2ExampleSet . . . . . . . . . . . . . . . . . . . 222 5.4.67 Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . 223 5.4.68 SubgroupDiscovery . . . . . . . . . . . . . . . . . . . . 224 5.4.69 SupportVectorClustering . . . . . . . . . . . . . . . . . 225 5.4.70 TopDownClustering . . . . . . . . . . . . . . . . . . . . 226 5.4.71 TransformedRegression . . . . . . . . . . . . . . . . . . 227 5.4.72 Tree2RuleConverter . . . . . . . . . . . . . . . . . . . . 228 5.4.73 VectorLinearRegression . . . . . . . . . . . . . . . . . . 228 The RapidMiner 4.6 Tutorial 10 CONTENTS 5.4.74 Vote . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 5.4.75 W-ADTree . . . . . . . . . . . . . . . . . . . . . . . . . 230 5.4.76 W-AODE . . . . . . . . . . . . . . . . . . . . . . . . . 231 5.4.77 W-AODEsr . . . . . . . . . . . . . . . . . . . . . . . . 232 5.4.78 W-AdaBoostM1 . . . . . . . . . . . . . . . . . . . . . . 233 5.4.79 W-AdditiveRegression . . . . . . . . . . . . . . . . . . . 234 5.4.80 W-Apriori . . . . . . . . . . . . . . . . . . . . . . . . . 235 5.4.81 W-BFTree . . . . . . . . . . . . . . . . . . . . . . . . . 236 5.4.82 W-BIFReader . . . . . . . . . . . . . . . . . . . . . . . 237 5.4.83 W-Bagging . . . . . . . . . . . . . . . . . . . . . . . . 238 5.4.84 W-BayesNet . . . . . . . . . . . . . . . . . . . . . . . . 239 5.4.85 W-BayesNetGenerator . . . . . . . . . . . . . . . . . . . 240 5.4.86 W-BayesianLogisticRegression . . . . . . . . . . . . . . 241 5.4.87 W-CLOPE . . . . . . . . . . . . . . . . . . . . . . . . . 242 5.4.88 W-CitationKNN . . . . . . . . . . . . . . . . . . . . . . 243 5.4.89 W-ClassBalancedND . . . . . . . . . . . . . . . . . . . 244 5.4.90 W-Classi cationViaClustering . . . . . . . . . . . . . . . 245 5.4.91 W-Cobweb . . . . . . . . . . . . . . . . . . . . . . . . . 246 5.4.92 W-ComplementNaiveBayes . . . . . . . . . . . . . . . . 247 5.4.93 W-ConjunctiveRule . . . . . . . . . . . . . . . . . . . . 248 5.4.94 W-CostSensitiveClassi er . . . . . . . . . . . . . . . . . 249 5.4.95 W-DMNBtext . . . . . . . . . . . . . . . . . . . . . . . 250 5.4.96 W-DTNB . . . . . . . . . . . . . . . . . . . . . . . . . 251 5.4.97 W-Dagging . . . . . . . . . . . . . . . . . . . . . . . . 252 5.4.98 W-DataNearBalancedND . . . . . . . . . . . . . . . . . 253 5.4.99 W-DecisionStump . . . . . . . . . . . . . . . . . . . . . 254 5.4.100 W-DecisionTable . . . . . . . . . . . . . . . . . . . . . 255 5.4.101 W-Decorate . . . . . . . . . . . . . . . . . . . . . . . . 256 5.4.102 W-EM . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 5.4.103 W-END . . . . . . . . . . . . . . . . . . . . . . . . . . 258 October 1, 2009