100% found this document useful (6 votes)
1K views64 pages

(PDF Download) Machine Learning For Business Analytics: Concepts, Techniques and Applications in RapidMiner Galit Shmueli Fulll Chapter

ebook

Uploaded by

onyonaknura
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
100% found this document useful (6 votes)
1K views64 pages

(PDF Download) Machine Learning For Business Analytics: Concepts, Techniques and Applications in RapidMiner Galit Shmueli Fulll Chapter

ebook

Uploaded by

onyonaknura
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 64

Full download test bank at ebook ebookmass.

com

Machine Learning for Business


Analytics: Concepts, Techniques and
Applications in RapidMiner Galit
Shmueli
CLICK LINK TO DOWLOAD

https://ebookmass.com/product/machine-
learning-for-business-analytics-concepts-
techniques-and-applications-in-rapidminer-
galit-shmueli/

ebookmass.com
More products digital (pdf, epub, mobi) instant
download maybe you interests ...

Machine Learning for Business Analytics: Concepts,


Techniques and Applications with JMP Pro, 2nd Edition
Galit Shmueli

https://ebookmass.com/product/machine-learning-for-business-
analytics-concepts-techniques-and-applications-with-jmp-pro-2nd-
edition-galit-shmueli/

Data Mining for Business Analytics: Concepts,


Techniques and Applications in Python eBook

https://ebookmass.com/product/data-mining-for-business-analytics-
concepts-techniques-and-applications-in-python-ebook/

Supply Chain Analytics: Concepts, Techniques and


Applications 1st Edition Kurt Y. Liu

https://ebookmass.com/product/supply-chain-analytics-concepts-
techniques-and-applications-1st-edition-kurt-y-liu/

Fundamentals of Machine Learning for Predictive Data


Analytics: Algorithms,

https://ebookmass.com/product/fundamentals-of-machine-learning-
for-predictive-data-analytics-algorithms/
Machine Learning for Biometrics: Concepts, Algorithms
and Applications (Cognitive Data Science in Sustainable
Computing) Partha Pratim Sarangi

https://ebookmass.com/product/machine-learning-for-biometrics-
concepts-algorithms-and-applications-cognitive-data-science-in-
sustainable-computing-partha-pratim-sarangi/

Automated Machine Learning for Business R. Larsen

https://ebookmass.com/product/automated-machine-learning-for-
business-r-larsen/

Automated Machine Learning for Business Kai R Larsen

https://ebookmass.com/product/automated-machine-learning-for-
business-kai-r-larsen/

Automated Machine Learning for Business Kai R. Larsen

https://ebookmass.com/product/automated-machine-learning-for-
business-kai-r-larsen-2/

Machine Learning for Healthcare Applications Sachi


Nandan Mohanty

https://ebookmass.com/product/machine-learning-for-healthcare-
applications-sachi-nandan-mohanty/
MACHINE LEARNING
FOR BUSINESS ANALYTICS
MACHINE LEARNING
FOR BUSINESS ANALYTICS
Concepts, Techniques and Applications in RapidMiner

Galit Shmueli
National Tsing Hua University

Peter C. Bruce
statistics.com

Amit V. Deokar
University of Massachusetts Lowell

Nitin R. Patel
Cytel, Inc.
This edition first published 2023

© 2023 John Wiley & Sons, Inc.

All rights reserved. No part of this publication may be reproduced, stored in a retrieval system, or transmitted, in

any form or by any means, electronic, mechanical, photocopying, recording or otherwise, except as permitted by

law. Advice on how to obtain permission to reuse material from this title is available at

http://www.wiley.com/go/permissions.

The right of Galit Shmueli, Peter C. Bruce, Amit V. Deokar, and Nitin R. Patel to be identified as the authors of

this work has been asserted in accordance with law.

Registered Office
John Wiley & Sons, Inc., 111 River Street, Hoboken, NJ 07030, USA

For details of our global editorial offices, customer services, and more information about Wiley products visit us at

www.wiley.com.

Wiley also publishes its books in a variety of electronic formats and by print-on-demand. Some content that

appears in standard print versions of this book may not be available in other formats.

Trademarks: Wiley and the Wiley logo are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or

its affiliates in the United States and other countries and may not be used without written permission. All other

trademarks are the property of their respective owners. John Wiley & Sons, Inc. is not associated with any product

or vendor mentioned in this book.

Limit of Liability/Disclaimer of Warranty


In view of ongoing research, equipment modifications, changes in governmental regulations, and the constant

flow of information relating to the use of experimental reagents, equipment, and devices, the reader is urged to

review and evaluate the information provided in the package insert or instructions for each chemical, piece of

equipment, reagent, or device for, among other things, any changes in the instructions or indication of usage and

for added warnings and precautions. While the publisher and authors have used their best efforts in preparing this

work, they make no representations or warranties with respect to the accuracy or completeness of the contents of

this work and specifically disclaim all warranties, including without limitation any implied warranties of

merchantability or fitness for a particular purpose. No warranty may be created or extended by sales

representatives, written sales materials or promotional statements for this work. The fact that an organization,

website, or product is referred to in this work as a citation and/or potential source of further information does not

mean that the publisher and authors endorse the information or services the organization, website, or product

may provide or recommendations it may make. This work is sold with the understanding that the publisher is not

engaged in rendering professional services. The advice and strategies contained herein may not be suitable for

your situation. You should consult with a specialist where appropriate. Further, readers should be aware that

websites listed in this work may have changed or disappeared between when this work was written and when it is

read. Neither the publisher nor authors shall be liable for any loss of profit or any other commercial damages,

including but not limited to special, incidental, consequential, or other damages.

Library of Congress Cataloging-in-Publication Data Applied for:

Hardback: 9781119828792

Cover Design: Wiley

Cover Image: © Eakarat Buanoi/Getty Images

Set in 11.5/14.5pt BemboStd by Straive, Chennai, India


To our families

Boaz and Noa


Liz, Lisa, and Allison
Aparna, Aditi, Anuja, Ajit, Aai, and Baba
Tehmi, Arjun, and in memory of Aneesh
Contents

Foreword by Ravi Bapna xxi


Preface to the RapidMiner Edition xxiii
Acknowledgments xxvii

PART I PRELIMINARIES
CHAPTER 1 Introduction 3

1.1 What Is Business Analytics? . . . . . . . . . . . . . . . . . . . . . . . . . . . 3


1.2 What Is Machine Learning? . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Machine Learning, AI, and Related Terms . . . . . . . . . . . . . . . . . . . . 5
Statistical Modeling vs. Machine Learning . . . . . . . . . . . . . . . . . . . . 6
1.4 Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Data Science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Why Are There So Many Different Methods? . . . . . . . . . . . . . . . . . . . 9
1.7 Terminology and Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.8 Road Maps to This Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Order of Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.9 Using RapidMiner Studio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Importing and Loading Data in RapidMiner . . . . . . . . . . . . . . . . . . . 16
RapidMiner Extensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

CHAPTER 2 Overview of the Machine Learning Process 19

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Core Ideas in Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . 20
Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Association Rules and Recommendation Systems . . . . . . . . . . . . . . . . . 20
Predictive Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Data Reduction and Dimension Reduction . . . . . . . . . . . . . . . . . . . . 21
Data Exploration and Visualization . . . . . . . . . . . . . . . . . . . . . . . . 21
Supervised and Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . 22
2.3 The Steps in a Machine Learning Project . . . . . . . . . . . . . . . . . . . . . 23

vii
viii CONTENTS

2.4 Preliminary Steps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25


Organization of Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Sampling from a Database . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Oversampling Rare Events in Classification Tasks . . . . . . . . . . . . . . . . . 26
Preprocessing and Cleaning the Data . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Predictive Power and Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . 32
Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Creation and Use of Data Partitions . . . . . . . . . . . . . . . . . . . . . . . 34
2.6 Building a Predictive Model with RapidMiner . . . . . . . . . . . . . . . . . . . 37
Predicting Home Values in the West Roxbury Neighborhood . . . . . . . . . . . 39
Modeling Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.7 Using RapidMiner for Machine Learning . . . . . . . . . . . . . . . . . . . . . 45
2.8 Automating Machine Learning Solutions . . . . . . . . . . . . . . . . . . . . . 47
Predicting Power Generator Failure . . . . . . . . . . . . . . . . . . . . . . . . 48
Uber’s Michelangelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.9 Ethical Practice in Machine Learning . . . . . . . . . . . . . . . . . . . . . . . 52
Machine Learning Software Tools: The State of the Market by Herb Edelstein . . . 53
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

PART II DATA EXPLORATION AND DIMENSION REDUCTION


CHAPTER 3 Data Visualization 63

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Data Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Example 1: Boston Housing Data . . . . . . . . . . . . . . . . . . . . . . . . 65
Example 2: Ridership on Amtrak Trains . . . . . . . . . . . . . . . . . . . . . . 66
3.3 Basic Charts: Bar Charts, Line Charts, and Scatter Plots . . . . . . . . . . . . . 66
Distribution Plots: Boxplots and Histograms . . . . . . . . . . . . . . . . . . . 69
Heatmaps: Visualizing Correlations and Missing Values . . . . . . . . . . . . . . 72
3.4 Multidimensional Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Adding Attributes: Color, Size, Shape, Multiple Panels, and Animation . . . . . . 75
Manipulations: Rescaling, Aggregation and Hierarchies, Zooming, and Filtering . . 78
Reference: Trend Lines and Labels . . . . . . . . . . . . . . . . . . . . . . . . 81
Scaling Up to Large Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Multivariate Plot: Parallel Coordinates Plot . . . . . . . . . . . . . . . . . . . . 83
Interactive Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.5 Specialized Visualizations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Visualizing Networked Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Visualizing Hierarchical Data: Treemaps . . . . . . . . . . . . . . . . . . . . . 89
Visualizing Geographical Data: Map Charts . . . . . . . . . . . . . . . . . . . . 90
3.6 Summary: Major Visualizations and Operations, by Machine Learning Goal . . . . 92
Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Time Series Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
CONTENTS ix

CHAPTER 4 Dimension Reduction 97

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2 Curse of Dimensionality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.3 Practical Considerations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Example 1: House Prices in Boston . . . . . . . . . . . . . . . . . . . . . . . 99
4.4 Data Summaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Summary Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Aggregation and Pivot Tables . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.5 Correlation Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.6 Reducing the Number of Categories in Categorical Attributes . . . . . . . . . . . 105
4.7 Converting a Categorical Attribute to a Numerical Attribute . . . . . . . . . . . 107
4.8 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Example 2: Breakfast Cereals . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Principal Components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Normalizing the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Using Principal Components for Classification and Prediction . . . . . . . . . . . 117
4.9 Dimension Reduction Using Regression Models . . . . . . . . . . . . . . . . . . 117
4.10 Dimension Reduction Using Classification and Regression Trees . . . . . . . . . . 119
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

PART III PERFORMANCE EVALUATION


CHAPTER 5 Evaluating Predictive Performance 125

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125


5.2 Evaluating Predictive Performance . . . . . . . . . . . . . . . . . . . . . . . . 126
Naive Benchmark: The Average . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Prediction Accuracy Measures . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Comparing Training and Holdout Performance . . . . . . . . . . . . . . . . . . 130
Lift Chart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.3 Judging Classifier Performance . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Benchmark: The Naive Rule . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Class Separation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
The Confusion (Classification) Matrix . . . . . . . . . . . . . . . . . . . . . . . 133
Using the Holdout Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
Accuracy Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Propensities and Threshold for Classification . . . . . . . . . . . . . . . . . . . 136
Performance in Case of Unequal Importance of Classes . . . . . . . . . . . . . . 139
Asymmetric Misclassification Costs . . . . . . . . . . . . . . . . . . . . . . . . 143
Generalization to More Than Two Classes . . . . . . . . . . . . . . . . . . . . . 146
5.4 Judging Ranking Performance . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Lift Charts for Binary Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Decile Lift Charts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Beyond Two Classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Lift Charts Incorporating Costs and Benefits . . . . . . . . . . . . . . . . . . . 150
Lift as a Function of Threshold . . . . . . . . . . . . . . . . . . . . . . . . . . 150
x CONTENTS

5.5 Oversampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151


Creating an Over-sampled Training Set . . . . . . . . . . . . . . . . . . . . . . 154
Evaluating Model Performance Using a Non-oversampled Holdout Set . . . . . . . 155
Evaluating Model Performance if Only Oversampled Holdout Set Exists . . . . . . 155
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

PART IV PREDICTION AND CLASSIFICATION METHODS


CHAPTER 6 Multiple Linear Regression 163

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163


6.2 Explanatory vs. Predictive Modeling . . . . . . . . . . . . . . . . . . . . . . . 164
6.3 Estimating the Regression Equation and Prediction . . . . . . . . . . . . . . . . 166
Example: Predicting the Price of Used Toyota Corolla Cars . . . . . . . . . . . . 167
6.4 Variable Selection in Linear Regression . . . . . . . . . . . . . . . . . . . . . 171
Reducing the Number of Predictors . . . . . . . . . . . . . . . . . . . . . . . 171
How to Reduce the Number of Predictors . . . . . . . . . . . . . . . . . . . . . 174
Regularization (Shrinkage Models) . . . . . . . . . . . . . . . . . . . . . . . . 180
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

CHAPTER 7 k-Nearest Neighbors (k-NN) 189

7.1 The k -NN Classifier (Categorical Label) . . . . . . . . . . . . . . . . . . . . . . 189


Determining Neighbors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Classification Rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
Example: Riding Mowers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
Choosing Parameter k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
Setting the Threshold Value . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Weighted k-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
k-NN with More Than Two Classes . . . . . . . . . . . . . . . . . . . . . . . . 199
Working with Categorical Attributes . . . . . . . . . . . . . . . . . . . . . . . 199
7.2 k-NN for a Numerical Label . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
7.3 Advantages and Shortcomings of k-NN Algorithms . . . . . . . . . . . . . . . . 202
Appendix: Computing Distances Between Records in RapidMiner . . . . . . . . . . . . 203
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

CHAPTER 8 The Naive Bayes Classifier 209

8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209


Threshold Probability Method . . . . . . . . . . . . . . . . . . . . . . . . . . 210
Conditional Probability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
Example 1: Predicting Fraudulent Financial Reporting . . . . . . . . . . . . . . 210
8.2 Applying the Full (Exact) Bayesian Classifier . . . . . . . . . . . . . . . . . . . 211
Using the “Assign to the Most Probable Class” Method . . . . . . . . . . . . . . 212
Using the Threshold Probability Method . . . . . . . . . . . . . . . . . . . . . 212
Practical Difficulty with the Complete (Exact) Bayes Procedure . . . . . . . . . . 212
CONTENTS xi

8.3 Solution: Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213


The Naive Bayes Assumption of Conditional Independence . . . . . . . . . . . . 214
Using the Threshold Probability Method . . . . . . . . . . . . . . . . . . . . . 214
Example 2: Predicting Fraudulent Financial Reports, Two Predictors . . . . . . . 215
Example 3: Predicting Delayed Flights . . . . . . . . . . . . . . . . . . . . . . 216
Working with Continuous Attributes . . . . . . . . . . . . . . . . . . . . . . . 222
8.4 Advantages and Shortcomings of the Naive Bayes Classifier . . . . . . . . . . . 224
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

CHAPTER 9 Classification and Regression Trees 229

9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229


Tree Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Decision Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Classifying a New Record . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
9.2 Classification Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
Recursive Partitioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
Example 1: Riding Mowers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Measures of Impurity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
9.3 Evaluating the Performance of a Classification Tree . . . . . . . . . . . . . . . . 240
Example 2: Acceptance of Personal Loan . . . . . . . . . . . . . . . . . . . . . 240
Sensitivity Analysis Using Cross Validation . . . . . . . . . . . . . . . . . . . . 243
9.4 Avoiding Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
Stopping Tree Growth: Grid Search for Parameter Tuning . . . . . . . . . . . . . 247
Stopping Tree Growth: CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . 249
Pruning the Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
9.5 Classification Rules from Trees . . . . . . . . . . . . . . . . . . . . . . . . . . 255
9.6 Classification Trees for More Than Two Classes . . . . . . . . . . . . . . . . . . 256
9.7 Regression Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
Measuring Impurity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
Evaluating Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
9.8 Improving Prediction: Random Forests and Boosted Trees . . . . . . . . . . . . 259
Random Forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
Boosted Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
9.9 Advantages and Weaknesses of a Tree . . . . . . . . . . . . . . . . . . . . . . 261
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

CHAPTER 10 Logistic Regression 269

10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269


10.2 The Logistic Regression Model . . . . . . . . . . . . . . . . . . . . . . . . . . 271
10.3 Example: Acceptance of Personal Loan . . . . . . . . . . . . . . . . . . . . . . 272
Model with a Single Predictor . . . . . . . . . . . . . . . . . . . . . . . . . . 273
Estimating the Logistic Model from Data: Computing Parameter Estimates . . . . 275
Interpreting Results in Terms of Odds (for a Profiling Goal) . . . . . . . . . . . . 278
xii CONTENTS

Evaluating Classification Performance . . . . . . . . . . . . . . . . . . . . . . 280


Variable Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
10.4 Logistic Regression for Multi-class Classification . . . . . . . . . . . . . . . . . 283
Example: Accidents Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
10.5 Example of Complete Analysis: Predicting Delayed Flights . . . . . . . . . . . . 286
Data Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
Data Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
Model Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
Model Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
Model Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
Variable Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
Appendix: Logistic Regression for Ordinal Classes . . . . . . . . . . . . . . . . . . . . 299
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301

CHAPTER 11 Neural Networks 305

11.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306


11.2 Concept and Structure of a Neural Network . . . . . . . . . . . . . . . . . . . . 306
11.3 Fitting a Network to Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
Example 1: Tiny Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
Computing Output of Nodes . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
Preprocessing the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
Training the Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
Example 2: Classifying Accident Severity . . . . . . . . . . . . . . . . . . . . . 316
Avoiding Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
Using the Output for Prediction and Classification . . . . . . . . . . . . . . . . 320
11.4 Required User Input . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
11.5 Exploring the Relationship Between Predictors and Target Attribute . . . . . . . 322
11.6 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
Convolutional Neural Networks (CNNs) . . . . . . . . . . . . . . . . . . . . . . 324
Local Feature Map . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
A Hierarchy of Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
The Learning Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
Example: Classification of Fashion Images . . . . . . . . . . . . . . . . . . . . 327
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
11.7 Advantages and Weaknesses of Neural Networks . . . . . . . . . . . . . . . . . 334
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335

CHAPTER 12 Discriminant Analysis 337

12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337


Example 1: Riding Mowers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
Example 2: Personal Loan Acceptance . . . . . . . . . . . . . . . . . . . . . . 338
12.2 Distance of a Record from a Class . . . . . . . . . . . . . . . . . . . . . . . . 340
12.3 Fisher’s Linear Classification Functions . . . . . . . . . . . . . . . . . . . . . . 341
12.4 Classification Performance of Discriminant Analysis . . . . . . . . . . . . . . . 346
CONTENTS xiii

12.5 Prior Probabilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348


12.6 Unequal Misclassification Costs . . . . . . . . . . . . . . . . . . . . . . . . . 348
12.7 Classifying More Than Two Classes . . . . . . . . . . . . . . . . . . . . . . . . 349
Example 3: Medical Dispatch to Accident Scenes . . . . . . . . . . . . . . . . . 349
12.8 Advantages and Weaknesses . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355

CHAPTER 13 Generating, Comparing, and Combining Multiple 359


Models
13.1 Automated Machine Learning (AutoML) . . . . . . . . . . . . . . . . . . . . . 359
AutoML: Explore and Clean Data . . . . . . . . . . . . . . . . . . . . . . . . . 360
AutoML: Determine Machine Learning Task . . . . . . . . . . . . . . . . . . . . 360
AutoML: Choose Attributes and Machine Learning Methods . . . . . . . . . . . . 361
AutoML: Evaluate Model Performance . . . . . . . . . . . . . . . . . . . . . . 363
AutoML: Model Deployment . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
Advantages and Weaknesses of Automated Machine Learning . . . . . . . . . . . 365
13.2 Explaining Model Predictions . . . . . . . . . . . . . . . . . . . . . . . . . . 367
Explaining Model Predictions: LIME . . . . . . . . . . . . . . . . . . . . . . . 368
Counterfactual Explanations of Predictions: What-If Scenarios . . . . . . . . . . 369
13.3 Ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
Why Ensembles Can Improve Predictive Power . . . . . . . . . . . . . . . . . . 373
Simple Averaging or Voting . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
Bagging and Boosting in RapidMiner . . . . . . . . . . . . . . . . . . . . . . . 378
Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
Advantages and Weaknesses of Ensembles . . . . . . . . . . . . . . . . . . . . 381
13.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383

PART V INTERVENTION AND USER FEEDBACK


CHAPTER 14 Interventions: Experiments, Uplift Models, and 387
Reinforcement Learning
14.1 A/B Testing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
Example: Testing a New Feature in a Photo Sharing App . . . . . . . . . . . . . 389
The Statistical Test for Comparing Two Groups (T-Test) . . . . . . . . . . . . . . 389
Multiple Treatment Groups: A/B/n Tests . . . . . . . . . . . . . . . . . . . . . 392
Multiple A/B Tests and the Danger of Multiple Testing . . . . . . . . . . . . . . 392
14.2 Uplift (Persuasion) Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
Gathering the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
A Simple Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
Modeling Individual Uplift . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
Computing Uplift with RapidMiner . . . . . . . . . . . . . . . . . . . . . . . . 398
Using the Results of an Uplift Model . . . . . . . . . . . . . . . . . . . . . . . 398
xiv CONTENTS

14.3 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400


Explore-Exploit: Multi-Armed Bandits . . . . . . . . . . . . . . . . . . . . . . 400
Markov Decision Process (MDP) . . . . . . . . . . . . . . . . . . . . . . . . . 402
14.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406

PART VI MINING RELATIONSHIPS AMONG RECORDS


CHAPTER 15 Association Rules and Collaborative Filtering 409

15.1 Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409


Discovering Association Rules in Transaction Databases . . . . . . . . . . . . . 410
Example 1: Synthetic Data on Purchases of Phone Faceplates . . . . . . . . . . 410
Data Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
Generating Candidate Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
The Apriori Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
FP-Growth Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
Selecting Strong Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
The Process of Rule Selection . . . . . . . . . . . . . . . . . . . . . . . . . . 418
Interpreting the Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
Rules and Chance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
Example 2: Rules for Similar Book Purchases . . . . . . . . . . . . . . . . . . . 424
15.2 Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
Data Type and Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
Example 3: Netflix Prize Contest . . . . . . . . . . . . . . . . . . . . . . . . . 427
User-Based Collaborative Filtering: “People Like You” . . . . . . . . . . . . . . 428
Item-Based Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . 430
Evaluating Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
Example 4: Predicting Movie Ratings with MovieLens Data . . . . . . . . . . . . 432
Advantages and Weaknesses of Collaborative Filtering . . . . . . . . . . . . . . 434
Collaborative Filtering vs. Association Rules . . . . . . . . . . . . . . . . . . . 437
15.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440

CHAPTER 16 Cluster Analysis 445

16.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445


Example: Public Utilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
16.2 Measuring Distance Between Two Records . . . . . . . . . . . . . . . . . . . . 449
Euclidean Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
Normalizing Numerical Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
Other Distance Measures for Numerical Data . . . . . . . . . . . . . . . . . . . 451
Distance Measures for Categorical Data . . . . . . . . . . . . . . . . . . . . . . 454
Distance Measures for Mixed Data . . . . . . . . . . . . . . . . . . . . . . . . 454
16.3 Measuring Distance Between Two Clusters . . . . . . . . . . . . . . . . . . . . 455
Minimum Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
CONTENTS xv

Maximum Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455


Average Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
Centroid Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
16.4 Hierarchical (Agglomerative) Clustering . . . . . . . . . . . . . . . . . . . . . 457
Single Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
Complete Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
Average Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
Centroid Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
Ward’s Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
Dendrograms: Displaying Clustering Process and Results . . . . . . . . . . . . . 460
Validating Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
Limitations of Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . 464
16.5 Non-Hierarchical Clustering: The k -Means Algorithm . . . . . . . . . . . . . . . 466
Choosing the Number of Clusters (k) . . . . . . . . . . . . . . . . . . . . . . . 467
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473

PART VII FORECASTING TIME SERIES


CHAPTER 17 Handling Time Series 479

17.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480


17.2 Descriptive vs. Predictive Modeling . . . . . . . . . . . . . . . . . . . . . . . 481
17.3 Popular Forecasting Methods in Business . . . . . . . . . . . . . . . . . . . . . 481
Combining Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
17.4 Time Series Components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
Example: Ridership on Amtrak Trains . . . . . . . . . . . . . . . . . . . . . . . 483
17.5 Data Partitioning and Performance Evaluation . . . . . . . . . . . . . . . . . . 486
Benchmark Performance: Naive Forecasts . . . . . . . . . . . . . . . . . . . . . 488
Generating Future Forecasts . . . . . . . . . . . . . . . . . . . . . . . . . . . 490
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493

CHAPTER 18 Regression-Based Forecasting 497

18.1 A Model with Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498


Linear Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498
Exponential Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502
Polynomial Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
18.2 A Model with Seasonality . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
Additive vs. Multiplicative Seasonality . . . . . . . . . . . . . . . . . . . . . . 507
18.3 A Model with Trend and Seasonality . . . . . . . . . . . . . . . . . . . . . . . 508
18.4 Autocorrelation and ARIMA Models . . . . . . . . . . . . . . . . . . . . . . . . 509
Computing Autocorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . 510
Improving Forecasts by Integrating Autocorrelation Information . . . . . . . . . 514
Evaluating Predictability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
xvi CONTENTS

CHAPTER 19 Smoothing and Deep Learning Methods for 533


Forecasting
19.1 Smoothing Methods: Introduction . . . . . . . . . . . . . . . . . . . . . . . . 534
19.2 Moving Average . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534
Centered Moving Average for Visualization . . . . . . . . . . . . . . . . . . . . 534
Trailing Moving Average for Forecasting . . . . . . . . . . . . . . . . . . . . . 536
Choosing Window Width (w) . . . . . . . . . . . . . . . . . . . . . . . . . . . 540
19.3 Simple Exponential Smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . 540
Choosing Smoothing Parameter α . . . . . . . . . . . . . . . . . . . . . . . . 542
Relation Between Moving Average and Simple Exponential Smoothing . . . . . . 543
19.4 Advanced Exponential Smoothing . . . . . . . . . . . . . . . . . . . . . . . . 545
Series with a Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
Series with a Trend and Seasonality . . . . . . . . . . . . . . . . . . . . . . . 546
Series with Seasonality (No Trend) . . . . . . . . . . . . . . . . . . . . . . . . 547
19.5 Deep Learning for Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . 549
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553

PART VIII DATA ANALYTICS


CHAPTER 20 Social Network Analytics 563

20.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563


20.2 Directed vs. Undirected Networks . . . . . . . . . . . . . . . . . . . . . . . . 564
20.3 Visualizing and Analyzing Networks . . . . . . . . . . . . . . . . . . . . . . . 567
Plot Layout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 567
Edge List . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 570
Adjacency Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
Using Network Data in Classification and Prediction . . . . . . . . . . . . . . . 571
20.4 Social Data Metrics and Taxonomy . . . . . . . . . . . . . . . . . . . . . . . . 571
Node-Level Centrality Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . 572
Egocentric Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573
Network Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573
20.5 Using Network Metrics in Prediction and Classification . . . . . . . . . . . . . . 576
Link Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 577
Entity Resolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579
Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581
20.6 Collecting Social Network Data with RapidMiner . . . . . . . . . . . . . . . . . 584
20.7 Advantages and Disadvantages . . . . . . . . . . . . . . . . . . . . . . . . . 584
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 587

CHAPTER 21 Text Mining 589

21.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589


21.2 The Tabular Representation of Text: Term–Document Matrix and “Bag-of-Words’’ . 590
21.3 Bag-of-Words vs. Meaning Extraction at Document Level . . . . . . . . . . . . . 592
21.4 Preprocessing the Text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
CONTENTS xvii

Tokenization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
Text Reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595
Presence/Absence vs. Frequency (Occurrences) . . . . . . . . . . . . . . . . . . 597
Term Frequency–Inverse Document Frequency (TF-IDF) . . . . . . . . . . . . . . 598
From Terms to Concepts: Latent Semantic Indexing . . . . . . . . . . . . . . . . 600
Extracting Meaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601
From Terms to High-Dimensional Word Vectors: Word2Vec . . . . . . . . . . . . 601
21.5 Implementing Machine Learning Methods . . . . . . . . . . . . . . . . . . . . 602
21.6 Example: Online Discussions on Autos and Electronics . . . . . . . . . . . . . . 602
Importing the Records . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603
Data Preparation and Labeling the Records . . . . . . . . . . . . . . . . . . . . 603
Text Preprocessing in RapidMiner . . . . . . . . . . . . . . . . . . . . . . . . 605
Producing a Concept Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 605
Fitting a Predictive Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 606
Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607
21.7 Example: Sentiment Analysis of Movie Reviews . . . . . . . . . . . . . . . . . . 607
Data Loading, Preparation, and Partitioning . . . . . . . . . . . . . . . . . . . 607
Generating and Applying Word2vec Model . . . . . . . . . . . . . . . . . . . . 609
Fitting a Predictive Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 611
Using a Pretrained Word2vec Model . . . . . . . . . . . . . . . . . . . . . . . 611
21.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615

CHAPTER 22 Responsible Data Science 617

22.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617


Example: Predicting Recidivism . . . . . . . . . . . . . . . . . . . . . . . . . 618
22.2 Unintentional Harm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 618
22.3 Legal Considerations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620
The General Data Protection Regulation (GDPR) . . . . . . . . . . . . . . . . . 620
Protected Groups . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620
22.4 Principles of Responsible Data Science . . . . . . . . . . . . . . . . . . . . . . 621
Non-maleficence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621
Fairness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622
Transparency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623
Accountability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624
Data Privacy and Security . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624
22.5 A Responsible Data Science Framework . . . . . . . . . . . . . . . . . . . . . . 624
Justification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625
Assembly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625
Data Preparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626
Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
Auditing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
22.6 Documentation Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 628
Impact Statements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 628
Model Cards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 629
xviii CONTENTS

Datasheets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 630
Audit Reports . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 630
22.7 Example: Applying the RDS Framework to the COMPAS Example . . . . . . . . . . 631
Unanticipated Uses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632
Ethical Concerns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632
Protected Groups . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632
Data Issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633
Fitting the Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633
Auditing the Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634
Bias Mitigation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
22.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 641
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643

PART IX CASES
CHAPTER 23 Cases 647

23.1 Charles Book Club . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647


The Book Industry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647
Database Marketing at Charles . . . . . . . . . . . . . . . . . . . . . . . . . . 648
Machine Learning Techniques . . . . . . . . . . . . . . . . . . . . . . . . . . 650
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 651
23.2 German Credit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 658
23.3 Tayko Software Cataloger . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659
The Mailing Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 661
23.4 Political Persuasion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663
Predictive Analytics Arrives in US Politics . . . . . . . . . . . . . . . . . . . . 663
Political Targeting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663
Uplift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665
23.5 Taxi Cancellations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 667
Business Situation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 667
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 667
23.6 Segmenting Consumers of Bath Soap . . . . . . . . . . . . . . . . . . . . . . . 669
Business Situation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669
Key Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 670
Measuring Brand Loyalty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 670
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 670
CONTENTS xix

23.7 Direct-Mail Fundraising . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673


Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673
Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673
23.8 Catalog Cross-Selling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676
23.9 Time Series Case: Forecasting Public Transportation Demand . . . . . . . . . . . 678
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 678
Problem Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 678
Available Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 678
Assignment Goal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 678
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 679
Tips and Suggested Steps . . . . . . . . . . . . . . . . . . . . . . . . . . . . 679
23.10 Loan Approval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 680
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 680
Regulatory Requirements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 680
Getting Started . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 680
Assignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 681

References 683

Data Files Used in the Book 687


Index 689
Foreword by Ravi Bapna

onverting data into an asset is the new business imperative facing mod-

C ern managers. Each day the gap between what analytics capabilities make

possible and companies’ absorptive capacity of creating value from such capa-

bilities increases. In many ways, data is the new gold—and mining this gold to

create business value in today’s context of a highly networked and digital society

requires a skillset that we haven’t traditionally delivered in business or statistics or

engineering programs on their own. For those businesses and organizations that

feel overwhelmed by today’s big data, the phrase you ain’t seen nothing yet comes

to mind. Yesterday’s three major sources of big data—the 20+ years of invest-

ment in enterprise systems (ERP, CRM, SCM, etc.), the 3 billion plus people

on the online social grid, and the close to 5 billion people carrying increasingly

sophisticated mobile devices—are going to be dwarfed by tomorrow’s smarter

physical ecosystems fueled by the Internet of Things (IoT) movement.

The idea that we can use sensors to connect physical objects such as homes,

automobiles, roads, and even garbage bins and streetlights to digitally optimized

systems of governance goes hand in glove with bigger data and the need for

deeper analytical capabilities. We are not far away from a smart refrigerator

sensing that you are short on, say, eggs, populating your grocery store’s mobile

app’s shopping list, and arranging a Task Rabbit to do a grocery run for you.

Or the refrigerator negotiating a deal with an Uber driver to deliver an evening

meal to you. Nor are we far away from sensors embedded in roads and vehicles

that can compute traffic congestion, track roadway wear and tear, record vehicle

use, and factor these into dynamic usage-based pricing, insurance rates, and even

taxation. This brave new world is going to be fueled by analytics and the ability

to harness data for competitive advantage.

Business Analytics is an emerging discipline that is going to help us ride

this new wave. This new Business Analytics discipline requires individuals who

are grounded in the fundamentals of business such that they know the right

questions to ask; who have the ability to harness, store, and optimally process

vast datasets from a variety of structured and unstructured sources; and who can

then use an array of techniques from machine learning and statistics to uncover

new insights for decision-making. Such individuals are a rare commodity today,

xxi
xxii FOREWORD BY RAVI BAPNA

but their creation has been the focus of this book for a decade now. This book’s

forte is that it relies on explaining the core set of concepts required for today’s

business analytics professionals using real-world data-rich cases in a hands-on

manner, without sacrificing academic rigor. It provides a modern-day founda-

tion for Business Analytics, the notion of linking the x’s to the y ’s of interest in

a predictive sense. I say this with the confidence of someone who was probably

the first adopter of the zeroth edition of this book (Spring 2006 at the Indian

School of Business).

After the publication of the R and Python editions, the new RapidMiner

edition is an important addition. RapidMiner is gaining in popularity among

analytics professionals as it is a non-programming environment that lowers the

barriers for managers to adopt analytics. The new addition also covers causal

analytics as experimentation (often called A/B testing in the industry), which

is now becoming mainstream in the tech companies. Further, the authors have

added a new chapter on Responsible Data Science, a new part on AutoML,

more on deep learning and beefed up deep learning examples in the text mining

and forecasting chapters. These updates make this new edition “state of the art”

with respect to modern business analytics and AI.

I look forward to using the book in multiple fora, in executive education,

in MBA classrooms, in MS-Business Analytics programs, and in Data Science

bootcamps. I trust you will too!

RAVI BAPNA

Carlson School of Management, University of Minnesota, 2022


Preface to the RapidMiner Edition

his textbook first appeared in early 2007 and has been used by numerous

T students and practitioners and in many courses, including our own expe-

rience teaching this material both online and in person for more than 15 years.

The first edition, based on the Excel add-in Analytic Solver Data Mining

(previously XLMiner), was followed by two more Analytic Solver editions, a

JMP edition, an R edition, a Python edition, and now this RapidMiner edition,

with its companion website, www.dataminingbook.com.

This new RapidMiner edition relies on the open source machine learning

platform RapidMiner Studio (generally called RapidMiner), which offers both free
and commercially-licensed versions.We present output from RapidMiner, as well

as the processes used to produce that output. We show the specification of the

appropriate operators from RapidMiner and some of its key extensions. Unlike

computer science- or statistics-oriented textbooks, the focus in this book is on

machine learning concepts and how to implement the associated algorithms in

RapidMiner. We assume a familiarity with the fundamentals of data analysis and

statistics. Basic knowledge of Python can be helpful for a few chapters.

For this RapidMiner edition, a new co-author, Amit Deokar comes

on board bringing both expertise teaching business analytics courses using

RapidMiner and extensive data science experience in working with businesses

on research and consulting projects. In addition to providing RapidMiner guid-

ance, and RapidMiner process and output screenshots, this edition also incor-

porates updates and new material based on feedback from instructors teaching

MBA, MS, undergraduate, diploma, and executive courses, and from their

students.

Importantly, this edition includes several new topics:

• A dedicated section on deep learning in Chapter 11, with additional deep


learning examples in text mining (Chapter 21) and time series forecasting

(Chapter 19).

• A new chapter on Responsible Data Science (Chapter 22) covering topics

of fairness, transparency, model cards and datasheets, legal considerations,

and more, with an illustrative example.

xxiii
xxiv PREFACE TO THE RAPIDMINER EDITION

• The Performance Evaluation exposition in Chapter 5 was expanded to

include further metrics (precision and recall, F1, AUC) and the SMOTE

oversampling method.

• A new chapter on Generating, Comparing, and Combining Multiple Models


(Chapter 13) that covers AutoML, explaining model predictions, and

ensembles.

• A new chapter dedicated to Interventions and User Feedback (Chapter 14),


that covers A/B tests, uplift modeling, and reinforcement learning.

• A new case (Loan Approval) that touches on regulatory and ethical issues.

A note about the book’s title: The first two editions of the book used

the title Data Mining for Business Intelligence. Business intelligence today refers

mainly to reporting and data visualization (“what is happening now”), while

business analytics has taken over the “advanced analytics,” which include pre-

dictive analytics and data mining. Later editions were therefore renamed

Data Mining for Business Analytics. However, the recent AI transformation

has made the term machine learning more popularly associated with the meth-

ods in this textbook. In this new edition, we therefore use the updated

terms Machine Learning and Business Analytics.


Since the appearance of the (Analytic Solver-based) second edition, the land-

scape of the courses using the textbook has greatly expanded: whereas initially

the book was used mainly in semester-long elective MBA-level courses, it is

now used in a variety of courses in business analytics degrees and certificate

programs, ranging from undergraduate programs to postgraduate and execu-

tive education programs. Courses in such programs also vary in their dura-

tion and coverage. In many cases, this textbook is used across multiple courses.

The book is designed to continue supporting the general “predictive analyt-

ics”, “data mining”, or “machine learning” course as well as supporting a set of

courses in dedicated business analytics programs.

A general “business analytics,” “predictive analytics,” or “machine learn-

ing” course, common in MBA and undergraduate programs as a one-semester

elective, would cover Parts I–III, and choose a subset of methods from Parts IV

and V. Instructors can choose to use cases as team assignments, class discussions,

or projects. For a two-semester course, Part VII might be considered, and we

recommend introducing Part VIII (Data Analytics).

For a set of courses in a dedicated business analytics program, here are a few

courses that have been using our book:

Predictive Analytics—Supervised Learning: In a dedicated business analytics

program, the topic of predictive analytics is typically instructed across a set

of courses. The first course would cover Parts I–III, and instructors typically

choose a subset of methods from Part IV according to the course length.

We recommend including Part VIII: Data Analytics.


PREFACE TO THE RAPIDMINER EDITION xxv

Predictive Analytics—Unsupervised Learning: This course introduces data

exploration and visualization, dimension reduction, mining relationships,

and clustering (Parts II and VI). If this course follows the Predictive

Analytics: Supervised Learning course, then it is useful to examine examples

and approaches that integrate unsupervised and supervised learning, such as

Part VIII on Data Analytics.

Forecasting analytics: A dedicated course on time series forecasting would rely

on Part VI.

Advanced analytics: A course that integrates the learnings from predictive ana-

lytics (supervised and unsupervised learning) can focus on Part VIII: Data

Analytics, where social network analytics and text mining are introduced,

and responsible data science is discussed. Such a course might also include

Chapter 13, Generating, Comparing, and Combining Multiple Models and

AutoML from Part IV, as well as Part V, which covers experiments, uplift

modeling, and reinforcement learning. Some instructors choose to use the

cases (Chapter 23) in such a course.

In all courses, we strongly recommend including a project component,

where data are either collected by students according to their interest or provided

by the instructor (e.g., from the many machine learning competition datasets

available). From our experience and other instructors’ experience, such projects

enhance the learning and provide students with an excellent opportunity to

understand the strengths of machine learning and the challenges that arise in the

process.

GALIT SHMUELI, P ETER C. BRUCE, AMIT V. DEOKAR, AND N ITIN R. PATEL

2022
Acknowledgments

e thank the many people who assisted us in improving the book from its

W Data Mining for Business Intelligence in 2006 (using XLMiner,


inception as

now Analytic Solver), its reincarnation as Data Mining for Business Analytics, and

now Machine Learning for Business Analytics, including translations in Chinese and

Korean and versions supporting Analytic Solver Data Mining, R, Python, SAS

JMP, and now RapidMiner.

Anthony Babinec, who has been using earlier editions of this book for years

in his data mining courses at Statistics.com, provided us with detailed and expert

corrections. Dan Toy and John Elder IV greeted our project with early enthu-

siasm and provided detailed and useful comments on initial drafts. Ravi Bapna,

who used an early draft in a data mining course at the Indian School of Busi-

ness and later at University of Minnesota, has provided invaluable comments and

helpful suggestions since the book’s start.

Many of the instructors, teaching assistants, and students using earlier edi-

tions of the book have contributed invaluable feedback both directly and indi-

rectly, through fruitful discussions, learning journeys, and interesting machine

learning projects that have helped shape and improve the book. These include

MBA students from the University of Maryland, MIT, the Indian School of

Business, National Tsing Hua University, University of Massachusetts Lowell,

and Statistics.com. Instructors from many universities and teaching programs,

too numerous to list, have supported and helped improve the book since its

inception. Scott Nestler has been a helpful friend of this book project from the

beginning.

Kuber Deokar, instructional operations supervisor at Statistics.com, has been

unstinting in his assistance, support, and detailed attention. We also thank Anuja

Kulkarni, assistant teacher at Statistics.com. Valerie Troiano has shepherded

many instructors and students through the Statistics.com courses that have helped

nurture the development of these books.

Colleagues and family members have been providing ongoing feedback and

assistance with this book project. Vijay Kamble at UIC and Travis Greene

at NTHU have provided valuable help with the section on reinforcement

learning. Boaz Shmueli and Raquelle Azran gave detailed editorial comments

xxvii
xxviii ACKNOWLEDGMENTS

and suggestions on the first two editions; Bruce McCullough and Adam Hughes

did the same for the first edition. Noa Shmueli provided careful proofs of the

third edition. Ran Shenberger offered design tips. Che Lin and Boaz Shmueli

provided feedback on deep learning. Ken Strasma, founder of the microtarget-

ing firm HaystaqDNA and director of targeting for the 2004 Kerry campaign

and the 2008 Obama campaign, provided the scenario and data for the section

on uplift modeling. We also thank Jen Golbeck, director of the Social Intelli-

gence Lab at the University of Maryland and author of Analyzing the Social Web,
whose book inspired our presentation in the chapter on social network analytics.

Inbal Yahav and Peter Gedeck, co-authors of the R and Python editions, helped

improve the social network analytics and text mining chapters. Randall Pruim

contributed extensively to the chapter on visualization. Inbal Yahav, co-author

of the R edition, helped improve the social network analytics and text mining

chapters.

Marietta Tretter at Texas A&M shared comments and thoughts on the time

series chapters, and Stephen Few and Ben Shneiderman provided feedback and

suggestions on the data visualization chapter and overall design tips.

Susan Palocsay and Mia Stephens have provided suggestions and feedback

on numerous occasions, as have Margret Bjarnadottir and Mohammad Salehan.

We also thank Catherine Plaisant at the University of Maryland’s Human–

Computer Interaction Lab, who helped out in a major way by contributing

exercises and illustrations to the data visualization chapter. Gregory Piatetsky-

Shapiro, founder of KDNuggets.com, has been generous with his time and

counsel in the early years of this project.

We thank colleagues at the MIT Sloan School of Management for their sup-

port during the formative stage of this book—Dimitris Bertsimas, James Orlin,

Robert Freund, Roy Welsch, Gordon Kaufmann, and Gabriel Bitran. As teach-

ing assistants for the data mining course at Sloan, Adam Mersereau gave detailed

comments on the notes and cases that were the genesis of this book, Romy

Shioda helped with the preparation of several cases and exercises used here, and

Mahesh Kumar helped with the material on clustering.

Colleagues at the University of Maryland’s Smith School of Business:

Shrivardhan Lele, Wolfgang Jank, and Paul Zantek provided practical advice and

comments. We thank Robert Windle and University of Maryland MBA stu-

dents Timothy Roach, Pablo Macouzet, and Nathan Birckhead for invaluable

datasets. We also thank MBA students Rob Whitener and Daniel Curtis for the

heatmap and map charts.

We are grateful to colleagues at UMass Lowell’s Manning School of Business

for their encouragement and support in developing data analytics courses at the

undergraduate and graduate levels that led to the development of this edition:

Luvai Motiwalla, Harry Zhu, Thomas Sloan, Bob Li, and Sandra Richtermeyer.
ACKNOWLEDGMENTS xxix

We also thank Michael Goul (late), Dan Power (late), Ramesh Sharda, Babita

Gupta, Ashish Gupta, Uday Kulkarni, and Haya Ajjan from the Association for

Information System’s Decision Support and Analytics (SIGDSA) community for

ideas and advice that helped the development of the book.

Anand Bodapati provided both data and advice. Jake Hofman from Micro-

soft Research and Sharad Borle assisted with data access. Suresh Ankolekar and

Mayank Shah helped develop several cases and provided valuable pedagogical

comments. Vinni Bhandari helped write the Charles Book Club case.

We would like to thank Marvin Zelen, L. J. Wei, and Cyrus Mehta at

Harvard, as well as Anil Gore at Pune University, for thought-provoking discus-

sions on the relationship between statistics and machine learning. Our thanks to

Richard Larson of the Engineering Systems Division, MIT, for sparking many

stimulating ideas on the role of machine learning in modeling complex systems.

Over two decades ago, they helped us develop a balanced philosophical perspec-

tive on the emerging field of machine learning.

Our thanks to Scott Genzer at RapidMiner, Inc., for insightful discussions

and help. We are appreciative of the vibrant online RapidMiner Community for

being an extremely helpful resource. We also thank Ingo Mierswa, the Founder

of RapidMiner, for his encouragement and support.

Lastly, we thank the folks at Wiley for the 15-year successful journey of

this book. Steve Quigley at Wiley showed confidence in this book from the

beginning and helped us navigate through the publishing process with great

speed. Curt Hinrichs’ vision, tips, and encouragement helped bring this book

to the starting gate. Brett Kurzman has taken over the reins and is now

shepherding the project with the help of Kavya Ramu and Sarah Lemore.

Sarah Keegan, Mindy Okura-Marszycki, Jon Gurstelle, Kathleen Santoloci, and

Katrina Maceda greatly assisted us in pushing ahead and finalizing earlier editions.

We are also especially grateful to Amy Hendrickson, who assisted with typeset-

ting and making this book beautiful.


Part I

Preliminaries
CHAPTER 1
Introduction

1.1 What Is Business Analytics?


Business analytics (BA) is the practice and art of bringing quantitative data to bear
on decision making. The term means different things to different organizations.

Consider the role of analytics in helping newspapers survive the transition

to a digital world. One tabloid newspaper with a working-class readership in

Britain had launched a web version of the paper and did tests on its home page

to determine which images produced more hits: cats, dogs, or monkeys. This

simple application, for this company, was considered analytics. By contrast, the

Washington Post has a highly influential audience that is of interest to big defense
contractors: it is perhaps the only newspaper where you routinely see adver-

tisements for aircraft carriers. In the digital environment, the Post can track

readers by time of day, location, and user subscription information. In this fash-

ion, the display of the aircraft carrier advertisement in the online paper may be

focused on a very small group of individuals---say, the members of the House

and Senate Armed Services Committees who will be voting on the Pentagon’s

budget.

Business analytics, or more generically, analytics, includes a range of data

analysis methods. Many powerful applications involve little more than counting,

rule checking, and basic arithmetic. For some organizations, this is what is meant

by analytics.

The next level of business analytics, now termed business intelligence (BI),

refers to data visualization and reporting for understanding “what happened and

what is happening.” This is done by use of charts, tables, and dashboards to

display, examine, and explore data. BI, which earlier consisted mainly of gener-

ating static reports, has evolved into more user-friendly and effective tools and

Machine Learning for Business Analytics: Concepts, Techniques and Applications in RapidMiner, First Edition.

Galit Shmueli, Peter C. Bruce, Amit V. Deokar, and Nitin R. Patel

© 2023 John Wiley & Sons, Inc. Published 2023 by John Wiley & Sons, Inc.

3
4 1 INTRODUCTION

practices, such as creating interactive dashboards that allow the user not only

to access real-time data but also to directly interact with it. Effective dash-

boards are those that tie directly into company data and give managers a tool

to quickly see what might not readily be apparent in a large complex database.

One such tool for industrial operations managers displays customer orders in a

single two-dimensional display, using color and bubble size as added variables,

showing customer name, type of product, size of order, and length of time to

produce.

Business analytics now typically includes BI as well as sophisticated data anal-

ysis methods, such as statistical models and machine learning algorithms used for

exploring data, quantifying and explaining relationships between measurements,

and predicting new records. Methods like regression models are used to describe

and quantify “on average” relationships (e.g., between advertising and sales), to

predict new records (e.g., whether a new patient will react positively to a med-

ication), and to forecast future values (e.g., next week’s web traffic).

Readers familiar with earlier editions of this book might have noticed that

the book title changed from Data Mining for Business Intelligence to Data Mining
for Business Analytics and, finally, in this edition to Machine Learning for Business

Analytics. The change reflects the more recent term BA, which overtook the

earlier term BI to denote advanced analytics. Today, BI is used to refer to data

visualization and reporting. The change from data mining to machine learning
reflects today’s common use of machine learning to refer to algorithms that learn
from data. This book uses primarily the term machine learning .

WHO USES PREDICTIVE ANALYTICS?

The widespread adoption of predictive analytics, coupled with the accelerating avail-
ability of data, has increased organizations’ capabilities throughout the economy.
A few examples are as follows:

Credit scoring: One long-established use of predictive modeling techniques for


business prediction is credit scoring. A credit score is not some arbitrary judgment
of credit-worthiness; it is based mainly on a predictive model that uses prior data
to predict repayment behavior.
Future purchases: A controversial example is Target’s use of predictive modeling
to classify sales prospects as “pregnant” or “not-pregnant.” Those classified as
pregnant could then be sent sales promotions at an early stage of pregnancy,
giving Target a head start on a significant purchase stream.
Tax evasion: The US Internal Revenue Service found it was 25 times more likely
to find tax evasion when enforcement activity was based on predictive models,
allowing agents to focus on the most likely tax cheats (Siegel, 2013).
1.3 MACHINE LEARNING, AI, AND RELATED TERMS 5

The business analytics toolkit also includes statistical experiments, the most

common of which is known to marketers as A/B testing. These are often used

for pricing decisions:

• Orbitz, the travel site, found that it could price hotel options higher for

Mac users than Windows users.

• Staples online store found it could charge more for staplers if a customer

lived far from a Staples store.

Beware the organizational setting where analytics is a solution in search of

a problem: a manager, knowing that business analytics and machine learning

are hot areas, decides that her organization must deploy them too, to capture

that hidden value that must be lurking somewhere. Successful use of analytics

and machine learning requires both an understanding of the business context

where value is to be captured and an understanding of exactly what the machine

learning methods do.

1.2 What Is Machine Learning?


In this book, machine learning (or data mining) refers to business analytics meth-

ods that go beyond counts, descriptive techniques, reporting, and methods based

on business rules. While we do introduce data visualization, which is com-

monly the first step into more advanced analytics, the book focuses mostly on

the more advanced data analytics tools. Specifically, it includes statistical and

machine learning methods that inform decision making, often in automated

fashion. Prediction is typically an important component, often at the individual

level. Rather than “what is the relationship between advertising and sales,” we

might be interested in “what specific advertisement, or recommended product,

should be shown to a given online shopper at this moment?” Or, we might be

interested in clustering customers into different “personas” that receive differ-

ent marketing treatment and then assigning each new prospect to one of these

personas.

The era of big data has accelerated the use of machine learning. Machine

learning algorithms, with their power and automaticity, have the ability to cope

with huge amounts of data and extract value.

1.3 Machine Learning, AI, and Related Terms


The field of analytics is growing rapidly, both in terms of the breadth of appli-

cations and in terms of the number of organizations using advanced analytics.

As a result, there is considerable overlap and inconsistency of definitions. Terms

have also changed over time.


6 1 INTRODUCTION

The older term data mining means different things to different people. To

the general public, it may have a general, somewhat hazy and pejorative meaning

of digging through vast stores of (often personal) data in search of something

interesting. Data mining, as it refers to analytic techniques, has largely been


superseded by the term machine learning . Other terms that organizations use

are predictive analytics , predictive modeling , and most recently machine learning and

artificial intelligence (AI).


Many practitioners, particularly those from the IT and computer science

communities, use the term AI to refer to all the methods discussed in this book.
AI originally referred to the general capability of a machine to act like a human,

and, in its earlier days, existed mainly in the realm of science fiction and the unre-

alized ambitions of computer scientists. More recently, it has come to encompass

the methods of statistical and machine learning discussed in this book, as the pri-

mary enablers of that grand vision, and sometimes the term is used loosely to

mean the same thing as machine learning. More broadly, it includes generative

capabilities such as the creation of images, audio, and video.

Statistical Modeling vs. Machine Learning


A variety of techniques for exploring data and building models have been around

for a long time in the world of statistics: linear regression, logistic regression,

discriminant analysis, and principal components analysis, for example. How-

ever, the core tenets of classical statistics---computing is difficult and data are

scarce---do not apply in machine learning applications where both data and com-

puting power are plentiful.

This gives rise to Daryl Pregibon’s description of “data mining” (in the

sense of machine learning) as “statistics at scale and speed” (Pregibon, 1999).

Another major difference between the fields of statistics and machine learning

is the focus in statistics on inference from a sample to the population regard-

ing an “average effect”---for example, “a $1 price increase will reduce average

demand by 2 boxes.” In contrast, the focus in machine learning is on predict-

ing individual records---“the predicted demand for person i given a $1 price

increase is 1 box, while for person j it is 3 boxes.” The emphasis that classi-

cal statistics places on inference (determining whether a pattern or interesting

result might have happened by chance in our sample) is absent from machine

learning. Note also that the term inference is often used in the machine learn-

ing community to refer to the process of using a model to make predictions

for new data, also called scoring, in contrast to its meaning in the statistical

community.

In comparison with statistics, machine learning deals with large datasets in

an open-ended fashion, making it impossible to put the strict limits around

the question being addressed that classical statistical inference would require.
1.4 BIG DATA 7

As a result, the general approach to machine learning is vulnerable to the danger

of overfitting, where a model is fit so closely to the available sample of data that it


describes not merely structural characteristics of the data but random peculiar-

ities as well. In engineering terms, the model is fitting the noise, not just the

signal.

In this book, we use the term machine learning algorithm to refer to methods
that learn directly from data, especially local patterns, often in layered or itera-

tive fashion. In contrast, we use statistical models to refer to methods that apply

global structure to the data that can be written as a simple mathematical equation.

A simple example is a linear regression model (statistical) vs. a k -nearest neigh-

bors algorithm (machine learning). A given record would be treated by linear

regression in accord with an overall linear equation that applies to all the records.
In k -nearest neighbors, that record would be classified in accord with the values

of a small number of nearby records.

1.4 Big Data


Machine learning and big data go hand in hand. Big data is a relative term---data
today are big by reference to the past and to the methods and devices available

to deal with them. The challenge big data presents is often characterized by the

four V’s---volume, velocity, variety, and veracity. Volume refers to the amount of
data. Velocity refers to the flow rate---the speed at which it is being generated

and changed. Variety refers to the different types of data being generated (time

stamps, location, numbers, text, images, etc.). Veracity refers to the fact that

data is being generated by organic distributed processes (e.g., millions of people

signing up for services or free downloads) and not subject to the controls or

quality checks that apply to data collected for a study.

Most large organizations face both the challenge and the opportunity of

big data because most routine data processes now generate data that can be

stored and, possibly, analyzed. The scale can be visualized by comparing the

data in a traditional statistical analysis (e.g., 15 variables and 5000 records) to the

Walmart database. If you consider the traditional statistical study to be the size

of a period at the end of a sentence, then the Walmart database is the size of a

football field. Moreover, that probably does not include other data associated

with Walmart---social media data, for example, which comes in the form of

unstructured text.

If the analytical challenge is substantial, so can be the reward:

• OKCupid, the online dating site, uses statistical models with their data

to predict what forms of message content are most likely to produce a

response.
8 1 INTRODUCTION

• Telenor, a Norwegian mobile phone service company, was able to reduce

subscriber turnover 37% by using models to predict which customers were

most likely to leave and then lavishing attention on them.

• Allstate, the insurance company, tripled the accuracy of predicting injury

liability in auto claims by incorporating more information about vehicle

type.

The examples above are from Eric Siegel’s book Predictive Analytics (2013, Wiley).
Some extremely valuable tasks were not even feasible before the era of big

data. Consider web searches, the technology on which Google was built. In early

days, a search for “Ricky Ricardo Little Red Riding Hood” would have yielded

various links to the I Love Lucy TV show, other links to Ricardo’s career as a band
leader, and links to the children’s story of Little Red Riding Hood. Only once

the Google database had accumulated sufficient data (including records of what

users clicked on) would the search yield, in the top position, links to the specific

I Love Lucy episode in which Ricky enacts, in a comic mixture of Spanish and

English, Little Red Riding Hood for his infant son.

1.5 Data Science


The ubiquity, size, value, and importance of big data has given rise to a new

profession: the data scientist. Data science is a mix of skills in the areas of statistics,
machine learning, math, programming, business, and IT. The term itself is thus

broader than the other concepts we discussed above, and it is a rare individual

who combines deep skills in all the constituent areas. In their book Analyzing
the Analyzers (Harris et al., 2013), the authors describe the skillsets of most data
scientists as resembling a “T”--deep in one area (the vertical bar of the T) and

shallower in other areas (the top of the T).

At a large data science conference session (Strata-Hadoop World, October

2014), most attendees felt that programming was an essential skill, though there

was a sizable minority who felt otherwise. Also, although big data is the motivat-

ing power behind the growth of data science, most data scientists do not actually

spend most of their time working with terabyte-size or larger data.

Data of the terabyte or larger size would be involved at the deployment stage

of a model. There are manifold challenges at that stage, most of them IT and

programming issues related to data handling and tying together different compo-

nents of a system. Much work must precede that phase. It is that earlier piloting

and prototyping phase on which this book focuses--developing the statistical and

machine learning models that will eventually be plugged into a deployed system.

What methods do you use with what sorts of data and problems? How do the
1.7ÂTERMINOLOGYÂANDÂNOTATIONÂ 9Â

       Â
methods work? What are their requirements, their strengths, their weaknesses? Â
HowÂ
doÂ
youÂ
assessÂ
theirÂ
performance?Â

1.6Â WhyÂAreÂThereÂSoÂManyÂDifferentÂ
Methods?Â
   Â  Â     Â
As can be seen in this book or any other resource on machine learning, there are   Â
many different Â
methods ÂforÂpredictionÂandÂclassiï¬ cation.You  ÂmightÂaskÂyourselfÂ
why they coexist and whether some areÂbetterÂthan others. The answer isÂthatÂ

each method hasÂadvantages and disadvantages. The usefulness ofÂaÂmethod canÂ

depend on factorsÂsuch asÂtheÂsize ofÂtheÂdataset, theÂtypes ofÂpatterns that existÂ

inÂtheÂdata, whether the dataÂmeet some underlying assumptions ofÂthe method,Â

how noisy theÂdata are,Âand theÂparticular goalÂofÂthe analysis.ÂA smallÂillustrationÂ

isÂ
shown inÂFigure 1.1,Âwhere the goalÂisÂ
toÂï¬ ndaÂcombination ofÂhouseholdÂincomeÂ
levelÂandÂhouseholdÂlotÂsizeÂthatÂseparatesÂownersÂ(solidÂcircles)ÂfromÂnonownersÂ
(hollow circles)ÂofÂriding mowers.ÂTheÂ ï¬ rstmethod
 Â(leftÂpanel)ÂlooksÂonlyÂforÂ
horizontal and vertical linesÂto separate owners from nonowners;Âthe secondÂ

method (right panel) looks forÂa singleÂdiagonal line.Â

FIGUREÂ1.1Â TWOÂMETHODSÂFORÂSEPARATINGÂOWNERSÂFROMÂNONOWNERSÂ

Differentmethods
 ÂcanÂleadÂtoÂdifferentresults,
 ÂandÂtheirÂperformanceÂcanÂ
vary.ÂItÂ
isÂthereforeÂcustomary inÂmachine learningÂtoÂapplyÂseveralÂdifferentÂ

methods (andÂperhaps theirÂ


combination) and selectÂ
theÂoneÂthatÂappears mostÂ

usefulÂ
forÂtheÂgoalÂatÂ
hand.Â

1.7Â TerminologyÂandÂNotationÂ
ÂÂ Â Â ÂÂ Â ÂÂ Â Â Â
Because of the hybrid parentry of data science, its practitioners often use multiple Â
terms to referÂtoÂtheÂsame thing.ÂFor example,ÂinÂthe machine learning andÂ

artiï¬ cialintelligence
  ÂvariableÂbeingÂpredictedÂisÂtheÂoutputÂvariableÂorÂ
Âï¬ elds,the
10 1 INTRODUCTION

target variable. A categorical target variable is often called a label. To a statistician


or social scientist, the variable being predicted is the dependent variable or the
response. Here is a summary of terms used:

Algorithm A specific procedure used to implement a particular machine

learning technique: classification tree, discriminant analysis, and the like.

Attribute Any measurement on the records, including both the input (X )

variables and the output ( Y) variable.

Binary attribute A variable that takes on two discrete values (e.g., fraud and
non-fraud transactions); also called binominal attribute.
Case See Record.
Categorical attribute See Nominal attribute.
Class label See Label.
Confidence A performance measure in association rules of the type “IF A and
B are purchased, THEN C is also purchased.” Confidence is the conditional

probability that C will be purchased IF A and B are purchased.

Confidence In classification problems, it is used to denote the probability of

belonging to a certain class.

Confidence Also has a broader meaning in statistics ( confidence interval), con-


cerning the degree of error in an estimate that results from selecting one

sample as opposed to another.

Dependent variable See Target attribute.


Estimation See Prediction.
Example See Record.
Feature See Attribute. The term feature is also used in the context of select-
ing attributes (feature selection) or generating new attributes (feature generation )

through some mechanism. More broadly, this process is called feature engi-

neering. This usage is adopted in certain RapidMiner operator names.


Holdout data (or holdout set) The portion of the data used only at the end
of the model building and selection process to assess how well the final model

might perform on new data; also called test set.


Inference In statistics, the process of accounting for chance variation when

making estimates or drawing conclusions based on samples; in machine

learning, the term often refers to the process of using a model to make

predictions for new data (see Score).


Input variable See Attribute.
Label A nominal (categorical) attribute being predicted in supervised learning.
Model An algorithm as applied to a dataset, complete with its settings (many
of the algorithms have parameters that the user can adjust).
1.7 TERMINOLOGY AND NOTATION 11

Nominal attribute A variable that takes on one of several fixed values, for

example, a flight could be on-time, delayed, or canceled; also called categorical


variable or polynominal attribute.
Numerical attribute A variable that takes on numeric (integer or real) values;
also called numerical variable.

Observation See Record .


Outcome variable See Target attribute.
Output variable See Target attribute.
P (A|B) The conditional probability of event A occurring given that event

B has occurred. Read as “the probability that A will occur given that B has

occurred.”

Positive class The class of interest in a binary target attribute (e.g., purchasers
in the target attribute purchase/no purchase); the positive class need not be

favorable.

Prediction The prediction of the numerical value of a continuous output vari-

able; also called estimation.


Predictor A variable, usually denoted by X , used as an input into a predictive

model. Also called afeature, input variable, independent variable, or, from a
database perspective, a field.

Record The unit of analysis on which the measurements are taken (a cus-
tomer, a transaction, etc.); also called example , instance , case , observation, sam-

ple, pattern, or row. In spreadsheets, each row typically represents a record;


each column, a variable. Note that the use of the term “sample” here is

different from its usual meaning in statistics, where it refers to a collection

of observations.

Profile A set of measurements on an observation (e.g., the height, weight, and

age of a person).

Response See Target attribute.


Sample In the statistical community, “sample” means a collection of observa-

tions. In the machine learning community, “sample” means a single obser-

vation.

Score A predicted value or class. Scoring new data means using a model devel-
oped with training data to predict output values in new data.

Success class See Positive class.


Supervised learning The process of providing an algorithm (logistic regres-
sion, classification tree, etc.) with records in which an output variable of

interest is known and the algorithm “learns” how to predict this value for

new records where the output is unknown.


12 1 INTRODUCTION

Target attribute A variable, usually denoted by Y , which is the variable being

predicted in supervised learning; also called dependent variable, output variable,


target variable, or outcome variable.
Test data (or test set) A sample of data not used in fitting a model, but instead
used to assess the performance of that model; also called holdout data. This

book uses the term holdout set instead and uses the term testing to refer to cer-

tain validation checks (e.g., in the Split-Validation and Cross-Validation nested

operators in RapidMiner) during the model-tuning phase.

Training data (or training set) The portion of the data used to fit a model.
Unsupervised learning An analysis in which one attempts to learn patterns

in the data other than predicting an output value of interest.

Validation data (or validation set) The portion of the data used to assess

how well the model fits, to adjust models, and to select the best model from

among those that have been tried.

Variable See Attribute. In RapidMiner, the term attribute is used.

1.8 Road Maps to This Book


The book covers many of the widely used predictive and classification methods as

well as other machine learning tools. Figure 1.2 outlines machine learning from

a process perspective and where the topics in this book fit in. Chapter numbers

are indicated beside the topic. Table 1.1 provides a different perspective: it

organizes supervised and unsupervised machine learning procedures according

to the type and structure of the data.

Order of Topics
The book is divided into nine parts: Part I (Chapters 1–2) gives a general

overview of machine learning and its components. Part II (Chapters 3–4) focuses

on the early stages of data exploration and dimension reduction.

Part III (Chapter 5) discusses performance evaluation. Although it con-

tains only one chapter, we discuss a variety of topics, from predictive perfor-

mance metrics to misclassification costs. The principles covered in this part

are crucial for the proper evaluation and comparison of supervised learning

methods.

Part IV includes eight chapters (Chapters 6–13), covering a variety of popular

supervised learning methods (for classification and/or prediction). Within this

part, the topics are generally organized according to the level of sophistication

of the algorithms, their popularity, and ease of understanding. The final chapter

introduces ensembles and combinations of methods.


1.8 ROAD MAPS TO THIS BOOK 13

Prediction
Linear regression (6)
k-Nearest neighbors (7)
Regression trees (9)
Neural networks (11)
Ensembles, AutoML (13)

Supervised
Classification
k-Nearest neighbors (7) Model evaluation
Data preparation, Naïve Bayes (8) and selection Model
exploration, and Classification trees (9) Performance deployment
reduction Logistic regression (10) evaluations (5) Score new data
Data preparation (2,17) Neural networks (11) Responsible DS (22)
Data visualization (3) Discriminant analysis (12)
Dimension reduction (4) Ensembles, AutoML (13)

Time series forecasting


Regression-based (18)
Smoothing methods (19)

What goes together


Unsupervised

Association rules (15)


Collaborative filtering (15)
Deriving
Segmentation insight
Cluster analysis (16)
Intervention

Experiments (14)
A/B testing
Uplift modeling
Reinforcement learning

FIGURE 1.2 MACHINE LEARNING FROM A PROCESS PERSPECTIVE. NUMBERS IN PARENTHESES


INDICATE CHAPTER NUMBERS

TABLE 1.1 ORGANIZATION OF MACHINE LEARNING METHODS IN THIS BOOK, ACCORDING TO


THE NATURE OF THE DATA a

Supervised Unsupervised
Continuous Categorical
response response No response
Continuous Linear regression (6) Logistic regression (10) Principal components (4)
predictors Neural nets (11) Neural nets (11) Cluster analysis (16)
k -Nearest neighbors (7) Discriminant analysis (12) Collaborative filtering (15)

Ensembles (13) k-Nearest neighbors (7)


Ensembles (13)

Categorical Linear regression (6) Neural nets (11) Association rules (15)
predictors Neural nets (11) Classification trees (9) Collaborative filtering (15)

Regression trees (9) Logistic regression (10)


Ensembles (13) Naive Bayes (8)
Ensembles (13)
a Numbers in parentheses indicate the chapter number.

Part V (Chapter 14) introduces the notions of experiments, intervention,

and user feedback. This single chapter starts with A/B testing and then its use in

uplift modeling and finally expands into reinforcement learning, explaining the

basic ideas and formulations that utilize user feedback for learning best treatment

assignments.
14 1 INTRODUCTION

Part VI focuses on unsupervised learning of relationships. It presents

association rules and collaborative filtering (Chapter 15) and cluster analysis

(Chapter 16).

Part VII includes three chapters (Chapters 17–19), with the focus on fore-

casting time series. The first chapter covers general issues related to handling

and understanding time series. The next two chapters present two popular fore-

casting approaches: regression-based forecasting and smoothing methods.

Part VIII presents two broad data analytics topics: social network analy-

sis (Chapter 20) and text mining (Chapter 21). These methods apply machine

learning to specialized data structures: social networks and text. The final chap-

ter on responsible data science (Chapter 22) introduces key issues to consider for

when carrying out a machine learning project in a responsible way.

Finally, Part IX includes a set of cases.

Although the topics in the book can be covered in the order of the chapters,

each chapter stands alone. We advise, however, to read parts I–III before pro-

ceeding to chapters in Parts IV–VI. Similarly, Chapter 17 should precede other

chapters in Part VII.

1.9 Using RapidMiner Studio


To facilitate hands-on machine learning experience, this book uses RapidMiner
Studio (commonly referred in this book as RapidMiner), a commercial machine
learning software, available for free (limited to data with 10,000 records), partic-

ularly for educational purposes (no data limitations). It provides an interactive

environment with a drag-and-drop interface in which you can easily perform

machine learning tasks by creating and executing processes based on relevant

operators.

RapidMiner helps you get started quickly on machine learning and offers

a variety of operators for analyzing data. The illustrations, exercises, and cases

in this book are written in relation to this software. RapidMiner has extensive

coverage of machine learning techniques for classification, prediction, mining

associations and text, forecasting, and data exploration and reduction. It offers

a variety of operators supporting supervised learning algorithms: neural nets,

classification and regression trees, k -nearest-neighbor classification, naive Bayes,

logistic regression, linear regression, and discriminant analysis, all for predictive

modeling. It provides for automatic partitioning of data into training, validation,

and holdout samples and for the deployment of the model to new data. It

also offers unsupervised algorithms: association rules, principal components

analysis, k -means clustering, and hierarchical clustering, as well as visualization

tools and data-handling utilities. With its short learning curve, free educational
1.9 USING RAPIDMINER STUDIO 15

license program, it is an ideal companion to a book on machine learning for

the business student.

To download RapidMiner Studio, visit www.rapidminer.com and create

an account. Follow the instructions there to download and install the latest

version of RapidMiner Studio for your operating system. For information

on RapidMiner’s Educational License Program, visit https://rapidminer.com/

educational-program/.

Once RapidMiner Studio is downloaded and installed with a license, upon

launching, the primary interface looks similar to that shown in Figure 1.3. The

RapidMiner interface provides five different views, highlighted in blue. Clicking

on these views allows one to toggle between them. The Design and Process

views are the most frequently used. We will also introduce Turbo Prep and

Auto Model views later in the book. The Deployments view is needed only

when putting chosen models into production use.

The Design view is where a data scientist can create machine learning

processes by combining and configuring various operators. One such pro-

cess is shown in the figure (the process is elaborated later in Section 2.6).

In RapidMiner, an operator is a container (internally containing code) perform-


ing a specific machine learning task (e.g., selecting attributes), each with its

own parameters. The Design view includes multiple display units called panels,

which can be moved and resized. The default panels include Repository, Oper-

ators, Process, Parameters, and Help. Additional panels can be activated from the

View menu. The View > Restore Default View option from the main menu is

often useful for restoring the default location and size of these panels.

To keep different artifacts organized, RapidMiner uses the notion of repos-


itory, which is a folder-like structure for organizing data, processes, and models

(for deployment). After creating a repository, it is best practice to create subfold-

ers data and processes. The Repository panel is useful for managing the reposito-

ries and related artifacts. Upon designing a process in the Process panel, it can

processes subfolder by right-clicking and selecting the Store Process


be stored in the

Here option. For example, the process 02-02-West Roxbury Preprocessing is stored
in the processes subfolder in the MLBA repository. To execute a process, the

blue “play” button is used, shown among the icons above the Repository view.

If the process executes properly and the output ports are connected to some

modeling artifacts (e.g., performance metrics), the view switches automatically

to the Results view for the user to analyze the results. The Operators panel is

useful for quickly searching or navigating through a plethora of operators avail-

able for different tasks. The Parameters panel is used for configuring operators,

and the Help panel is self-explanatory.

For more details on the RapidMiner interface, see https://academy.

rapidminer.com/courses/rapidminer-studio-gui-intro.
Another random document with
no related content on Scribd:
geteilt, durch die Malerei tief durchschimmert und so des
Flächenwertes beraubt werden muß.

Abb. 56. Gotisches Pfeilerkapitell.


Reims, Kathedrale.
Mit dieser Zerstörung der Wand bekommt natürlich der Pfeiler
einen um so größeren Wert. War er noch in Noyon (Abb. 49) der
Wand einfach vorgelagert, hindern selbst noch in Reims (Abb. 54 a),
wo die Wand schon fast ganz zerstört ist, die horizontalen
Triforiensimse, die über ihn hinweggeführt sind, sein freies
Emporsteigen, so sind in Straßburg (Abb. 55) alle diese Hemmnisse
verschwunden, und der Pfeiler entwickelt eine ganz neue Kraft.
Seine Gliederung, um nicht zu sagen Spaltung durch die
Nebenpfeiler (Dienste), die sich um den Kern legen, gibt ihm
dieselbe pfeilschnelle Aufwärtsbewegung wie der korinthischen
Säule ihre Kannelüren — ich sage absichtlich der korinthischen,
denn es handelt sich hier nicht um eine lineare Wirkung, sondern um
eine durchaus malerische, die auf der Differenz zwischen hellen
Höhen und dunklen Tiefen beruht. Es genügt nun nicht mehr, alle
Gewölberippen und Gurte in den Pfeilern bis zur Basis hinab zu
führen und die Pfeiler dadurch zu gliedern — die Rippen und Gurte
selbst werden aufs feinste profiliert, in den mannigfachsten
Zierformen abgestuft und alle diese Gliederungen nun im Pfeiler bis
zur Basis herab durchgeführt, so daß eine äußerst fein gegliederte
Stütze entsteht, die aber immer mehr den Charakter des wirklich
tragenden Gliedes verliert, immer stärker den Sinn einer
Aufwärtsbewegung bekommt. Sogar die viereckige Grundform des
Pfeilers wird aufgegeben, die dem Auge die Möglichkeit der
tektonischen Orientierung bot, und ein runder Kern tritt an seine
Stelle, der nur noch Schattenhintergrund ist. Es ist
selbstverständlich, daß die einzelnen Teile des Pfeilers denselben
Gesetzen folgen. Wie die Basis nicht mehr strenge Trennung,
sondern zart abgestufte Vermittlung zum Erdboden ist, so ist das
Kapitell nicht mehr kräftiger Träger des Gewölbes, sondern nur noch
überleitendes Glied. Es ist selbst vollkommen malerisch geworden.
Hatte schon beim spätromanischen Kapitell das Ornament sich
immer mehr vom Kern gelöst, so tritt nun in der Gotik an Stelle des
Ornaments überhaupt das realistische Laubwerk, wie einst das
korinthische Kapitell die spitzige Akanthusranke an die Stelle der
ionischen Voluten setzte. Auch die Gotik wählt lappiges und
gezacktes Laub, das Eichen- und Efeublatt, Ahorn- und Weinlaub,
unter deren bis ins feinste ausmodellierten Formen der Leib des
Kapitells, der den Pfeilerprofilen folgt, allmählich fast völlig
unwirksam wird. (Abb. 56). Und es ist von derselben Art, wenn man
den Wasserspeier, der früher einfaches Röhrenende war, jetzt als
phantastische Tierform gestaltet.
Abb. 57. Grundriß des Domes zu Köln.

Wie Wand und Pfeiler kommt der ganze Bau in Auflösung. Man
hat inzwischen gelernt, daß man mit Hilfe des Spitzbogens auch das
gestreckteste Joch überwölben kann. So wird nun im Mittelschiff das
große Joch des sechsteiligen Gewölbes in zwei Joche zerlegt, in
deren jedem sich nur noch zwei Diagonalrippen kreuzen, und auf
das nun nicht mehr zwei Joche des Seitenschiffes entfallen, sondern
nur noch eines (Abb. 54 a, Abb. 57). Wenn bisher je sechs Pfeiler
mit ihren Rippen sich zu einer Travee (Joch) vereinigten, so
bedeutete diese gewissermaßen ein Sammelbecken für einen
großen Teil des Mittelschiffsraumes. Die Aneinanderreihung der
neuen schmäleren Traveen, die nur noch vier Pfeiler vereinigen, von
denen jeder zugleich Rippen nach dem Nachbarjoch entsendet,
bedeutet eine Verkettung des ganzen Schiffes. Diese ist um so
vollständiger, als nun auch alle Pfeiler gleichmäßig gestaltet
nebeneinander stehen und mit der Scheidung in Haupt- und
Nebenpfeiler das letzte Prinzip fällt, woran ein ordnender Geist in
diesem Raum sich zurechtfinden könnte; diese Abfolge
gleichmäßiger Traveen gewährt dem Auge nirgends einen
Ruhepunkt auf dem Wege zum Chor. Der setzt ohne Trennung die
Bewegung fort, wird auf gleiches Niveau mit dem Schiff gebracht
und nicht mehr durch feste Schranken, sondern einen zierlichen
Aufbau gegen die Gemeinde geschieden, der von der Verlesung der
Episteln und Evangelien den Namen Lettner (lectionarium) erhält.
Aber noch mehr — der Chor selbst hört auf, Abschluß des
Kirchenraumes zu sein. Er wird nicht nur weiter hinausgeschoben,
sondern die inneren Seitenschiffe werden als Umgang, die äußeren
als Kranz von Kapellen, der die Krypta mit den Reliquienaltären
entbehrlich macht, um ihn herumgeführt. Wenn früher die Chorwand
mit den Apsiden die Schiffe gleichmäßig abschloß, so trifft nun das
Auge nicht nur überall auf dieselben hohen Fenster, die schon die
Mittelschiffswand aufgelöst hatten, sondern es wird auch von diesen
Reihungen immer weiter geführt, rings um den Chor herum, ohne je
ein Ziel zu erreichen. Diese Umformungen der Wand, des
Grundrisses und der immer kühner ansteigenden Gewölbe wirken
zusammen, um dem Raum jede Einheit, jede Geschlossenheit zu
nehmen. Die Auflösung aller Begrenzungen ist eine so
vollkommene, daß er sich nach allen Richtungen in unendliche
Fernen zu erstrecken scheint. Auch hier ist an die Stelle der
zweckvollen Gestalt die eindrucksvolle getreten.
Abb. 58. Köln. Dom. Fassade.
Die Außenseiten von Schiff und Chor werden vollkommen vom
Strebesystem beherrscht (Abb. 54 b). Denn an denselben Stellen,
an denen innen die Pfeiler stehen, setzen sich außen die wuchtigen
Strebepfeiler an. Es war selbstverständlich, daß diese Stützen um so
kräftiger werden mußten, je eleganter die Pfeiler des Innenraums
wurden. Aber auch dieser Wucht, dieser breiten Schwere arbeitet
man entgegen und versucht, durch das Aufsetzen einer
türmchenartigen Spitze (Fiale) dem Pfeiler dieselbe Richtung nach
oben zu geben, die der Innenraum hatte. So bereitet die ganze
Außenseite jene vollkommene Auflösung des Baues nach oben, jene
weiche Überführung in die Lust hinein vor, die die Schmalseite
vollendet. Daß sich in ihr der Eindruck des Baues summieren soll,
lehrt allein schon die Verschiebung des Hauptportals hierher. Wenn
man jetzt vom Hauptportal aus das Schiff betritt, so hat man den
ganzen Innenraum vor sich; bis in den Chor hinein reiht sich vor dem
Auge Joch an Joch, Pfeiler an Pfeiler. Und es ist wichtig, daß, wenn
noch Notre Dame in Paris (Abb. 51) die Portale gleichmäßig an der
Fassade verteilte und durch strenge Pfeiler sonderte, sie sich beim
Kölner Dom (Abb. 58) und seinen hochgotischen Zeitgenossen nach
der Mitte zusammendrängen. Gerade der Vergleich dieser beiden
Kathedralfronten, der frühgotischen und der hochgotischen, lehrt die
Konsequenz der Stilentwicklung, die sich in kaum einem Jahrhundert
vollzogen hat. War in Paris immerhin noch die artikulierende
Aufteilung vorherrschend, so scheint jetzt die Fassade durch den
malerischen Wechsel von Licht und Schatten in den Abstufungen
von Wand und Pfeilern geradezu wellenartig bewegt. Das ist eine
Folge derselben Auflösung der Wand, die sich im Innern ergab und
mit der hier dieselbe Steigerung der Vertikaltendenz Hand in Hand
geht. Wenn in Paris noch jedes Stockwerk vom anderen durch
horizontale Glieder getrennt war, wenn selbst in Reims diese Glieder
noch wirksam waren, freilich schon durch Vertikalen zerrissen, so ist
nun in der Fassade des Kölner Domes die Vertikaltendenz die einzig
maßgebende. Man sehe, wie schon in den beiden untersten
Stockwerken die Quersimse durch spitze Giebel (Wimperge)
verdeckt werden, die von den Fenstern und Portalen aufsteigen, wie
dann, wenn im dritten Stock die Türme ins Achteck übergehen, alles,
was sie nicht in ihren Körper aufnehmen können, selbständig nach
oben aufgelöst wird, die senkrechten Pfeiler zwischen den Türmen
durch Fialen und die Front des Mittelschiffes, obgleich durch die
Türme aufs äußerste komprimiert, durch einen Wimperg. Die Türme
aber sind die Vollendung — noch in Notre Dame endigten sie im
ersten Stockwerk, und es scheint mir fraglos, daß sie dort nicht
unvollendet sind, sondern so niedrig endigen sollten, da doch die
Glocken keines höheren Aufbaues bedurften. In Köln aber spricht
der Zweck überhaupt nicht mehr mit, sind die Türme die Träger der
vertikalen Auflösung geworden. Immer steiler werden sie, und immer
wird, was der Turmkörper übrig läßt, durch Fialen restlos nach oben
aufgelöst, bis schließlich an den Krabben, den kleinen
vorspringenden Ornamenten des Turmhelmes hin das Auge zur
strahlenförmig auflösenden Kreuzblume emporgleitet. Es ist wichtig,
daß sich unter ihr der Turm schon enger zusammengeschlossen hat.
So ist sie wie eine Fackel, deren Flammen in die Luft schlagen.
So also ist der ästhetische Eindruck der gotischen Kathedrale
bedingt, den man als das Emporheben der Seele über das Irdische
hinaus definiert hat, ein reiner Gefühlsausdruck also, wie alle Triebe
in diesem Zeitalter tiefster Hingabe an die Gottheit Gefühlstriebe
sind. Die Architektur ist Mittel, nicht Zweck, der Dom nicht Haus,
sondern Mittler zwischen Himmel und Erde. Dasselbe Gefühl, das
die Raumweitung des Pantheon entstehen ließ, entwickelt auch die
des gotischen Domes, nur daß der antike Mensch sich, sozusagen,
selbst in den Raum erweitert, der mittelalterliche Dualismus sich zu
Gott emporhebt, indem er sich von der Erde entfernt. Es ist kein
Zufall, daß die Schönheit des Innenraumes am eindringlichsten ist in
der Morgen- und Abenddämmerung, wenn das unsichere Licht mit
feinem Finger Säulen, Pfeiler und Wölbungen betastet. Hat man
doch dieses unkräftige Gleiten des Lichtes durch die Farbigkeit der
Glasfenster ein für allemal zur Eigenschaft des Raumes gemacht.
Der Gegensatz zwischen romanischer und gotischer Kirche ist nicht
nur der äußerliche von Wandfestigkeit und Wandzerstörung, von
horizontaler und vertikaler Linie, sondern der innere des zweckvollen
und des für den Eindruck geschaffenen Bauwerkes. Allein es zeigt
sich gerade an der Differenz dieser beiden Stile, daß nur, solange
man zweckvoll baut, die äußere Erscheinung mit dem inneren Sinn
des Bauwerkes in Einklang steht, während das Bauen auf den
Eindruck hin sofort Zwiespältigkeiten ergibt. Die romanische Kirche
folgerte Innenbau und Außenbau in gleicher Weise aus dem Zweck,
und das Resultat war eine vollkommene Einheit. Der gotische
Baumeister dagegen arbeitet auf den Gefühlseindruck hin, erreicht in
ihm das Letzte und Tiefste, aber mit je feineren Sinnen man an sein
Werk herantritt, desto stärker drängen sich die Disharmonien auf.
Schon die Verteilung der Funktionen des Tragens und
Getragenwerdens will uns nicht recht harmonisch scheinen. Es
widerstrebt uns, daß die Arbeit des Stützens auf den Außenbau
abgewälzt wird, um den Eindruck des Innenraumes zur höchsten
Freiheit zu steigern. Während beim romanischen Bau die Mauer
innen und außen gleich fest war, sehen wir beim gotischen innen
nicht recht, wo die Gewölbe ihren Halt finden, und außen nicht, was
diese ungeheuren Strebepfeiler zu tragen haben. Das ist nicht nur
ästhetische Reflexion. Je freier und kühner Pfeiler und Gewölbe im
Schiff emporsteigen, desto unübersichtlicher und verworrener wird
das äußere System, so daß vor allem an der Außenseite des Chores
das ungeschulte Auge in den sich kreuzenden Linien der Pfeiler,
Fialen und Bogen nur schwer Klarheit zu schaffen vermag. Dazu
kommt eine arge Divergenz der Richtungen. Zwang das senkrechte
Aufsteigen der Gewölbe die Steine in eine vertikale Lage, die ihrem
bodensuchenden Schwergewicht nicht angemessen ist, so wohnt
dem Strebepfeiler, dem bodenfestesten Glied am Bau, diese
ruhende Tendenz ganz außerordentlich intensiv inne (Abb. 48). Die
kleine Fiale, durch die man den Pfeiler dennoch dem Trieb zur Höhe
einzufügen sucht, wird eine lächerlich kraftlose Dekoration, die auf
dem ungeheuren Pfeilerleib sitzt wie der Vogel auf dem Dach und
seiner tektonischen Wucht nicht das geringste anzuhaben vermag.
Für das Auge aber entsteht ein unangenehmes Hin- und Herzerren
hemmender und hebender Kräfte.
Nun könnte man ja das für nicht so wesentlich halten, da die
Absicht augenscheinlich dahin geht, die steigende Tendenz
hauptsächlich in der Turmfront auszudrücken, in ihr gewissermaßen
den ganzen Bau zu summieren und emporzuheben. Allein er wird
tatsächlich hier nicht summiert. Vielmehr ist die Turmfront ganz lose
vorgelagert wie eine Kulisse und steht in keinem architektonischen
Zusammenhange mit dem Langhaus. Denn das Langhaus legt den
Hauptton auf das Mittelschiff, während die Front im Gegensatz dazu
die Wand des Mittelschiffes zu einer schmalen Fläche
zusammendrückt und die wichtigste Vertikallinie, die der Türme, von
den Seitenschiffen aus emporführt. So kommt es, daß eintürmige
Fassaden, wie die von Freiburg i. B., einen wesentlich
harmonischeren Eindruck machen. Im allgemeinen aber entsteht
hier eine neue Disharmonie. Denn die Anlage der Portale innerhalb
dieser Fassade führt, wie wir gesehen haben, den Nahenden sofort
ins Mittelschiff, betont das Mittelschiff auch äußerlich, und mit dieser
Richtung nach der Mitte hin ergibt die nach außen zerrende
Bewegung der Türme eine Dissonanz, die dem empfindlichen Auge
einen Eindruck macht wie die Exekution des Vierteilens. Man hat die
Empfindung einer Zwiespältigkeit hier auch schon früher gehabt, nur
blieb sie an dem äußerlichen Symptom haften, daß die Seitenportale
neben sich einen gleichbreiten Raum übriglassen, den je ein Fenster
füllt, und so die untere Turmfront in häßlicher Weise gespalten wird.
So äußerlich dieses Symptom ist, so ist es doch bezeichnend für die
Uneinheitlichkeit des Gefüges.
Abb. 59. Karlsreliquiar. Bologna.
Wenn es alledem gegenüber noch fraglich sein könnte, daß die
Gotik kein tektonischer, sondern ein malerischer, ein Bewegungsstil
ist, so würde das Kunstgewerbe dafür den vollen Beweis erbringen.
Wir haben oben festgestellt, daß das Email in der noch malerisch
empfindenden ottonischen Zeit transluzid, im strengen romanischen
Mittelalter opak ist. Und nun ist es gewissermaßen die Probe aufs
Exempel, daß mit der Gotik sofort wieder das transluzide Email
auftritt, als durchsichtiger Schmelz auf Silbergrund. Ja, die
flächenzerstörende Tendenz ist so stark, daß man in den Silbergrund
die Gestalten modelliert, um nur ja einen räumlichen Eindruck, eine
Tiefenwirkung zu erzielen. Der Vergleich mit spätrömischen
Trinkschalen, die Hochreliefs auf dem Grunde tragen, über welchen
der Wein ganz ähnlich schimmern mußte, liegt auf der Hand. Allein
das ist nur ein Schritt weiter auf jenem Wege der Auflösung, die wir
vom streng-romanischen zum spät-romanischen Stil verfolgt hatten,
und auf dem die Gotik konsequent weiterschreitet. Denn der
Reichtum der Dekoration, den schon der Übergangsstil ausgebildet
hatte, steigert sich jetzt bis zur Zierlichkeit, bis zur Eleganz. Das
Mittel dazu ist das gleiche, das die gotische Architektur anwendet,
um den gleichen Eindruck hervorzubringen, ist die Wertsteigerung
des Ornaments und der Dekoration gegenüber der tektonischen
Grundform. Kelch und Ciborium, Chorgestühl und Altaraufsatz
werden zierlich durchlöchert und schlankgestreckt. Der gotische
Reliquienschrein beispielsweise behält nicht nur den ornamentalen
Reichtum und die Freiskulpturen der spätromanischen Form bei,
sondern wird vollkommen zur dreischiffigen Kirche ausgestaltet mit
Strebepfeilern und Strebebögen, mit Spitzbögen, Maßwerk und
Fensterrose, mit Fialen, Krabben und Kreuzblume und dem
vollständigen Figurenschmuck des Portals. So wird hier dasselbe
zierliche Emporstreben wie in der Kathedrale, dieselbe Auflösung
der Wand spielerisch zur Wirkung gebracht. Das ist nicht, wie eine
bekannte Geschichte des Kunstgewerbes sagt, streng und sachlich.
Denn ein solcher immerhin nicht großer Schrein bedarf nicht der
Strebebögen, um sein Dach zu tragen, des Portales, um betreten zu
werden, oder gar der Beleuchtung durch das obendrein noch von
innen geschlossene Rosenfenster.
Abb. 60. Portalskulpturen an der
Kathedrale zu Reims.
Man wird verstehen, daß auf diesem Wege die Hauptsache, das
eigentliche Reliquienbehältnis, unwichtig werden mußte gegenüber
dem Schmuck. Aber auch das liegt tief im neuen Gefühl begründet.
Man will nicht mehr nur ein Reliquienbehältnis schaffen, sondern in
ihm einen Teil der Kirche und des Gottesdienstes, und es wird
allmählich zum Attribut des Schmuckes, der dieses Gefühl
auszudrücken vermag. War im romanischen Stil die Ornamentik dem
Reliquiar untergeordnet, so wird das Verhältnis nun umgekehrt. So
kommt es, daß bei einem Aachener Reliquiar mit der Darstellung
Christi im Tempel der Reliquienbehälter nur als Altar dient, um den
sich die großen getriebenen Figuren der Gruppe vereinigen, oder bei
einem Bologneser Reliquiar (Abb. 59) die nur mit Krabben und Fiale
geschmückte Reliquienkapsel von Engeln getragen wird, die die
eigentliche künstlerische Aufgabe darstellen. Es war
selbstverständlich, daß zu gleicher Zeit das parallele bürgerliche
Aufbewahrungsgerät, die Truhe, aufhört, ein nur zweckmäßiger
Kasten zu sein und ihre Wandung durch bauliche, figürliche und
pflanzliche Ornamente zerstört wird. Und zugleich erklärt es die
Entwicklung im gemalten Buch, dessen Blätter am Rand zackiges
Pflanzenornament für das Auge auflöst, während gleichzeitig an
Stelle der runden romanischen Letter die eckige gotische tritt.
So wird allmählich die Unterordnung des Schmuckes unter den
Zweck vollkommen aufgehoben, und mit ihr endet jene organische
Verbindung beider, die den romanischen Stil so einheitlich machte.
Die Architektur gibt die Plastik frei, und diese entwickelt sich zu einer
Kunst von hoher, selbständiger Schönheit. Sie hat eine Kraft und
Größe des Ausdrucks erreicht, vollkommen gleichwertig der Kunst
des Perikleischen Zeitalters, in der sich eine gleiche Befreiung für sie
vollzog. Skulpturen aus der Mitte des 13. Jahrhunderts, wie die im
Bamberger und Naumburger, Straßburger und Freiburger Dom, und
die Meisterwerke in Amiens, Chartres und Reims (Abb. 60), sind von
so gehaltener Größe, daß ihre edle Art mit unmittelbarer Gewalt uns
gegenübertritt. Auch in der Gotik handelt es sich, wie in der
klassischen Antike, um das Erfassen des Menschen als einer
plastischen Form. Wenn Walter v. d. Vogelweide sagt:

Ich saß auf einem Steine,


Ließ ruhen Bein auf Beine,
Darauf mein Ellenbogen stand,
Und hielt geschmiegt in meine Hand
Mein Kinn und eine Wange.
(Übertr. Obermann.)
so ist das eine Haltung, die für die bildende Kunst der Gotik
typisch ist, und es ist kein Zufall, daß diese energische Bewegung
fast die Haltung des antiken „Dornausziehers“ ist. Sicher hätte die
romanische Zeit diese Haltung als unfein empfunden. Sie bedeutet
die vollkommene Herauslösung des Körpers aus der Gebundenheit,
seine Bewegung nach allen Richtungen. Aber es kann sich für die
Gotik — nicht aus religiösen Gründen, sondern weil ihre Wirklichkeit
so ist — ebenso nur um den bekleideten Körper handeln, wie für die
antike Menschheit nur um den nackten. Der Meister unserer Gruppe
stellt männliche Kraft und Frauenzartheit beinahe antithetisch
einander gegenüber, aber nicht realistisch, sondern gebändigt durch
das Gefühl des Statuarischen in ihnen, und der Plastiker des
Naumburger Domes formt I d e a l porträts fürstlicher Männer und
Frauen, deren Sinn, so paradox es klingt, allein im realistischen
Charakterisieren liegt. Aber alle diese Gestalten sind innerlich und
formal noch gebunden. Erst das 14. Jahrhundert bedeutet für das
Mittelalter dasselbe wie das 4. Jahrhundert v. Chr. für das Altertum,
und die Folgen sind die gleichen. Auch in der gotischen Skulptur,
etwa der Dome von Ulm und Augsburg, steigert sich der Ausdruck
einerseits zu stärkerem und momentanerem Realismus,
andererseits zu immer schmiegsamerer Grazie (Abb. 61). Bei
hochgotischen Gestalten, auch denen des Bologneser Reliquiars, ist
die weibliche Zartheit des Reimser Kopfes zur Zierlichkeit verfeinert,
umzuckt ein preziöses Lächeln den fein geformten Mund, ebenso
typisch für die gotische Grazie wie die schmiegsame Biegung des
Körpers, die „gotische Kurve“. Diese geschwungene Linie, die sich
bei der Reimser Skulptur schon leise in dem großen Faltenzug
ankündigte, der von der Hüfte zum Fuß ging, hat sich jetzt zu einer
Bewegung von edelster Eurythmie entwickelt. Wie das Lächeln eine
Steigerung des Gesichtsausdrucks, ist die Kurve eine Steigerung
des Körperausdrucks, die Hüften, Brust und Knie in Form und Linien
elegant herausbiegt. Fraglos ist die nächste Parallele die
praxitelische Kunst vom 4. Jahrhundert v. Chr. ab, die Hüfte und
Bein ebenso weich heraustreten läßt, und es sind in Pergamon ganz
frappante Analogien zutage gekommen. Allerdings muß
berücksichtigt werden, daß sie immer architektonisch gebunden ist
etwa durch irgendeinen Mauerpfeiler, an dem die Figur steht, im
Bologneser Reliquiar durch den Parallelismus der beiden Engel.
Isoliert würde sie unerträglich wirken.

Abb. 61. Gotische


Skulptur (Kluge
Jungfrau). Gmünd.
Kreuzkirche.
Das Lächeln und die gotische Kurve sind beide nur Symptome
für die gesteigerte Charakteristik, die die Gotik in Bewegung und
Handlung allmählich aus der Baugebundenheit entwickelt hat. Und
wie die Dramatik der Einzelfigur, steigert sich auch die Dramatik der
Handlung. Das Relief hat sich aus der romanischen
Gestaltenreihung zur Erzählerin von Vorgängen, zunächst in
frieshafter, dann in räumlicher Anordnung entwickelt. Jede
unpersönlich starre Form ist bewegt geworden. Der Stil des Lebens
selbst muß damals erregter geworden, das Blut rascher durch die
Adern der Völker geflossen sein als in der romanischen Zeit.
Unmöglich, daß die Zeit, die an die Stelle der Legenden das
ritterliche Epos setzte und das Minnelied, an die Stelle des Glaubens
die Mystik und die scholastische Philosophie, nicht ein kräftig
erregtes Leben gelebt haben solle. Man nehme die Entwicklung des
geistlichen Dramas. War es in romanischer Zeit ein Spiel, das von
den Priestern mit den Worten der Bibel in ernstem Gesang
aufgeführt wurde, ein tatsächlicher Bestandteil des Gottesdienstes,
so läßt die Gotik am Grabe Christi die Frauen klagen, den Engel
frohlocken, kurzum sie bringt den Affekt, bringt die Erregung. Es ist
von derselben Art, wenn seit dem Beginn der Gotik der ganze
Reichtum der biblischen und legendaren Themata zur
Ausschmückung der Kirche und des Buches das Programm
hergeben muß, wenn die ganze kirchliche Weltanschauung mit ihren
abstraktesten Gedanken in Stein und Farben ausgedrückt wird.
Szenen, die der Handlung bedürfen, und an deren Darstellung man
vor dem 13. Jahrhundert kaum dachte, werden nun plötzlich beliebte
Themata, wie die Krönung Mariä im Himmel, deren Geschichte
geradezu eine Geschichte der Gruppenbildung ist. Wenn früher das
Jüngste Gericht dargestellt wurde, so thronte Christus über den
Auferstehenden mit der unbeugsamen Starrheit des Weltrichters.
Jetzt wird seine Geste dramatisch, und er verdammt in der Erregtheit
des Zornes. Unzweifelhaft ist diese anthropomorphe Auffassung
ebenso eine Herabminderung der Hoheit, wie etwa das
Emporschweben des früher von Engeln zum Himmel getragenen
Christus oder die erregten Gespräche der Apostel beim Abendmahl.
So wird nun auch die Seligkeit im Paradies, die Verdammnis in der
Hölle mit ganz irdischen Zügen ausgemalt, und es ist ganz sicher
kein Zufall, daß schon vor 1200 zugleich mit den ersten Eindrücken
der französischen Frühgotik die detaillierten Höllenschilderungen der
byzantinischen Kunst eindringen und daneben fast abstrakte
Allegorien auf Christi Heilssendung und die Gottesmutterschaft. Es
ist kulturhistorisch wichtig, daß stets zu gleicher Zeit zwei
entgegengesetzte Bewegungen zersetzend auf die Religion
einwirken, die Philosophie und der Aberglaube, beide als
Abweichungen vom Gleichmaß der Weltanschauung. Dieser
Zersetzungsprozeß beginnt in Leben und Stil der frühen Gotik, und
die späte Gotik vollendet ihn.
Neuntes Kapitel.
Die Spätgotik.
Die Lockerung der Formen, die schon die hohe Gotik erreicht
hatte, steigert die späte Gotik des 15. Jahrhunderts, deren Zentren
zunächst Burgund, dann Deutschland und die Niederlande sind, zur
Zerrissenheit. Aus der ziellosen Bewegung wird die richtungslose,
und auf das Ausschalten des Zweckgefühls folgt die Tyrannis des
Ornaments. Wenn schon die Fialen an den gotischen Strebepfeilern
der dekorativen Verkleidung tektonischer Notwendigkeiten dienten,
werden jetzt auch Fenstermaßwerk und Wimperg, profilierte Rippen
und Pfeilergliederungen derselben Absicht dienstbar gemacht, alles
aus seinem Zusammenhang gerissen und an beliebigen Stellen rein
als Schmuck angesetzt, gedreht und gebogen, ausgezackt und
umrankt. Naturalistische Motive werden mit Architektur- und
Bandformen vermengt, und eine durch nichts mehr gezügelte
Phantasie gibt jeder Einzelform überraschende Reize. Man hat in
Frankreich geradezu von einem „Style flamboyant“, einem
züngelnden Stil, gesprochen. Was früher frei stand, wird jetzt als
Rahmenwerk benutzt, und was früher als Stütze diente, hängt jetzt
herab. Der Reichtum an Schmuckwerk wird die Schönheit an sich;
eine unverzierte, standfeste Wand würde man als uninteressant
empfunden haben (Abb. 62).
Abb. 62. Straßburg. Dom. Laurentius-Portal.
Im Grunde genommen ist aber diese Entwicklung das fast
notwendige Endergebnis der Gotik. Der Kirchenbau (Abb. 63)
entfernt mit dem Unterschied zwischen Haupt- und Seitenschiffen
die letzte ordnende Teilung im Bau, und die gleichmäßig hohe Halle,
die überall vom Licht großer Fenster durchströmt werden kann, ist
gegenüber der gotischen Basilika eine Steigerung der Raumwirkung,
wie die Hagia Sophia gegenüber dem Pantheon. Man hört überhaupt
damit auf, zwischen Haupt- und Nebengliederungen zu scheiden,
um die Bewegung in größere Weite wirksam zu machen.
Durchgängig fast fällt das Kapitell fort, das in der Gotik zwar das
Gewölbe nicht mehr trug, es aber wenigstens vom Pfeiler trennte, so
daß jetzt der Pfeiler ohne Unterbrechung bis ins Gewölbe zu steigen,
die Rippe schon beim Erdboden zu beginnen scheint. Die
Einschnitte zwischen den vertikalen Pfeilergliederungen, den
Diensten, empfindet man nun als zu hart; sie verflachen sich, die
Kanten werden weich ineinander übergeführt, und es kommt so weit,
daß die gestreckte Form überhaupt verloren geht und sich die Pfeiler
im Nordschiff des Braunschweiger Doms sogar in Schraubenlinien
emporwinden. Das Maßwerk der Fenster wird immer zierlicher,
immer feiner geteilt. Auch das Gewölbe verliert seinen klaren
Aufbau. Zwischen die tragenden Rippen werden dekorative gestellt,
alle werden miteinander durch Querrippen verbunden, und so
entstehen seltsame vielstrahlige Sterngewölbe ohne
Funktionsgefühl, wie Vorhänge den Raum abschließend.

You might also like