Detailed Contents
Detailed Contents
Learning
Fundamentals
A Concise Introduction
Hui Jiang
Machine Learning Fundamentals
A Concise Introduction
Hui Jiang
York University, Toronto
Contents
Preface xi
Notation xvii
1 Introduction 1
1.1 What Is Machine Learning? . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Basic Concepts in Machine Learning . . . . . . . . . . . . . . . . 4
1.2.1 Classification versus Regression . . . . . . . . . . . . . . . 4
1.2.2 Supervised versus Unsupervised Learning . . . . . . . . . 5
1.2.3 Simple versus Complex Models . . . . . . . . . . . . . . . 5
1.2.4 Parametric versus Nonparametric Models . . . . . . . . . 7
1.2.5 Overfitting versus Underfitting . . . . . . . . . . . . . . . . 8
1.2.6 Bias–Variance Trade-Off . . . . . . . . . . . . . . . . . . . . 10
1.3 General Principles in Machine Learning . . . . . . . . . . . . . . 11
1.3.1 Occam’s Razor . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 No-Free-Lunch Theorem . . . . . . . . . . . . . . . . . . . . 11
1.3.3 Law of the Smooth World . . . . . . . . . . . . . . . . . . . 12
1.3.4 Curse of Dimensionality . . . . . . . . . . . . . . . . . . . . 14
1.4 Advanced Topics in Machine Learning . . . . . . . . . . . . . . . 15
1.4.1 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . 15
1.4.2 Meta-Learning . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.3 Causal Inference . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.4 Other Advanced Topics . . . . . . . . . . . . . . . . . . . . 16
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Mathematical Foundation 19
2.1 Linear Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1 Vectors and Matrices . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 Linear Transformation as Matrix Multiplication . . . . . . 20
2.1.3 Basic Matrix Operations . . . . . . . . . . . . . . . . . . . . 21
2.1.4 Eigenvalues and Eigenvectors . . . . . . . . . . . . . . . . 23
2.1.5 Matrix Calculus . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Probability and Statistics . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1 Random Variables and Distributions . . . . . . . . . . . . . 27
2.2.2 Expectation: Mean, Variance, and Moments . . . . . . . . . 28
2.2.3 Joint, Marginal, and Conditional Distributions . . . . . . . 30
2.2.4 Common Probability Distributions . . . . . . . . . . . . . . 33
2.2.5 Transformation of Random Variables . . . . . . . . . . . . 40
2.3 Information Theory . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.1 Information and Entropy . . . . . . . . . . . . . . . . . . . 41
2.3.2 Mutual Information . . . . . . . . . . . . . . . . . . . . . . 43
2.3.3 KL Divergence . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4 Mathematical Optimization . . . . . . . . . . . . . . . . . . . . . . 48
2.4.1 General Formulation . . . . . . . . . . . . . . . . . . . . . . 49
2.4.2 Optimality Conditions . . . . . . . . . . . . . . . . . . . . . 50
2.4.3 Numerical Optimization Methods . . . . . . . . . . . . . . 59
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4 Feature Extraction 77
4.1 Feature Extraction: Concepts . . . . . . . . . . . . . . . . . . . . . 77
4.1.1 Feature Engineering . . . . . . . . . . . . . . . . . . . . . . 77
4.1.2 Feature Selection . . . . . . . . . . . . . . . . . . . . . . . . 78
4.1.3 Dimensionality Reduction . . . . . . . . . . . . . . . . . . . 79
4.2 Linear Dimension Reduction . . . . . . . . . . . . . . . . . . . . . 79
4.2.1 Principal Component Analysis . . . . . . . . . . . . . . . . 80
4.2.2 Linear Discriminant Analysis . . . . . . . . . . . . . . . . . 84
4.3 Nonlinear Dimension Reduction (I): Manifold Learning . . . . 86
4.3.1 Locally Linear Embedding . . . . . . . . . . . . . . . . . . 87
4.3.2 Multidimensional Scaling . . . . . . . . . . . . . . . . . . . 88
4.3.3 Stochastic Neighborhood Embedding . . . . . . . . . . . . 89
4.4 Nonlinear Dimension Reduction (II): Neural Networks . . . . . 90
4.4.1 Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.4.2 Bottleneck Features . . . . . . . . . . . . . . . . . . . . . . . 91
Lab Project I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
DISCRIMINATIVE MODELS 95
5 Statistical Learning Theory 97
5.1 Formulation of Discriminative Models . . . . . . . . . . . . . . . 97
5.2 Learnability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.3 Generalization Bounds . . . . . . . . . . . . . . . . . . . . . . . . 100
5.3.1 Finite Model Space: |H| . . . . . . . . . . . . . . . . . . . . 100
5.3.2 Infinite Model Space: VC Dimension . . . . . . . . . . . . . 102
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
APPENDIX 375
A Other Probability Distributions 377
Bibliography 381
Index 397