100% found this document useful (5 votes)
25 views

Full Download Principles of Data Mining Undergraduate Topics in Computer Science Max Bramer PDF DOCX

Science

Uploaded by

craceheidecw
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
100% found this document useful (5 votes)
25 views

Full Download Principles of Data Mining Undergraduate Topics in Computer Science Max Bramer PDF DOCX

Science

Uploaded by

craceheidecw
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 65

Download the Full Version of textbook for Fast Typing at textbookfull.

com

Principles of Data Mining Undergraduate Topics in


Computer Science Max Bramer

https://textbookfull.com/product/principles-of-data-mining-
undergraduate-topics-in-computer-science-max-bramer/

OR CLICK BUTTON

DOWNLOAD NOW

Download More textbook Instantly Today - Get Yours Now at textbookfull.com


Recommended digital products (PDF, EPUB, MOBI) that
you can download immediately if you are interested.

Introduction to Artificial Intelligence Undergraduate


Topics in Computer Science Wolfgang Ertel

https://textbookfull.com/product/introduction-to-artificial-
intelligence-undergraduate-topics-in-computer-science-wolfgang-ertel/

textboxfull.com

Guide to Competitive Programming: Learning and Improving


Algorithms Through Contests (Undergraduate Topics in
Computer Science) Antti Laaksonen
https://textbookfull.com/product/guide-to-competitive-programming-
learning-and-improving-algorithms-through-contests-undergraduate-
topics-in-computer-science-antti-laaksonen/
textboxfull.com

Data Mining and Data Warehousing: Principles and Practical


Techniques 1st Edition Parteek Bhatia

https://textbookfull.com/product/data-mining-and-data-warehousing-
principles-and-practical-techniques-1st-edition-parteek-bhatia/

textboxfull.com

Computer Science in Sport Modeling Simulation Data


Analysis and Visualization of Sports Related Data 2024th
Edition Daniel Memmert
https://textbookfull.com/product/computer-science-in-sport-modeling-
simulation-data-analysis-and-visualization-of-sports-related-
data-2024th-edition-daniel-memmert/
textboxfull.com
Principles of Data Science: [not true pdf] 3rd Edition
Sinan Ozdemir

https://textbookfull.com/product/principles-of-data-science-not-true-
pdf-3rd-edition-sinan-ozdemir/

textboxfull.com

Data Mining and Big Data Ying Tan

https://textbookfull.com/product/data-mining-and-big-data-ying-tan/

textboxfull.com

Computational Intelligence in Data Mining Himansu Sekhar


Behera

https://textbookfull.com/product/computational-intelligence-in-data-
mining-himansu-sekhar-behera/

textboxfull.com

Textual Data Science with R Chapman Hall CRC Computer


Science Data Analysis 1st Edition Mónica Bécue-Bertaut

https://textbookfull.com/product/textual-data-science-with-r-chapman-
hall-crc-computer-science-data-analysis-1st-edition-monica-becue-
bertaut/
textboxfull.com

Data Mining Yee Ling Boo

https://textbookfull.com/product/data-mining-yee-ling-boo/

textboxfull.com
Undergraduate Topics in Computer Science

Max Bramer

Principles
of Data
Mining
Third Edition
Undergraduate Topics in Computer Science
‘Undergraduate Topics in Computer Science’ (UTiCS) delivers high-quality instruc-
tional content for undergraduates studying in all areas of computing and information
science. From core foundational and theoretical material to final-year topics and ap-
plications, UTiCS books take a fresh, concise, and modern approach and are ideal for
self-study or for a one- or two-semester course. The texts are all authored by estab-
lished experts in their fields, reviewed by an international advisory board, and contain
numerous examples and problems, many of which include fully worked solutions.

More information about this series at http://www.springer.com/series/7592


Max Bramer

Principles of Data Mining


Third Edition
Prof. Max Bramer
School of Computing
University of Portsmouth
Portsmouth, Hampshire, UK
Series editor
Ian Mackie
Advisory board
Samson Abramsky, University of Oxford, Oxford, UK
Karin Breitman, Pontifical Catholic University of Rio de Janeiro, Rio de Janeiro, Brazil
Chris Hankin, Imperial College London, London, UK
Dexter Kozen, Cornell University, Ithaca, USA
Andrew Pitts, University of Cambridge, Cambridge, UK
Hanne Riis Nielson, Technical University of Denmark, Kongens Lyngby, Denmark
Steven Skiena, Stony Brook University, Stony Brook, USA
Iain Stewart, University of Durham, Durham, UK

ISSN 1863-7310 ISSN 2197-1781 (electronic)


Undergraduate Topics in Computer Science
ISBN 978-1-4471-7306-9 ISBN 978-1-4471-7307-6 (eBook)
DOI 10.1007/978-1-4471-7307-6
Library of Congress Control Number: 2016958879

© Springer-Verlag London Ltd. 2007, 2013, 2016


This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of
the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation,
broadcasting, reproduction on microfilms or in any other physical way, and transmission or information
storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology
now known or hereafter developed.
The use of general descriptive names, registered names, trademarks, service marks, etc. in this publication
does not imply, even in the absence of a specific statement, that such names are exempt from the relevant
protective laws and regulations and therefore free for general use.
The publisher, the authors and the editors are safe to assume that the advice and information in this book
are believed to be true and accurate at the date of publication. Neither the publisher nor the authors or the
editors give a warranty, express or implied, with respect to the material contained herein or for any errors
or omissions that may have been made.

Printed on acid-free paper

This Springer imprint is published by Springer Nature


The registered company is Springer-Verlag London Ltd.
The registered company address is: 236 Gray’s Inn Road, London WC1X 8HB, United Kingdom
About This Book

This book is designed to be suitable for an introductory course at either un-


dergraduate or masters level. It can be used as a textbook for a taught unit in
a degree programme on potentially any of a wide range of subjects including
Computer Science, Business Studies, Marketing, Artificial Intelligence, Bioin-
formatics and Forensic Science. It is also suitable for use as a self-study book for
those in technical or management positions who wish to gain an understanding
of the subject that goes beyond the superficial. It goes well beyond the gener-
alities of many introductory books on Data Mining but — unlike many other
books — you will not need a degree and/or considerable fluency in Mathematics
to understand it.
Mathematics is a language in which it is possible to express very complex
and sophisticated ideas. Unfortunately it is a language in which 99% of the hu-
man race is not fluent, although many people have some basic knowledge of it
from early experiences (not always pleasant ones) at school. The author is a for-
mer Mathematician who now prefers to communicate in plain English wherever
possible and believes that a good example is worth a hundred mathematical
symbols.
One of the author’s aims in writing this book has been to eliminate math-
ematical formalism in the interests of clarity wherever possible. Unfortunately
it has not been possible to bury mathematical notation entirely. A ‘refresher’
of everything you need to know to begin studying the book is given in Ap-
pendix A. It should be quite familiar to anyone who has studied Mathematics
at school level. Everything else will be explained as we come to it. If you have
difficulty following the notation in some places, you can usually safely ignore
it, just concentrating on the results and the detailed examples given. For those
who would like to pursue the mathematical underpinnings of Data Mining in
greater depth, a number of additional texts are listed in Appendix C.

v
vi Principles of Data Mining

No introductory book on Data Mining can take you to research level in the
subject — the days for that have long passed. This book will give you a good
grounding in the principal techniques without attempting to show you this
year’s latest fashions, which in most cases will have been superseded by the
time the book gets into your hands. Once you know the basic methods, there
are many sources you can use to find the latest developments in the field. Some
of these are listed in Appendix C. The other appendices include information
about the main datasets used in the examples in the book, many of which are of
interest in their own right and are readily available for use in your own projects
if you wish, and a glossary of the technical terms used in the book.
Self-assessment Exercises are included for each chapter to enable you to
check your understanding. Specimen solutions are given in Appendix E.

Note on the Third Edition


Since the first edition there has been a vast and ever-accelerating increase in
the volume of data available for data mining. The figures quoted in Chapter
1 now look quite modest. According to IBM (in 2016) 2.5 billion billion bytes
of data is produced every day from sensors, mobile devices, online transactions
and social networks, with 90 percent of the data in the world having been
created in the last two years alone. Data streams of over a million records a
day, potentially continuing forever, are now commonplace. Two new chapters
are devoted to detailed explanation of algorithms for classifying streaming data.

Acknowledgements
I would like to thank my daughter Bryony for drawing many of the more
complex diagrams and for general advice on design. I would also like to thank
Dr. Frederic Stahl for advice on Chapters 21 and 22 and my wife Dawn for her
very valuable comments on draft chapters and for preparing the index. The
responsibility for any errors that may have crept into the final version remains
with me.

Max Bramer
Emeritus Professor of Information Technology
University of Portsmouth, UK
November 2016
Contents

1. Introduction to Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1


1.1 The Data Explosion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Knowledge Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Applications of Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Labelled and Unlabelled Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Supervised Learning: Classification . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6 Supervised Learning: Numerical Prediction . . . . . . . . . . . . . . . . . 7
1.7 Unsupervised Learning: Association Rules . . . . . . . . . . . . . . . . . . 7
1.8 Unsupervised Learning: Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 8

2. Data for Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9


2.1 Standard Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Types of Variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Categorical and Continuous Attributes . . . . . . . . . . . . . . 12
2.3 Data Preparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Missing Values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1 Discard Instances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.2 Replace by Most Frequent/Average Value . . . . . . . . . . . . 15
2.5 Reducing the Number of Attributes . . . . . . . . . . . . . . . . . . . . . . . . 16
2.6 The UCI Repository of Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.8 Self-assessment Exercises for Chapter 2 . . . . . . . . . . . . . . . . . . . . . 18
Reference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

vii
viii Principles of Data Mining

3. Introduction to Classification: Naı̈ve Bayes and Nearest


Neighbour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1 What Is Classification? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Naı̈ve Bayes Classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Nearest Neighbour Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1 Distance Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Normalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.3 Dealing with Categorical Attributes . . . . . . . . . . . . . . . . . 36
3.4 Eager and Lazy Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 Self-assessment Exercises for Chapter 3 . . . . . . . . . . . . . . . . . . . . . 37

4. Using Decision Trees for Classification . . . . . . . . . . . . . . . . . . . . . . 39


4.1 Decision Rules and Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.1 Decision Trees: The Golf Example . . . . . . . . . . . . . . . . . . . 40
4.1.2 Terminology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.3 The degrees Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 The TDIDT Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3 Types of Reasoning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.5 Self-assessment Exercises for Chapter 4 . . . . . . . . . . . . . . . . . . . . . 48
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5. Decision Tree Induction: Using Entropy for Attribute


Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1 Attribute Selection: An Experiment . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Alternative Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2.1 The Football/Netball Example . . . . . . . . . . . . . . . . . . . . . 51
5.2.2 The anonymous Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3 Choosing Attributes to Split On: Using Entropy . . . . . . . . . . . . . 54
5.3.1 The lens24 Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.2 Entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.3 Using Entropy for Attribute Selection . . . . . . . . . . . . . . . 58
5.3.4 Maximising Information Gain . . . . . . . . . . . . . . . . . . . . . . 60
5.4 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.5 Self-assessment Exercises for Chapter 5 . . . . . . . . . . . . . . . . . . . . . 61

6. Decision Tree Induction: Using Frequency Tables for


Attribute Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1 Calculating Entropy in Practice . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.1 Proof of Equivalence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.1.2 A Note on Zeros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Contents ix

6.2 Other Attribute Selection Criteria: Gini Index of Diversity . . . . 66


6.3 The χ2 Attribute Selection Criterion . . . . . . . . . . . . . . . . . . . . . . . 68
6.4 Inductive Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.5 Using Gain Ratio for Attribute Selection . . . . . . . . . . . . . . . . . . . 73
6.5.1 Properties of Split Information . . . . . . . . . . . . . . . . . . . . . 74
6.5.2 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.6 Number of Rules Generated by Different Attribute Selection
Criteria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.7 Missing Branches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.8 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.9 Self-assessment Exercises for Chapter 6 . . . . . . . . . . . . . . . . . . . . . 77
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

7. Estimating the Predictive Accuracy of a Classifier . . . . . . . . . . 79


7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
7.2 Method 1: Separate Training and Test Sets . . . . . . . . . . . . . . . . . 80
7.2.1 Standard Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.2.2 Repeated Train and Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.3 Method 2: k-fold Cross-validation . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.4 Method 3: N -fold Cross-validation . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.5 Experimental Results I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.6 Experimental Results II: Datasets with Missing Values . . . . . . . 86
7.6.1 Strategy 1: Discard Instances . . . . . . . . . . . . . . . . . . . . . . . 87
7.6.2 Strategy 2: Replace by Most Frequent/Average Value . . 87
7.6.3 Missing Classifications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.7 Confusion Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.7.1 True and False Positives . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.8 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.9 Self-assessment Exercises for Chapter 7 . . . . . . . . . . . . . . . . . . . . . 91
Reference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

8. Continuous Attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.2 Local versus Global Discretisation . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.3 Adding Local Discretisation to TDIDT . . . . . . . . . . . . . . . . . . . . . 96
8.3.1 Calculating the Information Gain of a Set of Pseudo-
attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.3.2 Computational Efficiency . . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.4 Using the ChiMerge Algorithm for Global Discretisation . . . . . . 105
8.4.1 Calculating the Expected Values and χ2 . . . . . . . . . . . . . 108
8.4.2 Finding the Threshold Value . . . . . . . . . . . . . . . . . . . . . . . 113
8.4.3 Setting minIntervals and maxIntervals . . . . . . . . . . . . . . . 113
x Principles of Data Mining

8.4.4 The ChiMerge Algorithm: Summary . . . . . . . . . . . . . . . . . 115


8.4.5 The ChiMerge Algorithm: Comments . . . . . . . . . . . . . . . . 115
8.5 Comparing Global and Local Discretisation for Tree Induction 116
8.6 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.7 Self-assessment Exercises for Chapter 8 . . . . . . . . . . . . . . . . . . . . . 118
Reference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

9. Avoiding Overfitting of Decision Trees . . . . . . . . . . . . . . . . . . . . . . 121


9.1 Dealing with Clashes in a Training Set . . . . . . . . . . . . . . . . . . . . . 122
9.1.1 Adapting TDIDT to Deal with Clashes . . . . . . . . . . . . . . 122
9.2 More About Overfitting Rules to Data . . . . . . . . . . . . . . . . . . . . . 127
9.3 Pre-pruning Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
9.4 Post-pruning Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.5 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
9.6 Self-assessment Exercise for Chapter 9 . . . . . . . . . . . . . . . . . . . . . . 136
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

10. More About Entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137


10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.2 Coding Information Using Bits . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.3 Discriminating Amongst M Values (M Not a Power of 2) . . . . . 142
10.4 Encoding Values That Are Not Equally Likely . . . . . . . . . . . . . . . 143
10.5 Entropy of a Training Set . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
10.6 Information Gain Must Be Positive or Zero . . . . . . . . . . . . . . . . . 147
10.7 Using Information Gain for Feature Reduction for Classifica-
tion Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
10.7.1 Example 1: The genetics Dataset . . . . . . . . . . . . . . . . . . . 150
10.7.2 Example 2: The bcst96 Dataset . . . . . . . . . . . . . . . . . . . . . 154
10.8 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
10.9 Self-assessment Exercises for Chapter 10 . . . . . . . . . . . . . . . . . . . . 156
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

11. Inducing Modular Rules for Classification . . . . . . . . . . . . . . . . . . 157


11.1 Rule Post-pruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
11.2 Conflict Resolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
11.3 Problems with Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
11.4 The Prism Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
11.4.1 Changes to the Basic Prism Algorithm . . . . . . . . . . . . . . . 171
11.4.2 Comparing Prism with TDIDT . . . . . . . . . . . . . . . . . . . . . 172
11.5 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
11.6 Self-assessment Exercise for Chapter 11 . . . . . . . . . . . . . . . . . . . . . 173
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Contents xi

12. Measuring the Performance of a Classifier . . . . . . . . . . . . . . . . . . 175


12.1 True and False Positives and Negatives . . . . . . . . . . . . . . . . . . . . . 176
12.2 Performance Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
12.3 True and False Positive Rates versus Predictive Accuracy . . . . . 181
12.4 ROC Graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
12.5 ROC Curves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
12.6 Finding the Best Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
12.7 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
12.8 Self-assessment Exercise for Chapter 12 . . . . . . . . . . . . . . . . . . . . . 187

13. Dealing with Large Volumes of Data . . . . . . . . . . . . . . . . . . . . . . . . 189


13.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
13.2 Distributing Data onto Multiple Processors . . . . . . . . . . . . . . . . . 192
13.3 Case Study: PMCRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
13.4 Evaluating the Effectiveness of a Distributed System: PMCRI . 197
13.5 Revising a Classifier Incrementally . . . . . . . . . . . . . . . . . . . . . . . . . 201
13.6 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
13.7 Self-assessment Exercises for Chapter 13 . . . . . . . . . . . . . . . . . . . . 207
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

14. Ensemble Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209


14.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
14.2 Estimating the Performance of a Classifier . . . . . . . . . . . . . . . . . . 212
14.3 Selecting a Different Training Set for Each Classifier . . . . . . . . . 213
14.4 Selecting a Different Set of Attributes for Each Classifier . . . . . 214
14.5 Combining Classifications: Alternative Voting Systems . . . . . . . 215
14.6 Parallel Ensemble Classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
14.7 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
14.8 Self-assessment Exercises for Chapter 14 . . . . . . . . . . . . . . . . . . . . 220
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220

15. Comparing Classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221


15.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
15.2 The Paired t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
15.3 Choosing Datasets for Comparative Evaluation . . . . . . . . . . . . . . 229
15.3.1 Confidence Intervals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
15.4 Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
15.5 How Bad Is a ‘No Significant Difference’ Result? . . . . . . . . . . . . . 234
15.6 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
15.7 Self-assessment Exercises for Chapter 15 . . . . . . . . . . . . . . . . . . . . 235
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
xii Principles of Data Mining

16. Association Rule Mining I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237


16.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
16.2 Measures of Rule Interestingness . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
16.2.1 The Piatetsky-Shapiro Criteria and the RI Measure . . . 241
16.2.2 Rule Interestingness Measures Applied to the chess
Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
16.2.3 Using Rule Interestingness Measures for Conflict Res-
olution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
16.3 Association Rule Mining Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
16.4 Finding the Best N Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
16.4.1 The J-Measure: Measuring the Information Content of
a Rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
16.4.2 Search Strategy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
16.5 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
16.6 Self-assessment Exercises for Chapter 16 . . . . . . . . . . . . . . . . . . . . 251
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

17. Association Rule Mining II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253


17.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
17.2 Transactions and Itemsets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
17.3 Support for an Itemset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
17.4 Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
17.5 Generating Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
17.6 Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
17.7 Generating Supported Itemsets: An Example . . . . . . . . . . . . . . . . 262
17.8 Generating Rules for a Supported Itemset . . . . . . . . . . . . . . . . . . 264
17.9 Rule Interestingness Measures: Lift and Leverage . . . . . . . . . . . . 266
17.10 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
17.11 Self-assessment Exercises for Chapter 17 . . . . . . . . . . . . . . . . . . . . 269
Reference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

18. Association Rule Mining III: Frequent Pattern Trees . . . . . . . 271


18.1 Introduction: FP-Growth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
18.2 Constructing the FP-tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
18.2.1 Pre-processing the Transaction Database . . . . . . . . . . . . . 274
18.2.2 Initialisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
18.2.3 Processing Transaction 1: f , c, a, m, p . . . . . . . . . . . . . . . 277
18.2.4 Processing Transaction 2: f , c, a, b, m . . . . . . . . . . . . . . . 279
18.2.5 Processing Transaction 3: f , b . . . . . . . . . . . . . . . . . . . . . . 283
18.2.6 Processing Transaction 4: c, b, p . . . . . . . . . . . . . . . . . . . . 285
18.2.7 Processing Transaction 5: f , c, a, m, p . . . . . . . . . . . . . . . 287
18.3 Finding the Frequent Itemsets from the FP-tree . . . . . . . . . . . . . 288
Contents xiii

18.3.1 Itemsets Ending with Item p . . . . . . . . . . . . . . . . . . . . . . . 291


18.3.2 Itemsets Ending with Item m . . . . . . . . . . . . . . . . . . . . . . . 301
18.4 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
18.5 Self-assessment Exercises for Chapter 18 . . . . . . . . . . . . . . . . . . . . 309
Reference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309

19. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311


19.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
19.2 k-Means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
19.2.1 Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
19.2.2 Finding the Best Set of Clusters . . . . . . . . . . . . . . . . . . . . 319
19.3 Agglomerative Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . 320
19.3.1 Recording the Distance Between Clusters . . . . . . . . . . . . 323
19.3.2 Terminating the Clustering Process . . . . . . . . . . . . . . . . . 326
19.4 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
19.5 Self-assessment Exercises for Chapter 19 . . . . . . . . . . . . . . . . . . . . 327

20. Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329


20.1 Multiple Classifications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
20.2 Representing Text Documents for Data Mining . . . . . . . . . . . . . . 330
20.3 Stop Words and Stemming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
20.4 Using Information Gain for Feature Reduction . . . . . . . . . . . . . . 333
20.5 Representing Text Documents: Constructing a Vector Space
Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
20.6 Normalising the Weights . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
20.7 Measuring the Distance Between Two Vectors . . . . . . . . . . . . . . . 336
20.8 Measuring the Performance of a Text Classifier . . . . . . . . . . . . . . 337
20.9 Hypertext Categorisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
20.9.1 Classifying Web Pages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
20.9.2 Hypertext Classification versus Text Classification . . . . 339
20.10 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
20.11 Self-assessment Exercises for Chapter 20 . . . . . . . . . . . . . . . . . . . . 343

21. Classifying Streaming Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345


21.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
21.1.1 Stationary v Time-dependent Data . . . . . . . . . . . . . . . . . . 347
21.2 Building an H-Tree: Updating Arrays . . . . . . . . . . . . . . . . . . . . . . 347
21.2.1 Array currentAtts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
21.2.2 Array splitAtt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
21.2.3 Sorting a record to the appropriate leaf node . . . . . . . . . 349
21.2.4 Array hitcount . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
21.2.5 Array classtotals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
xiv Principles of Data Mining

21.2.6 Array acvCounts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350


21.2.7 Array branch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
21.3 Building an H-Tree: a Detailed Example . . . . . . . . . . . . . . . . . . . . 352
21.3.1 Step (a): Initialise Root Node 0 . . . . . . . . . . . . . . . . . . . . . 352
21.3.2 Step (b): Begin Reading Records . . . . . . . . . . . . . . . . . . . . 353
21.3.3 Step (c): Consider Splitting at Node 0 . . . . . . . . . . . . . . . 354
21.3.4 Step (d): Split on Root Node and Initialise New Leaf
Nodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
21.3.5 Step (e): Process the Next Set of Records . . . . . . . . . . . . 357
21.3.6 Step (f): Consider Splitting at Node 2 . . . . . . . . . . . . . . . 358
21.3.7 Step (g): Process the Next Set of Records . . . . . . . . . . . . 359
21.3.8 Outline of the H-Tree Algorithm . . . . . . . . . . . . . . . . . . . . 360
21.4 Splitting on an Attribute: Using Information Gain . . . . . . . . . . . 363
21.5 Splitting on An Attribute: Using a Hoeffding Bound . . . . . . . . . 365
21.6 H-Tree Algorithm: Final Version . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
21.7 Using an Evolving H-Tree to Make Predictions . . . . . . . . . . . . . . 372
21.7.1 Evaluating the Performance of an H-Tree . . . . . . . . . . . . 373
21.8 Experiments: H-Tree versus TDIDT . . . . . . . . . . . . . . . . . . . . . . . . 374
21.8.1 The lens24 Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
21.8.2 The vote Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
21.9 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
21.10 Self-assessment Exercises for Chapter 21 . . . . . . . . . . . . . . . . . . . . 377
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378

22. Classifying Streaming Data II: Time-Dependent Data . . . . . . 379


22.1 Stationary versus Time-dependent Data . . . . . . . . . . . . . . . . . . . . 379
22.2 Summary of the H-Tree Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 381
22.2.1 Array currentAtts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
22.2.2 Array splitAtt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
22.2.3 Array hitcount . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
22.2.4 Array classtotals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
22.2.5 Array acvCounts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
22.2.6 Array branch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
22.2.7 Pseudocode for the H-Tree Algorithm . . . . . . . . . . . . . . . 384
22.3 From H-Tree to CDH-Tree: Overview . . . . . . . . . . . . . . . . . . . . . . 387
22.4 From H-Tree to CDH-Tree: Incrementing Counts . . . . . . . . . . . . 387
22.5 The Sliding Window Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
22.6 Resplitting at Nodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
22.7 Identifying Suspect Nodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
22.8 Creating Alternate Nodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
22.9 Growing/Forgetting an Alternate Node and its Descendants . . . 400
Contents xv

22.10 Replacing an Internal Node by One of its Alternate Nodes . . . . 402


22.11 Experiment: Tracking Concept Drift . . . . . . . . . . . . . . . . . . . . . . . 410
22.11.1 lens24 Data: Alternative Mode . . . . . . . . . . . . . . . . . . . . . 412
22.11.2 Introducing Concept Drift . . . . . . . . . . . . . . . . . . . . . . . . . . 414
22.11.3 An Experiment with Alternating lens24 Data . . . . . . . . . 415
22.11.4 Comments on Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . 423
22.12 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
22.13 Self-assessment Exercises for Chapter 22 . . . . . . . . . . . . . . . . . . . . 424
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425

A. Essential Mathematics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427


A.1 Subscript Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
A.1.1 Sigma Notation for Summation . . . . . . . . . . . . . . . . . . . . . 428
A.1.2 Double Subscript Notation . . . . . . . . . . . . . . . . . . . . . . . . . 429
A.1.3 Other Uses of Subscripts . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
A.2 Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
A.2.1 Terminology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
A.2.2 Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
A.2.3 Subtrees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
A.3 The Logarithm Function log2 X . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
A.3.1 The Function −Xlog2 X . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
A.4 Introduction to Set Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
A.4.1 Subsets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
A.4.2 Summary of Set Notation . . . . . . . . . . . . . . . . . . . . . . . . . . 441

B. Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463

C. Sources of Further Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465


Websites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
Books . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
Books on Neural Nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466
Conferences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
Information About Association Rule Mining . . . . . . . . . . . . . . . . . . . . . . 467

D. Glossary and Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469

E. Solutions to Self-assessment Exercises . . . . . . . . . . . . . . . . . . . . . . 491

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
1
Introduction to Data Mining

1.1 The Data Explosion


Modern computer systems are accumulating data at an almost unimaginable
rate and from a very wide variety of sources: from point-of-sale machines in the
high street to machines logging every cheque clearance, bank cash withdrawal
and credit card transaction, to Earth observation satellites in space, and with
an ever-growing volume of information available from the Internet.
Some examples will serve to give an indication of the volumes of data in-
volved (by the time you read this, some of the numbers will have increased
considerably):
– The current NASA Earth observation satellites generate a terabyte (i.e. 109
bytes) of data every day. This is more than the total amount of data ever
transmitted by all previous observation satellites.
– The Human Genome project is storing thousands of bytes for each of several
billion genetic bases.
– Many companies maintain large Data Warehouses of customer transactions.
A fairly small data warehouse might contain more than a hundred million
transactions.
– There are vast amounts of data recorded every day on automatic recording
devices, such as credit card transaction files and web logs, as well as non-
symbolic data such as CCTV recordings.
– There are estimated to be over 650 million websites, some extremely large.
– There are over 900 million users of Facebook (rapidly increasing), with an
estimated 3 billion postings a day.
© Springer-Verlag London Ltd. 2016 1
M. Bramer, Principles of Data Mining, Undergraduate Topics
in Computer Science, DOI 10.1007/978-1-4471-7307-6 1
2 Principles of Data Mining

– It is estimated that there are around 150 million users of Twitter, sending
350 million Tweets each day.
Alongside advances in storage technology, which increasingly make it pos-
sible to store such vast amounts of data at relatively low cost whether in com-
mercial data warehouses, scientific research laboratories or elsewhere, has come
a growing realisation that such data contains buried within it knowledge that
can be critical to a company’s growth or decline, knowledge that could lead
to important discoveries in science, knowledge that could enable us accurately
to predict the weather and natural disasters, knowledge that could enable us
to identify the causes of and possible cures for lethal illnesses, knowledge that
could literally mean the difference between life and death. Yet the huge volumes
involved mean that most of this data is merely stored — never to be examined
in more than the most superficial way, if at all. It has rightly been said that
the world is becoming ‘data rich but knowledge poor’.
Machine learning technology, some of it very long established, has the po-
tential to solve the problem of the tidal wave of data that is flooding around
organisations, governments and individuals.

1.2 Knowledge Discovery


Knowledge Discovery has been defined as the ‘non-trivial extraction of im-
plicit, previously unknown and potentially useful information from data’. It is
a process of which data mining forms just one part, albeit a central one.

Figure 1.1 The Knowledge Discovery Process

Figure 1.1 shows a slightly idealised version of the complete knowledge


discovery process.
Introduction to Data Mining 3

Data comes in, possibly from many sources. It is integrated and placed
in some common data store. Part of it is then taken and pre-processed into a
standard format. This ‘prepared data’ is then passed to a data mining algorithm
which produces an output in the form of rules or some other kind of ‘patterns’.
These are then interpreted to give — and this is the Holy Grail for knowledge
discovery — new and potentially useful knowledge.
This brief description makes it clear that although the data mining algo-
rithms, which are the principal subject of this book, are central to knowledge
discovery they are not the whole story. The pre-processing of the data and the
interpretation (as opposed to the blind use) of the results are both of great
importance. They are skilled tasks that are far more of an art (or a skill learnt
from experience) than an exact science. Although they will both be touched on
in this book, the algorithms of the data mining stage of knowledge discovery
will be its prime concern.

1.3 Applications of Data Mining


There is a rapidly growing body of successful applications in a wide range of
areas as diverse as:
– analysing satellite imagery
– analysis of organic compounds
– automatic abstracting
– credit card fraud detection
– electric load prediction
– financial forecasting
– medical diagnosis
– predicting share of television audiences
– product design
– real estate valuation
– targeted marketing
– text summarisation
– thermal power plant optimisation
– toxic hazard analysis
4 Principles of Data Mining

– weather forecasting
and many more. Some examples of applications (potential or actual) are:
– a supermarket chain mines its customer transactions data to optimise tar-
geting of high value customers
– a credit card company can use its data warehouse of customer transactions
for fraud detection
– a major hotel chain can use survey databases to identify attributes of a
‘high-value’ prospect
– predicting the probability of default for consumer loan applications by im-
proving the ability to predict bad loans
– reducing fabrication flaws in VLSI chips
– data mining systems can sift through vast quantities of data collected during
the semiconductor fabrication process to identify conditions that are causing
yield problems
– predicting audience share for television programmes, allowing television ex-
ecutives to arrange show schedules to maximise market share and increase
advertising revenues
– predicting the probability that a cancer patient will respond to chemotherapy,
thus reducing health-care costs without affecting quality of care
– analysing motion-capture data for elderly people
– trend mining and visualisation in social networks.
Applications can be divided into four main types: classification, numerical
prediction, association and clustering. Each of these is explained briefly below.
However first we need to distinguish between two types of data.

1.4 Labelled and Unlabelled Data


In general we have a dataset of examples (called instances), each of which
comprises the values of a number of variables, which in data mining are often
called attributes. There are two types of data, which are treated in radically
different ways.
For the first type there is a specially designated attribute and the aim is to
use the data given to predict the value of that attribute for instances that have
not yet been seen. Data of this kind is called labelled. Data mining using labelled
Introduction to Data Mining 5

data is known as supervised learning. If the designated attribute is categorical,


i.e. it must take one of a number of distinct values such as ‘very good’, ‘good’
or ‘poor’, or (in an object recognition application) ‘car’, ‘bicycle’, ‘person’,
‘bus’ or ‘taxi’ the task is called classification. If the designated attribute is
numerical, e.g. the expected sale price of a house or the opening price of a
share on tomorrow’s stock market, the task is called regression.
Data that does not have any specially designated attribute is called un-
labelled. Data mining of unlabelled data is known as unsupervised learning.
Here the aim is simply to extract the most information we can from the data
available.

1.5 Supervised Learning: Classification


Classification is one of the most common applications for data mining. It corre-
sponds to a task that occurs frequently in everyday life. For example, a hospital
may want to classify medical patients into those who are at high, medium or
low risk of acquiring a certain illness, an opinion polling company may wish to
classify people interviewed into those who are likely to vote for each of a num-
ber of political parties or are undecided, or we may wish to classify a student
project as distinction, merit, pass or fail.
This example shows a typical situation (Figure 1.2). We have a dataset in
the form of a table containing students’ grades on five subjects (the values of
attributes SoftEng, ARIN, HCI, CSA and Project) and their overall degree
classifications. The row of dots indicates that a number of rows have been
omitted in the interests of simplicity. We want to find some way of predicting
the classification for other students given only their grade ‘profiles’.

SoftEng ARIN HCI CSA Project Class


A B A B B Second
A B B B B Second
B A A B A Second
A A A A B First
A A B B A First
B A A B B Second
......... ......... ......... ......... ......... .........
A A B A B First

Figure 1.2 Degree Classification Data


6 Principles of Data Mining

There are several ways we can do this, including the following.

Nearest Neighbour Matching. This method relies on identifying (say) the five
examples that are ‘closest’ in some sense to an unclassified one. If the five
‘nearest neighbours’ have grades Second, First, Second, Second and Second
we might reasonably conclude that the new instance should be classified as
‘Second’.

Classification Rules. We look for rules that we can use to predict the classi-
fication of an unseen instance, for example:
IF SoftEng = A AND Project = A THEN Class = First
IF SoftEng = A AND Project = B AND ARIN = B THEN Class = Second
IF SoftEng = B THEN Class = Second

Classification Tree. One way of generating classification rules is via an inter-


mediate tree-like structure called a classification tree or a decision tree.
Figure 1.3 shows a possible decision tree corresponding to the degree clas-
sification data.

Figure 1.3 Decision Tree for Degree Classification Data


Introduction to Data Mining 7

1.6 Supervised Learning: Numerical Prediction


Classification is one form of prediction, where the value to be predicted is a
label. Numerical prediction (often called regression) is another. In this case we
wish to predict a numerical value, such as a company’s profits or a share price.
A very popular way of doing this is to use a Neural Network as shown in
Figure 1.4 (often called by the simplified name Neural Net).

Figure 1.4 A Neural Network

This is a complex modelling technique based on a model of a human neuron.


A neural net is given a set of inputs and is used to predict one or more outputs.
Although neural networks are an important technique of data mining, they
are complex enough to justify a book of their own and will not be discussed
further here. There are several good textbooks on neural networks available,
some of which are listed in Appendix C.

1.7 Unsupervised Learning: Association Rules


Sometimes we wish to use a training set to find any relationship that exists
amongst the values of variables, generally in the form of rules known as associ-
ation rules. There are many possible association rules derivable from any given
dataset, most of them of little or no value, so it is usual for association rules
to be stated with some additional information indicating how reliable they are,
for example:
8 Principles of Data Mining

IF variable 1 > 85 and switch 6 = open


THEN variable 23 < 47.5 and switch 8 = closed (probability = 0.8)
A common form of this type of application is called ‘market basket analysis’.
If we know the purchases made by all the customers at a store for say a week,
we may be able to find relationships that will help the store market its products
more effectively in the future. For example, the rule
IF cheese AND milk THEN bread (probability = 0.7)
indicates that 70% of the customers who buy cheese and milk also buy bread, so
it would be sensible to move the bread closer to the cheese and milk counter, if
customer convenience were the prime concern, or to separate them to encourage
impulse buying of other products if profit were more important.

1.8 Unsupervised Learning: Clustering


Clustering algorithms examine data to find groups of items that are similar. For
example, an insurance company might group customers according to income,
age, types of policy purchased or prior claims experience. In a fault diagnosis
application, electrical faults might be grouped according to the values of certain
key variables (Figure 1.5).

Figure 1.5 Clustering of Data


2
Data for Data Mining

Data for data mining comes in many forms: from computer files typed in by
human operators, business information in SQL or some other standard database
format, information recorded automatically by equipment such as fault logging
devices, to streams of binary data transmitted from satellites. For purposes of
data mining (and for the remainder of this book) we will assume that the data
takes a particular standard form which is described in the next section. We will
look at some of the practical problems of data preparation in Section 2.3.

2.1 Standard Formulation


We will assume that for any data mining application we have a universe of
objects that are of interest. This rather grandiose term often refers to a col-
lection of people, perhaps all human beings alive or dead, or possibly all the
patients at a hospital, but may also be applied to, say, all dogs in England, or
to inanimate objects such as all train journeys from London to Birmingham,
all the rocks on the moon or all the pages stored in the World Wide Web.
The universe of objects is normally very large and we have only a small
part of it. Usually we want to extract information from the data available to
us that we hope is applicable to the large volume of data that we have not yet
seen.
Each object is described by a number of variables that correspond to its
properties. In data mining variables are often called attributes. We will use both
terms in this book.
© Springer-Verlag London Ltd. 2016 9
M. Bramer, Principles of Data Mining, Undergraduate Topics
in Computer Science, DOI 10.1007/978-1-4471-7307-6 2
10 Principles of Data Mining

The set of variable values corresponding to each of the objects is called a


record or (more commonly) an instance. The complete set of data available to
us for an application is called a dataset. A dataset is often depicted as a table,
with each row representing an instance. Each column contains the value of one
of the variables (attributes) for each of the instances. A typical example of a
dataset is the ‘degrees’ data given in the Introduction (Figure 2.1).

SoftEng ARIN HCI CSA Project Class


A B A B B Second
A B B B B Second
B A A B A Second
A A A A B First
A A B B A First
B A A B B Second
......... ......... ......... ......... ......... .........
A A B A B First

Figure 2.1 The Degrees Dataset

This dataset is an example of labelled data, where one attribute is given


special significance and the aim is to predict its value. In this book we will
give this attribute the standard name ‘class’. When there is no such significant
attribute we call the data unlabelled.

2.2 Types of Variable


In general there are many types of variable that can be used to measure the
properties of an object. A lack of understanding of the differences between the
various types can lead to problems with any form of data analysis. At least six
main types of variable can be distinguished.

Nominal Variables

A variable used to put objects into categories, e.g. the name or colour of an
object. A nominal variable may be numerical in form, but the numerical values
have no mathematical interpretation. For example we might label 10 people
as numbers 1, 2, 3, . . . , 10, but any arithmetic with such values, e.g. 1 + 2 = 3
Data for Data Mining 11

would be meaningless. They are simply labels. A classification can be viewed


as a nominal variable which has been designated as of particular importance.

Binary Variables

A binary variable is a special case of a nominal variable that takes only two
possible values: true or false, 1 or 0 etc.

Ordinal Variables

Ordinal variables are similar to nominal variables, except that an ordinal vari-
able has values that can be arranged in a meaningful order, e.g. small, medium,
large.

Integer Variables

Integer variables are ones that take values that are genuine integers, for ex-
ample ‘number of children’. Unlike nominal variables that are numerical in
form, arithmetic with integer variables is meaningful (1 child + 2 children = 3
children etc.).

Interval-scaled Variables

Interval-scaled variables are variables that take numerical values which are
measured at equal intervals from a zero point or origin. However the origin
does not imply a true absence of the measured characteristic. Two well-known
examples of interval-scaled variables are the Fahrenheit and Celsius tempera-
ture scales. To say that one temperature measured in degrees Celsius is greater
than another or greater than a constant value such as 25 is clearly meaningful,
but to say that one temperature measured in degrees Celsius is twice another
is meaningless. It is true that a temperature of 20 degrees is twice as far from
the zero value as 10 degrees, but the zero value has been selected arbitrarily
and does not imply ‘absence of temperature’. If the temperatures are converted
to an equivalent scale, say degrees Fahrenheit, the ‘twice’ relationship will no
longer apply.
12 Principles of Data Mining

Ratio-scaled Variables

Ratio-scaled variables are similar to interval-scaled variables except that the


zero point does reflect the absence of the measured characteristic, for example
Kelvin temperature and molecular weight. In the former case the zero value
corresponds to the lowest possible temperature ‘absolute zero’, so a temperature
of 20 degrees Kelvin is twice one of 10 degrees Kelvin. A weight of 10 kg is
twice one of 5 kg, a price of 100 dollars is twice a price of 50 dollars etc.

2.2.1 Categorical and Continuous Attributes

Although the distinction between different categories of variable can be impor-


tant in some cases, many practical data mining systems divide attributes into
just two types:
– categorical corresponding to nominal, binary and ordinal variables
– continuous corresponding to integer, interval-scaled and ratio-scaled vari-
ables.
This convention will be followed in this book. For many applications it is
helpful to have a third category of attribute, the ‘ignore’ attribute, correspond-
ing to variables that are of no significance for the application, for example the
name of a patient in a hospital or the serial number of an instance, but which
we do not wish to (or are unable to) delete from the dataset.
It is important to choose methods that are appropriate to the types of vari-
able stored for a particular application. The methods described in this book are
applicable to categorical and continuous attributes as defined above. There are
other types of variable to which they would not be applicable without modifi-
cation, for example any variable that is measured on a logarithmic scale. Two
examples of logarithmic scales are the Richter scale for measuring earthquakes
(an earthquake of magnitude 6 is 10 times more severe than one of magnitude
5, 100 times more severe than one of magnitude 4 etc.) and the Stellar Mag-
nitude Scale for measuring the brightness of stars viewed by an observer on
Earth.

2.3 Data Preparation


Although this book is about data mining not data preparation, some general
comments about the latter may be helpful.
Data for Data Mining 13

For many applications the data can simply be extracted from a database
in the form described in Section 2.1, perhaps using a standard access method
such as ODBC. However, for some applications the hardest task may be to
get the data into a standard form in which it can be analysed. For example
data values may have to be extracted from textual output generated by a fault
logging system or (in a crime analysis application) extracted from transcripts
of interviews with witnesses. The amount of effort required to do this may be
considerable.

2.3.1 Data Cleaning

Even when the data is in the standard form it cannot be assumed that it
is error free. In real-world datasets erroneous values can be recorded for a
variety of reasons, including measurement errors, subjective judgements and
malfunctioning or misuse of automatic recording equipment.
Erroneous values can be divided into those which are possible values of the
attribute and those which are not. Although usage of the term noise varies, in
this book we will take a noisy value to mean one that is valid for the dataset,
but is incorrectly recorded. For example the number 69.72 may accidentally be
entered as 6.972, or a categorical attribute value such as brown may accidentally
be recorded as another of the possible values, such as blue. Noise of this kind
is a perpetual problem with real-world data.
A far smaller problem arises with noisy values that are invalid for the
dataset, such as 69.7X for 6.972 or bbrown for brown. We will consider these to
be invalid values, not noise. An invalid value can easily be detected and either
corrected or rejected.
It is hard to see even very ‘obvious’ errors in the values of a variable when
they are ‘buried’ amongst say 100,000 other values. In attempting to ‘clean
up’ data it is helpful to have a range of software tools available, especially to
give an overall visual impression of the data, when some anomalous values or
unexpected concentrations of values may stand out. However, in the absence of
special software, even some very basic analysis of the values of variables may be
helpful. Simply sorting the values into ascending order (which for fairly small
datasets can be accomplished using just a standard spreadsheet) may reveal
unexpected results. For example:
– A numerical variable may only take six different values, all widely separated.
It would probably be best to treat this as a categorical variable rather than
a continuous one.
– All the values of a variable may be identical. The variable should be treated
as an ‘ignore’ attribute.
Discovering Diverse Content Through
Random Scribd Documents
La disonesta e rovinosa amministrazione frumentaria era stata, come
dire, il cavallo di battaglia dell'accusa di Cicerone, ed, appena,
l'allusione a' cittadini romani, arbitrariamente messi a morte, poteva
avere tanta azione su' giudici ed anche sul popolo, quanto ne avea
questo richiamo a' loro maggiori interessi, così offesi e compromessi.
Cicerone lo sapeva e vi si fermava volentieri, comprendendo che ciò
avrebbe contribuito grandemente all'esito della causa.
Le opere d'arte.

Tutto il bottino di opere d'arte, da lui denunziato, poteva interessare,


solo mediocremente, il popolo romano. Verre chiamava quel suo
amore delle opere d'arte passione, i suoi amici lo chiamavano anche
manìa, e a Roma, dove il senso dell'arte era ancora molto limitato,
avrebbero perdonato l'una e l'altra. Cicerone, per rendere più grave
la cosa, tirava fuori, da quelle ch'egli denunziava come rapine, il
sacrilegio, i rapporti di Roma compromessi verso potentati stranieri.
Ma anche qui era tutt'altro che disperata, dal lato giuridico, la difesa
di Verre. Verre si scusava di aver comperato quelle opere d'arte, che
Cicerone diceva rubate [1023] e, in verità, in varî casi, riusciva a dare
una dimostrazione sufficiente di questa sua asserzione [1024]. Altre
volte si trattava di statue, date a lui in virtù di esplicite deliberazioni
di magistrature cittadine [1025]; ottenute qualche volta, forse, nel
modo, che dice Cicerone, qualche altra, fors'anche, se non con
ispontaneità di sentimento, almeno in forma spontanea. Certamente,
era pericoloso quel desiderio di comperare, in mano ad un
governatore; perchè quelle compere potevano anche mutarsi, e si
mutavano, in un mezzo di estorsione: ma, in ogni modo, Cicerone
stesso consentiva a non voler vedere, nel semplice fatto della
compera, un reato. Che, del resto, molte volte Verre fosse condotto
a questa razzìa di opere d'arte, più da passione che da semplice
avidità, lo dimostra lo stesso fatto, tante volte ripetuto da Cicerone,
del restituire che faceva gli oggetti di metallo prezioso dopo averne
staccati i fregi. Col proposito, poi, di mostrare che quelle vendite si
traducevano talvolta in veri ricatti, Cicerone si lasciava andare
volentieri ad esagerare il valore delle opere d'arte e, chi sa?
fors'anche qualche volta a travisarne la vera natura.
Il valore di molte opere d'arte, specialmente di utensili ed arredi,
andava a grado a grado rinvilendo, specialmente poichè ne fu
affidata la produzione al lavoro servile [1026]. E, quanto alle vantate
opere d'arte di Prassitele (IV, 2, 5) di Mirone (3, 5; 43, 93) di
Policleto (l. c.), di Boetho (14, 32), di Mentore (18, 38), di Silanione
(57, 126); si trattava proprio degli originali, o non piuttosto di copie,
cui era conveniente il prezzo assegnato? Questi baratti di copie per
originali non erano proprio rari; erano anzi frequenti, anche in un
periodo di più progredita conoscenza, e l'inganno riusciva a
meraviglia [1027]. Dell'Eros di Prassitele e delle sue varie figurazioni
noi non sappiamo tutto quello che vorremmo; ma la celebrità, che
presto ottenne, ne dovette necessariamente far moltiplicare le copie.
È notevole intanto che di questa statua di «Eros» posseduta da Heio,
Cicerone è il solo a parlare [1028]. L'Heracles era soltanto attribuito a
Mirone; e sarebbe stata la seconda delle statue del solo Heracles,
attribuite a questo scultore [1029]. Anche la statua di Apollo in
Agrigentum corrisponde ad un'altra della stessa divinità e dello
stesso scultore, che si trovava in Efeso [1030].
Se queste ed altre statue, acquistate da Verre, erano copie
semplicemente, anche le conseguenze che Cicerone voleva ricavare
dal tenue prezzo, per cui erano state comperate, rimanevano
ingiustificate. Di altre statue il furto era stato compiuto o tentato,
anche a stare alla versione di Cicerone, da aderenti di Verre; e non
era dimostrato assolutamente che l'avessero fatto per conto del
governatore e non per proprio conto.
Verre e i suoi accoliti.

Un altro de' punti deboli dell'accusa di Cicerone consisteva appunto


in questa solidarietà, tutta congetturale e niente affatto dimostrata,
di Verre e de' suoi fautori, o dipendenti.
Occorreva tutta la parzialità di un accusatore per credere che i
membri della coorte, che gli amici, che gli aderenti non avessero
profittato della loro posizione per empire il sacco. Questo sistema di
far risalire a Verre tutta la responsabilità de' fatti compiuti sotto di
lui, era un metodo analogo a quello, cui si attennero poi gli
accusatori di Warren Hastings, e contro il quale reagisce ora un suo
recente biografo, cercando di sceverare quanta parte potesse avere
egli, e quanta ne avessero Sir Elias Impey e gli altri [1031].
E Verre stesso, del resto, si rendeva conto di ciò, e si doleva della
responsabilità, che avrebbe finito coll'avere, di colpe non sue [1032].
Il maneggio del danaro era presso i questori: ma, mentre Cicerone,
parlando di Dolabella già giudicato e condannato, volea far risalire a
Verre molte delle sue colpe, tanto riputava l'opera del questore
necessaria e prevalente in siffatto genere di cose; trattando invece di
Verre, dimentica i questori, e, se una volta li rammenta, lo fa per
iscusarli e trarli anzi fuori della causa [1033]. Eppure in altro
momento, quando si era trattato di ottenere a preferenza di Q.
Cecilio, il diritto di accusare, Cicerone avea ben saputo riconoscere
quanta fosse la parte e quanta la responsabilità de' questori in tutte
le colpe, di cui si accagionava Verre [1034].
Le prevaricazioni.

Le preterizioni, le deduzioni affrettate, la congettura, sopra tutto,


hanno una grandissima parte in quest'accusa di Cicerone.
L'incostituzionalità di alcune parti dell'editto, molti de' pronunziati
giudiziarî e tanti altri degli atti a Verre rimproverati, potevano
costituire veramente materia di quel particolare giudizio, in quanto
era dimostrato che la causa determinante ne fosse stata il lucro. Ora
a questa conclusione, anche volendo tener conto di quello che egli
dice, Cicerone arriva per via indiretta, congetturale [1035]. Questo
carattere dell'accusa è così saliente, che lo notava anche uno degli
scoliasti di Cicerone [1036].
Le benemerenze di Verre.

Ma, oltre a tutte le scuse e le difese, che a Verre dovea riescir


possibile trovar contro queste colpe e parvenze di colpe, ve n'era
un'altra, che dovea contare non poco, ed era la benemerenza, ch'egli
avrebbe acquistato verso lo Stato, accrescendo i proventi della Sicilia
e mantenendo nell'isola la tranquillità, mantenendovi intatto il
prestigio di Roma e del suo imperio e salvaguardando la sua
sicurezza [1037].
A Cicerone questo pareva come spostar la questione e mutar l'indole
del giudizio, portando la discussione da un campo in un altro. Ma egli
sapeva benissimo che in un giudizio, in cui si richiamava,
moralmente almeno, in esame tutta la vita dell'imputato, e in cui il
verdetto, effetto di un lavorio tutto interno della coscienza, emanava
da un concetto sintetico delle azioni, della vita, del carattere del
giudicabile; un ordine di benemerenza, come quello, non solo non
rimaneva indifferente, ma diveniva forse il principale coefficiente
della sentenza. Gli stava bene innanzi alla mente M'. Aquillio, il
vincitore della seconda guerra servile, le cui colpe anche Cicerone,
altrove [1038], non qui, riconosceva come evidenti, e che a
considerazioni di tal genere dovette la sua assoluzione.
Egli stesso, difendendo appresso M. Fonteio [1039] e poi L.
Flacco [1040], doveva molto insistere su questo modo di difesa. Anche
in tempi più recenti, Warren Hastings, benchè esplicitamente
dichiarasse di volere essere condannato, se colpevole, non si
astenne dall'allegare tutti i servigî da lui resi al paese, come la prova
maggiore del suo carattere elevato e dell'incapacità di compiere atti
disonorevoli [1041]. Così Cicerone si vide obbligato a seguire il suo
avversario, anche su questo terreno, e fece del suo meglio per
discreditare Verre ed ogni sua impresa in Sicilia. È noto come cercò
di mostrar bugiardo il vanto de' maggiori proventi tratti dalla Sicilia.
Ora, la quiete mai disturbata in Sicilia, la compiacente liberazione di
schiavi, già condannati come ribelli, la venale amministrazione della
flotta, il suo annientamento, l'interesse dello Stato subordinato a'
suoi rapporti galanti, l'ingresso de' pirati nel porto di Syracusae
doveano dimostrare menzogneri anche gli altri vanti.
Anzi, tutto quanto, in questo, poteva conferire alla prova della sua
venalità, dovea servire anche a rincalzare l'accusa.
Finalmente i maltrattamenti e le arbitrarie uccisioni di cittadini
romani doveano finire di renderlo inviso a giudici e popolo,
obbligando gli uni ad immolarlo all'ira dell'altro.
Messo su questa china, non deve far meraviglia che Cicerone
sacrificasse molto della verità all'interesse della causa e, dopo, nel
redigere la sua orazione, all'interesse letterario.
La sicurezza in Sicilia.

Lo stato della Sicilia sotto Verre non poteva essere, e non era, quello
stato di assoluta pace interna ed esterna, che Cicerone ci vorrebbe
far credere.
Anche dal semplice accenno, fatto innanzi, all'estendersi del
latifondo, al decadere della popolazione, alla crisi economica, si può
desumere che, se i Romani aveano due volte potuto spegnere nel
sangue quelle rivolte servili, che aveano attratto nel loro vortice
anche una parte del proletariato, non ne aveano tolto le cagioni, e il
fuoco semispento covava sempre sotto le ceneri. Spartaco stesso
guardava, con occhio pieno di speranza, a quella terra classica di
schiavi arditi ed insofferenti. E, mentre un lievito di future rivolte
fermentava, pur dissimulato, all'interno, tutti i mari intorno erano in
mano de' pirati, giunti allo stadio della loro maggiore potenza. L'onta
recente di M. Antonio Cretico era ancora invendicata e, da soli
quattro anni, Verre avea lasciata la Sicilia, quando i Romani
dovettero pensare a rimettere insieme una flotta, che non aveano
più, e dovettero conferire poteri illimitati al loro più famoso
comandante per venire a capo dell'impresa.
In tali condizioni, solo una mano ferma e virile potea impedire uno
scoppio immediato e il riardere di una guerra servile. Spartaco,
entrato in trattative con pirati di Cilicia, avea deliberato appunto di
passare in Sicilia; e, se, secondo qualcuno, il passaggio fu impedito
dalla malafede de' pirati, che, presa la mercede, non tennero i
patti [1042], non è men vero (ce lo dice un autore attendibile e non
remoto da que' fatti) che Verre sorvegliò ed assicurò i lidi
italiani [1043]. Questa tradizione recisa e sicura, il proposito di
Spartaco di volgersi alla Sicilia, donde gli dovettero venire
incitamenti ed assicurazioni di un terreno favorevole, bastano già per
mostrare la parzialità dell'accusa di Cicerone [1044]; ed, a chi
considera le cose da questo punto di vista, il caso degli schiavi
triocalini, prima condannati e poi liberati, quelli di Aristodemo, di
Apollonio, di Leonte d'Imachara, di Apollonio di Panhormus, a noi
neppure ben noti in tutte le loro particolarità, perdono d'importanza
sopra tutto, se intendono a dimostrare che Verre non si occupò di
tener sicura la Sicilia. La grazia accordata agli schiavi di Leonida, nel
momento stesso dell'esecuzione della condanna, se, a Roma, in un
giudizio pronunziato da un regolare tribunale contro un cittadino, era
cosa affatto sconosciuta ed illegale; in provincia, tenuto conto della
speciale posizione del pretore, dell'ordine non rigoroso de' giudizî,
può non destare sorpresa, ed, in linea di fatto, è suscettibile di
spiegazioni ben diverse da quelle che congetturalmente ne dava
Cicerone. E quanto ad Apollonio, se Cicerone mostrava di non saper
concepire, per la sua posizione, ch'egli avesse mano nelle sommosse
servili; quelli, cui è noto, per lungo ordine di esempî tutto lo sviluppo
del manutengolismo in Sicilia, potranno vedere, in quello, un caso
del genere.
I pirati ed i provvedimenti per la flotta.

V'è appena bisogno di rilevare, di fronte a tutto il complesso de' fatti


anteriori e posteriori ed alla concorde tradizione [1045], che minaccia
dovevano essere poi i pirati, per la Sicilia specialmente. Del resto
basti dire che lo stesso Cicerone diceva della loro abitudine di
svernare a Melitta [1046], e de' Liparensi, ch'erano divenuti verso di
essi veri tributarî [1047]: ed alludeva, con insistenza, alla pericolose
avventure del suo viaggio in Sicilia e del suo ritorno [1048]. Quanto
più grave era il compito, tanto più erano inadeguati i mezzi, di cui
poteva disporre un governatore della Sicilia. Una marineria stabile,
regolare e bene ordinata, mancava prima dell'impero, e bisognava
sopperire col contingente fornito dalle varie città. Cicerone
probabilmente travisa e contorce le varie misure prese da Verre in
ordine alla flotta; ma forse non è ardito vedere, attraverso quelle
stesse notizie che Cicerone ci dà, frammentariamente ed
accompagnate da malevoli interpretazioni, un tentativo di
riordinamento della squadra locale. Quali che si fossero le vere
intenzioni, che animarono Verre nella sua condotta verso Messana e
verso Tauromenium, l'esenzione fatta alla prima di contribuire una
nave (se esenzione fu e non sostituzione), non potè indebolire la
flotta, dal momento che fu chiamata a concorrervi la seconda, la
quale, a dir di Cicerone, non vi era obbligata. Le altre somme,
percepite dalla città o da' privati, per esenzioni dal servizio militare,
corrispondono ad una consuetudine sempre più invalsa in quei
tempi, nelle leve fatte anche in Italia [1049], e davano modo di
colmare quei vuoti con mercenarî e proletarî. Tanto più ciò può
intendersi per la Sicilia, dove non è punto nuovo questo scambio di
vicarî [1050], e, secondo l'interpretazione di uno scrittore, la decima
avrebbe avuto origine come corrispettivo di questa esenzione dal
servizio militare [1051]; e s'intende meglio, trattandosi della flotta, che
soleva essere armata degli elementi più scadenti della popolazione.
La provvisione avocata al comando dell'armata delle paghe e de'
viveri, forniti prima a cura de' varî comuni, se può aver fornito, come
Cicerone vuole, argomento di ruberie, può anche meglio considerarsi
come un passo nel riorganamento, sempre meglio congegnato e
coerente, della forza navale; e diventava una necessità per
l'alimentazione delle ciurme, quando, mobilizzata la flottiglia e
costretta a mutar spesso di posto, occorreva provvedere a tutto con
una regolarità, di cui forse non sempre davano affidamento le
singole città ed i navarchi.
Il conferimento, poi, del comando a Cleomene non ha bisogno di
essere spiegato esclusivamente con un intrigo di gineceo. Anzi tutto,
non si trattava di un fatto assoluto. Cicerone stesso ci fa altra volta
vedere la squadra sotto il comando de' legati P. Cesezio e Q.
Tadio [1052]. In questa continua guerriglia de' pirati, si dovea ben
sentire quel bisogno che appresso raccomandò greci navigatori,
anche liberti, in grazia della loro esperienza, per l'ufficio di
ammiragli. I copiosi esempî che appresso ne abbiamo [1053],
andando verso l'impero, ci dispensano dal ricorrere proprio alla
sottile e personale spiegazione messa innanzi da Cicerone. Che se la
flotta venne fugata e distrutta, non occorre dimenticare la forza de'
pirati ed altre memorande sconfitte da essi date a flotte maggiori.
La spiegazione che Cicerone ne dà, può essere accolta o rigettata;
ma, in punto di fatto, egli stesso dice che i navarchi ammisero che le
navi fossero bene armate e fornite. Per quelli, che doveano giudicar
Verre, ciò risultava da un documento [1054]. Parimenti il diverso
trattamento usato a Cleomene ed a' navarchi, trova la sua
spiegazione nel fatto che Cleomene era approdato a Pachyno per
rinforzare con il presidio di terra l'equipaggio: gli altri invece
avrebbero lasciato la flotta in mano de' pirati [1055]. Come si vede,
anche per tempi posteriori, queste milizie locali non erano veramente
permanenti e si richiamavano, o si congedavano, secondo il
bisogno [1056]. Non era dunque da farsi un così gran carico a Verre
de' congedi accordati, nè v'era da sorprendersi di questo bisogno
sentito da Cleomene di imbarcare altri soldati nell'imminenza della
zuffa. Potea, dunque, ben avvenire che egli apparisse in qualche
maniera giustificato e che la responsabilità dell'abbandono e
dell'incendio della flotta si facesse gravare su i navarchi, che non
aveano opposta resistenza, ed anzi aveano abbandonato le navi.
Ad accrescere la difficoltà della situazione, in quei momenti, in
Sicilia, conferì anche, e molto, il contegno di Mitradate, il quale, a
combattere Roma, si giovava de' pirati, de' Sertoriani, di tutto.
Questo scambio di rapporti tra Mitradate e Sertorio dovea richiamare
tutta l'attenzione di Verre [1057], che, stando a mezza strada, dovea
avere il debito e l'interesse di scoprirli ed intercettarli; tanto più che
ciò dava occasione al vecchio sillano di fare le ultime vendette della
sua parte. Ed a questo, probabilmente, fu dovuta quella condotta,
anche più che severa, crudele talvolta, contro cittadini romani, di cui
Cicerone seppe avvalersi assai bene per rinfocolare gli odî e rendere
più esosa ancora la causa di Verre.
L'opera di Verre.

Una tale causa, a bene intenderla e giudicarla, avea bisogno di una


serenità d'indagine, che era illusione attendersi, tenuto conto,
specialmente, del suo carattere politico.
Io non ho inteso, nè preteso fare la difesa di Verre. La storia non
accusa, nè difende: interpreta e narra; ed io ho voluto precisamente
fare uno studio storico, che permettesse di meglio valutare, da un
lato le Verrine, considerate come documenti storici, e dall'altro, il
vero rapporto di Verre con gli uomini e le condizioni del suo tempo.
La spiegazione di molti fatti occorre chiederla alle condizioni, in cui la
Sicilia e tutto il dominio romano si trovavano, ed a' fatti, che
precedettero e seguirono il governo di Verre.
Di più altre cose la spiegazione ci vien data dallo studio delle
istituzioni, guardate specialmente nel periodo imperiale. V'era
nell'amministrazione delle province, ne' poteri e nelle funzioni del
governatore, in tutto insomma, una evoluzione, che appresso si
manifesta in forma più distinta e che, in questi ultimi tempi della
repubblica, si mostra come un deviamento dal carattere formale
della legge e delle istituzioni ed, insieme, come un adattamento di
esse allo stato reale delle cose.
Considerata nel suo complesso, l'amministrazione di Verre, malgrado
tutte le sue colpe, e al disopra di tutti i suoi non confessabili
interessi, sembrava dominata da un criterio direttivo: quello di
affermare in tutta la sua estensione, e in forma assoluta, il dominio
romano, di accentrare nel governatore tutta la direzione della vita
amministrativa e giuridica della provincia. A questo e all'evidenza
stessa de' fatti, consapevolmente o no, si riferivano Verre ed
Ortensio nella difesa, che Cicerone presupponeva ed anticipava; e
questo significato avea l'appello alla comune consuetudine, agli
abusi anche, così frequentemente commessi e tollerati.
La causa dal punto di vista politico.

Questa, a dire di Cicerone, era una improba defensio, e, dal punto di


vista morale specialmente, egli avea ragione. Ma in questo proprio
stava il punto più interessante della causa, che era, sopra tutto, una
causa politica. Tutte le osservazioni d'indole giuridica e le
rettificazioni de' fatti potevano trovar posto nella difesa, e non erano
trascurate; ma la difesa vera consisteva in questo appello alla
solidarietà della classe, e Verre non ne faceva proprio mistero. Egli si
rivolgeva a quell'aristocrazia, cui Silla avea voluto ridonare il
monopolio del potere; che avea chiesta ed ottenuta la sua vittoria
alle proscrizioni ed a' supplizî, e, avendo diguazzato nella rapina e
nel sangue, non sentiva il bisogno e non poteva nemmeno
accampare il diritto di aver degli scrupoli. Lo diceva proprio
l'accusatore di Verre [1058]: «le loro case e le loro ville eran piene
delle statue e de' dipinti di questi, che, per un eufemismo, Cicerone
chiamava ancora «socii.» In quelle ville era racchiuso il danaro, di cui
tanti aveano bisogno, tutto quanto di meglio potea offrire il dominio
romano. Piangevano tutte le provincie, si dolevano tutti i popoli,
chiedevan ragione i regni delle cupidigie e delle offese romane; non
v'era luogo, per ogni terra che circondasse l'Oceano, nè così lontano,
nè così riposto, ove, ora, la nequizia e la corruzione romana non
fossero penetrate. Il popolo romano omai era impotente a resistere,
non alle armi, non alla forza, non alle guerre de' popoli stranieri, ma
al loro cordoglio, alle loro lacrime, a' loro gridi di dolore [1059].»
E pure, in quelle condizioni politiche, era forza che così fosse. Tutte
le colpe, di ogni genere, apposte a Verre, ricompariscono, come un
fatto immancabile, in tutta la storia del regime coloniale. Allora, poi,
col fasto insolente, che ogni giorno più cresceva e più diveniva
generale, col decadere dell'agricoltura, col crescere della
concorrenza, l'aristocrazia romana dovea trovare nell'espilazione
delle provincie una condizione necessaria di vita; e là si fondevano,
mirabilmente, come sempre, il suo interesse politico ed il suo
interesse economico, di cui il monopolio del potere era la più schietta
manifestazione. Verre, ostinato ed intransigente sillano, affermava
per suo conto questo, fors'anche con affettazione di cinismo, e
chiedeva alla sua parte che anch'essa, cinicamente, l'affermasse da'
rostri, dal tribunale, per tutto. Quando Verre allegava a sua discolpa
la corruzione generale, anche più che fare l'appello ad un senso di
giustizia distribuitiva, faceva appello allo spirito di solidarietà, ed a
quello di conservazione della sua classe.
Ma la memoria del terribile dittatore, dell'uomo, che col suo nome
avea fatto tremare i suoi nemici, cominciava ad allontanarsi, e
l'opera sua, in gran parte di carattere personale, si andava
sgretolando sotto le esigenze del tempo, nell'infiacchirsi della sua
parte e nel risorgere delle tendenze democratiche. Molta parte
dell'aristocrazia rinunziava alla sua intransigenza, per meglio
resistere con graduali concessioni al nuovo impeto della parte
popolare e, con la conciliazione, tener lontana ancora l'ora della sua
fine. Mutava la sua orientazione politica, e l'appello di Verre dovea
perdersi come una voce inascoltata: Verre stesso diveniva quel che
di peggio può avere, in certi momenti, un partito reazionario: un
troppo zelante partigiano, un incomodo amico. Alcuni anni innanzi,
l'interesse di classe avrebbe potuto suggerire il salvataggio di Verre;
e l'oligarchia romana si sarebbe condotta verso di lui, come, non di
rado nella storia, come, anche oggi, la classe dominante si conduce
rispetto ad uomini, che assai più di Verre hanno offesa la legge e la
morale, ma che si credono ancora utili; tanto più utili anzi, quanto
più sono impulsivi ed inaccessibili ad ogni scrupolo.
Lo spirito di conservazione della classe esigeva, in quel momento,
piuttosto il sacrifizio che il salvataggio di Verre. E così fu fatto.
La lex Aurellia iudiciaria, tenuta in sospeso mentre Verre sembrava
rinunciasse a difendersi, e promulgata, quando parve che
risorgessero il suo ardire e le sue speranze [1060]; fu l'indizio di
questo momento politico, e, per Verre, il pronostico della sua
condanna.
Egli, nella pendenza del giudizio, rimase ancora incerto, cercando,
forse, ancora un'estrema via di scampo.
Mandò un messaggio a Messana, chiedendo che fosse dichiarato
Heio degno d'ignominia per la parte presa contro di lui [1061].
Intanto restava ancora a Roma. Dopo che il primo stadio della causa
fu chiuso, fu visto in casa di L. Sisenna stare a contemplare con
occhi appassionati alcuni arredi di argento, oggetto egli stesso di
curiosità per tutti gli altri [1062].
La fine.

Ma a misura che il secondo periodo della causa stava per avvicinarsi,


vide la necessità di lasciar Roma, e partì in volontario esilio.
Le speranze erano venute meno in lui; e, presente o assente, la sua
vita pubblica era chiusa per sempre. Fu, in qualche parte, disdegno
che l'indusse a partire, senz'attendere la sentenza? Era sopratutto il
suo interesse che gli dettava di far così.
Troncando col suo volontario esilio quel giudizio di carattere penale,
tra lui ed i Siciliani non vi sarebbe stato più luogo che ad una causa
civile, in cui molto più difficile riesciva il provare i profitti che gli si
attribuivano, e in cui, oltre a tutte le armi che le sottigliezze
giuridiche potevano mettergli in mano, gli doveano giovare anche,
specialmente in quanto all'acquisto delle opere d'arte, que'
documenti, di cui si tentava impugnare l'efficacia nel giudizio di
concussione.
Con questo anche si può spiegare che la condanna di Verre fu ridotta
a tre milioni, soltanto, di sesterzî [1063].
Se ne andò, così, Verre in esilio con le sue ricchezze, con le statue,
che avea saputo mettere in salvo [1064], co' suoi vasi corinzî; ed in
quegli ozî invecchiò, non rimpiangendo forse il prestigio del comando
e l'agitata vita pubblica e le speranze di maggiori onori.
A quelle sue collezioni artistiche teneva tanto, che il non essersene
voluto separare, gli avrebbe, secondo la tradizione, procurata la
morte da parte di M. Antonio, il corinthiarius, che desiderava
appunto i suoi vasi corinzî [1065], e non trovò miglior mezzo, per
averli, che comprendere il proprietario nelle liste di proscrizione
triumvirali.
E, se non è inventato per ispirito di parte, e ripetuto per comodità di
rettorica [1066], seppe morire virilmente.
Prima di morire avea anche saputo, e non senza intima
soddisfazione, la morte del suo accusatore [1067], il quale avea resa
più vergognosa e più amara la sua fuga scrivendo quelle orazioni che
non avea potuto tutte pronunziare.
Tutte cose da inserire negl'inventarî della provvidenza divina!
Ma Lattanzio dice [1068] che gli dèi del tempo erano inetti a
vendicarsi, perfino delle ruberie e de' sacrilegî; ed il suo dio,
evidentemente, non guardava ancora a questi suoi regni d'occidente!
ERRATA CORRIGE

Pag. 37, lin. 4, confidare affidare


» 43, » 3, primi prima
» 53, » 15, procedere procedimento
» 54, » 25, mezza mezzo
» 55, » 30, era eran
» 56, » 4, contamniati contaminati
» 57, e passim: Agrigento Agrigentum
Siracusa,
» 58, e passim: Siracusae Syracusae
Lilibeo,
» 64, e passim: Lilybeum Lilybaeum
» 80, lin. 11, lece fece
» 91, » 9, spegate spiegate
» 96, » 4, nell'uffizio dell'uffizio
l'anno due anni
appresso appresso
» 103, » 8, (73 a. C.) (72 a. C.)
» 104, » 4, avuta avuto
» 108, e passim: Messina Messana
» 109, e passim: Agyrrium Agyrium
» 165, lin. 19, presa preso
INDICE

I.
LVXVRIA INCVBVIT VICTVMQUE VLCISCITVR ORBEM

Le conquiste oltremarine di Roma Pag. 3


La nuova vita romana 6
La rivoluzione economica 9
I cavalieri 11
Il nuovo costume 13
Disparità delle fortune 14
La vita politica 16
La corruzione elettorale e la dilapidazione delle provincie 17

II.
PRAEDIA POPULI ROMANI

La formazione delle provincie 21


Il diritto di guerra 22
Le conseguenze della conquista 24
La lex provinciae 25
Sistema d'imposizione 27
Le provincie e i magistrati 29
Il governatore della provincia e i suoi dipendenti 31
I pubblicani 33
I negotiatores 36
La praefectura e la legatio libera 37

III.
PATRONA SOCIORUM

Roma e gli stranieri ivi


L'origine delle leges de repetundis. La lex Calpurnia 41
La lex Junia 43
La lex Acilia 44
Le leges Serviliae 50
La lex Cornelia de repetundis 52
La pena 53
Le vicende del potere giurisdizionale e de' giudizî 55

IV.
INSULA CERERIS

La conquista e l'ordinamento della Sicilia 57


Le città di Sicilia 60
La condizione delle città 62
Città federate ed indipendenti ivi
Città decumane 63
Città censorie 64
Altri tributi 65
Ordinamento locale 66
Sistemi d'elezione 67
Le leges Rupiliae 68
La lex Hieronica 70
I poteri del governatore 74
Le condizioni economiche della Sicilia 76

V.
HOMO AMENS AC PERDITUS?

Le Verrine 79
C. Verre e la sua famiglia 82
La questura di Verre 84
La legazione e la proquestura di Verre 87
Il viaggio 88
L'avventura di Lampsaco 89
Il brigantino di Mileto 90
Verre tutore 91
Verre e Dolabella in giudizio 92
La pretura di Verre 94
L'eredità di P. Annio 96
L'eredità di P. Trebonio ivi
L'eredità di Sulpicio Olympo 97
Verre e la lex Voconia ivi
Verre e la lex Cornelia de proscriptis 99
Verre e il diritto successorio de' patroni 100
La giustizia di Verre 101
Chelidone 102
La manutenzione de' pubblici edifici 103
La sortitio iuniana 106

VI.
QUASI IN PRAEDAM

Verre e i suoi accoliti in Sicilia 107


L'eredità di Apollodoro Laphirone 108
L'eredità di Sosippo e Philocrate 109
I metodi giudiziari di Verre ivi
L'eredità di Eraclio Siracusano 110
L'eredità di Epicrate 112
La condanna di Sopatro di Halycia 113
Il caso di Stenio da Thermae 114
L'ingerenza nelle elezioni de' magistrati locali 116
I sacerdozî 117
I censori ivi
Le statue 118
Le esportazioni abusive 119
L'amministrazione frumentaria. -- Verre e la lex Hieronica 120
Le angherie degli agricoltori 122
Le città e il riscatto delle decime 124
Le compere di frumento 127
La caccia alle opere d'arte 129
I sacrilegî 133
Le cospirazioni degli schiavi 136
La flotta e i pirati 137
Il supplizio de' navarchi 139
I ricatti e le uccisioni 140
Lo stato della Sicilia sotto Verre ivi
Le gazzarre del pretore e della coorte 141
L'addensarsi della tempesta e gli scongiuri 142
VII.
AD ARAM LEGUM

Il carattere dell'accusa e l'ambiente 144


Cicerone 146
I primi maneggi di Verre 149
La proposizione dell'accusa. Cicerone e Q. Cecilio 150
La Divinatio 152
L'inquisizione di Cicerone 155
Il ritorno di Cicerone 161
La candidatura di Cicerone e i preliminari della causa 162
I giudici della causa 164
Le elezioni 168
Alla vigilia del giudizio 169
La causa 170
Ortensio e Cicerone 172
Gli ultimi maneggi di Verre 175
Il sistema d'accusa di Cicerone. -- L'orazione 176
L'oggetto dell'imputazione 180
Il danno e il risarcimento 182
L'esame delle prove e de' testimoni 183
Il contegno di Ortensio e di Verre 192
Gl'incidenti del giudizio ivi
Il primo stadio del giudizio 194
La difesa di Verre? ivi
La natura delle accuse 195
La questura e la proquestura ivi
La pretura 196
Il valore delle prove ivi
L'ordinamento della Sicilia e il ius edicendi 199
Il controllo de' giudizî 200
La giurisdizione 201
La creazione de' magistrati locali 205
Le statue ivi
Il conferimento de' sacerdozî 206
Le esportazioni 208
Verre e la lex Hieronica ivi
Gli elementi di fatto dell'accusa 214
Le decime di Leontini 215
Il frumentum imperatum e l'aestimatum 216
La ruina dell'agricoltura siciliana 219
Le opere d'arte 222
Verre e i suoi acoliti 224
Le prevaricazioni 225
Le benemerenze di Verre ivi
La sicurezza in Sicilia 227
I pirati ed i provvedimenti per la flotta 228
L'opera di Verre 231
La causa dal punto di vista politico 232
La fine 234
NOTE:

1. Herod. V, 49-50, ed. Stein.

2. Fragm. hist. graec., ed. Didot, II, 131, 88.

3. Rhein. Mus., 1886. E. Meyer. Die Ueberlieferung über die lykurgische


Verfassung, 585 seg.

4. Polyb. Hist., I, 1, 5, ed. Büttner-Wobst.

5. VI, 57.

6. Mommsen Röm. Gesch. Berlin, 1888, I8, 781.

7. Juv. Sat., II, 6, 295, ed. Weidner.

8. Ovid. A. A., III, 113-4, ed. Riese.

9. Bouché-Leclercq. Manuel des institutions romaines. Paris, 1886, pp. 60,


62, 82.

10. M. Terenti Varronis. Saturarum Menippearum reliquiae. Leipz., 1865, ed.


Riese, p. 215.

11. Mommsen-Blacas. Hist. de la monnaie romaine. Paris, 1870, II, 28.

12. Lenormant et De Witte. Élite des monuments ceramogr. Intr., pp. XLII,
XLIII, XLV.
Belot. De la révolution économique et monétaire qui eut lieu à Rome du
III siècle. Paris, 1886, pag. 113.

13. Belot. La révolut. économ., p. 115.

14. Belot E. Histoire des chévaliers Romains. Paris, 1873, II, p. 4 e seg.

15. Belot E. Loc. cit., p. 146.

16. Deloume A. Les manieurs d'argent à Rome. Paris, 1891, p. 29.


17. Rhein. Mus. 1886. E. Meyer, l. c., p. 586.

18. Satur. ed. Lachmann, p. 118, v. 1067.

19. Saalfeld u. Gunther. Der Hellenismus in Latium. Wolfenbüttel, 1888, pp.


2, 38 etc.

20. Horat. Carm. II, 16, ed. Keller-Holder.

21. Varron. Sat. Menipp., ed. Riese, Τάφη Μενίππου, p. 225.

22. Plin. N. H., XXXVI, 2, 4-6, ed. Ianus.

23. Varron. Sat. Menipp., p. 103, II, 2.

24. Marquardt J. Das Privatleben der Römer. Leipzig, 1886, pag. 221 e seg.

25. Jordan H. Topographie der Stadt Rom in Alterthum. Berlin, 1878, I Bd. I
Th. p. 297.

26. Friedländer. Darstellungen aus der Sittengeschichte Roms. Leipzig, 1881,


I, p. 3.

27. Sat. Menip., p. 141, VII, 6.

28. Ed. Lachmann, p. 90, v. 834.

29. Plin. N. H., XXXIII, 134.

30. Ihne W. Röm. Gesch. Leipzig, 1870, II, p. 395.

31. Comic. Roman. fragm., ed. O. Ribbeck. Lipsiae, 1878, p. 358, v. 644.

32. Maximum aes alienum amplissimorum virorum Cic. ad fam. 1, 6; 7, 3. --


Drumann. Gesch. Rom's. Königsberg, 1844, III, 186.

33. Dureau de la Malle. Économ. polit. des Romains. Paris, 1840, II, 219 e
seg.; 234 e seg.

34. Sat. Menip., p. 217, XVII, 16.

35. Loc. cit. p. 110, XXIV, 6, 17.

36. Loc. cit. p. 211, V, 3.

37. Loc. cit. p. 216, VI, 13.


38. Neumann. Geschichte Roms während des Verfalles der Republik. Breslau,
1881, I Bd. 26-7.

39. Beloch J. Die Bevölkerung der Griechisch-Römischen Welt. Leipzig, 1886,


I, p. 393.

40. Neumann. Op. cit. I, 87.

41. Fragm. Comic. Roman., ed. Ribbeck, pag. 27.

42. Satir. Menip., pp. 100 e 216.

43. Labatut Edm. La corruption électorale chez les Romains. Paris, 1876, p.
89 e seg.; Gentile I. Le elezioni e il broglio nella Repubblica romana.
Milano, 1879, p. 249 e seg.

44. Willems. Les élections municipales à Pompei. Paris, 1887, p. 26 e segg.

45. Das Kapital. Hamburg, 1890, I4, pp. 95-6.

46. Labatut. Op. cit. pp. 107, 111, 181 etc.

47. Sat., ed. Lachmann, p. 111, v. 1020 b.

48. Liv. XXI, 63, 4; Cic. A. S. in Verr., V, 18, 45; L. 3, D. 50, 5 de vacat. et
excusat. munerum. Mommsen. St. R. I3, 497; III, 898 e seg.

49. C. Suet. Tranq. Div. Iul. 54, ed. Roth.

50. Orat. Rom. fragm., ed. H. Meyer. Turici, 1842, p. 281; Aul. Gell. 15, 12,
ed. Hertz.

51. Valer. Max. IV, 3, 11, ed. Haase.

52. C. Crisp. Sallust. Bell. Iug. 35, 10 ed. Dietsch.

53. Nitzsch. Gesch. der Röm. Republik. Leipzig, 1884, I, p. 188; II, p. 20.

54. Cic. Pro Font. 19, ed. Klotz.


Arnold W. T. The roman system of provincial administration to the
accession of Costantin the Great. London, 1879, p. 8.

55. Aristot. Polit, I, 2, 20, ed. Susemihl.

56. Cic. in Verr. A. S., II, 3, 7.


57. Gal. II, 7.

58. Lex. agr. a. 643 C. I. L., I, 175, n. 200; Bruns5. Fontes iuris antiqui, p.
72.

59. Liv. XXXXV, 18, ed. Weissenborn.

60. Liv. XXXXV, 18.

61. Liv. XXX, 16.

62. Liv. XXXXV, 18.

63. Arnold. Op. cit. 180-7. -- Kuhn. Die stadtische und bürgerliche
Verfassung des Römisches Reichs. Leipzig, 1865, II, 1-80.

64. Liv. XXXI, 31, 8, ... captam iisdem armis et liberatam urbem reddidimus;
Plut. Marc. 23, ed. Sintenis.

65. Bergfeld. Die Organisation der röm. Provinzen. Neustrelitz, 1846, p. 16 e


seg.; Polyb. 22, 7.

66. Arnold. Op. cit. 201 e seg.; Marquardt. Staatsverwaltung, I2, 269 e seg.;
Person. Essai sur l'administration des provinces romaines sous la
République. Paris, 1878, pp. 89-113; Kuhn. Op. cit. 1-41; Marx. Essai sur
les pouvoirs du gouverneur de province. Paris, 1880, p. 20 e seg.;
D'Hughes. Une province romaine sous la République. Paris, 1876, p. 15-
50.

67. Cic. in Verr. A. S., II, 66, 160; De prov. cons. 3, 6; Strab. IV, 1, 5: C. I.
G., 2222, vv. 16-7.

68. Cic. in Verr. A. S., III, 73; 77, 180; IV, 9, 20, 21; 34, 76; C. I. L., I.
Plebisc. de Thermes, 52-6; Strab. VIII, 5, 5, ed. Müller-Dubner; Kuhn.
Op. cit. 30-1.

69. Marquardt. StVerw. I2, 92.

70. Arnold. Op. cit. p. 215.

71. Arnold. Op. cit. p. 188; Marquardt. StVerv. II2, 201-2.

72. Marquardt. StVerv., II2, 192-3; Plin. N. H., XXI, 77; XXXIII, 51.
73. Cic. in Verr. A. S., iii, 70, 163; iii, 6, 13; III, 73, 170; Pro Flacc. 12, 14;
Liv. XXI, 19; xxxii, 27; xxxvi, 4; xliii, 8; Person. Op. cit. 161-9.

74. Liv. XXIII, 21, 5; 32, 9; 41, 6; xxxvi, 2, 13; xlii, 31, 8.

75. Liv. XL, 51, 8; Vell. Pat., ii, 6, 3, ed. Haase.

76. Liv. epit. 20.

77. Liv. XXXII, 27; Mommsen. Staatsrecht, II3, 198.

78. Laboulaye Ed. Essai sur les lois criminelles des Romains. Paris, 1845,
XXII-XXIII.

79. Rudorff. De iurisdictione edictum. Edicti perpetui quae reliqua sunt.


Lipsiae, 1869, p. 6-7; Cic. in Verr. A. S., I. 46; ad Att. 6, 1, 15; ad fam.
III, 8, 4, 5; Ascon. in Cornel. p. 58, 15 Orelli, Dio. Cass. 36, 40, (23) ed.
Dindorf.

80. Hermes. IV, 120 e seg.

81. Neumann. Gesch. Rom's. I, 62.

82. Op. cit. pp. 62-70.

83. L. 1, § 1, D. 39, 4 de publicanis, ed. Mommsen.

84. Deloume. Les manieurs d'argent, pp. 253-61.

85. XXXV, 18.

86. Diod. Sic. V, 26, 3, 4, ed. Müller; Caes. Bel. Gal., III, 1, 2.

87. Ad. Quint. fratr., I, 1, ed. Wesenberg.

88. Deloume. Op. cit. p. 403 e seg.; Boissier. Cicéron et ses amis. Paris,
1865, pp. 65-6.

89. Ad. Quint. fr., I, 1, 13.

90. Cic. Pro Planc., 13, 33.

91. Le Correspondant 1874. A. Nisard. Un gouverneur de province au temps


de Cicéron, p. 752 e seg.

92. Ad. Quint. fr., I, 1, 11.


93. Deloume. Op. cit. pp. 95, 176.

94. Cic. Pro. C. Rab. Post., 2, 4.

95. Cic. in Verr. A. S., II, 29.

96. Cic. ad Att., VI, 1, 5, 6.

97. Cic. ad Att., VI, 1, 6.

98. Cic. pro Flac., 84, 86; de leg. agr., I, 3, 8; Arnold. Op. cit., p. 75.

99. Fest. s. v. Reciperatio, 274 Muller.

100.
Dionys. VI, 95, ed. Jacoby.

101.
Bethmann-Hollweg. Der röm. Civilprocess. Bonn, 1864, I, 53, 67-8.

102.
Voigt. Das jus naturale aequum et bonum und jus gentium der Römer.
Leipzig, 1858, II, 218.

103.
Op. cit. II, 219-20.

104.
Liv. XLIII, 2.

105.
Willems. Le sénat de la république romaine. Paris, 1888, II, 275-6.

106.
Voigt. Op. cit. II, 193.

107. Zumpt A. W. Das Criminalrecht der röm. Republik. Berlin, 1868, II, 1, p.
16.

108.
Belot. De la revolut. économ. p. 26; Bethmann-Hollweg. Op. cit., I, 69.

109.
Dionys. VI, 95.
110.
Voigt. Op. cit., II, 196.

111.
Liv. XLIII, 8; Zumpt C. T. De legibus iudiciisque repetundarum in
Republica Romana. Berlin, 1895, p. 9; Zumpt A. W. Op. cit., II, 1, p. 20.

112.
Cic. Brut. 27, 106; De off., II, 21, 75.

113.
Rein. Das Criminalrecht der Römer. Leipzig, 1844, p. 614.

114.
Mommsen. Röm. St R., II3, 583.

115.
Mommsen. St. R., II3, 223-4; Laboulaye. Essai sur les lois criminelles des
Romains. Paris, 1845, p. 198.

116.
Bruns5. Fontes iuris Romani antiqui, ed. Mommsen. Lex Acilia repet. vs.
23 e 74.

117. Annali dell'Istituto di corrispondenza archeologica (1849), vol. 21, p. 9.

118.
C. I. L., I, p. 54.

119.
Rein. Op. cit., 615-6.

120.
Zumpt C. T. De legibus iudiciisque etc. p. 15; Rein. Op. cit., 646 e seg.;
Zumpt Der Criminalprocess der röm. Republik. Leipzig, 1871, p. 468 e
seg.

121.
Val. Max. (V, 8, 3) narra del caso di D. Iunio Silano, ma questi non venne
sottoposto all'ordinario procedimento della quaestio, bensì, per volere
concorde anche degli accusatori, deferito al giudicio del padre, che di ciò
avea fatta domanda, e riconosciuto da lui colpevole, finì suicida (Zumpt
C. R., II, (1), 21). Lentulo è detto da Val. Max. (VI, 9, 10) condannato
secondo la lex Caecilia, ma deve intendersi Calpurnia. C. I. L., p. 54;
Zumpt Cr. Pr., 468; Cr. R., II, 1, 25; Rein. Op. cit. 646.
122.
App. B. Civ., I, 22, ed. Mendelsohn; Cic. in Verr. A. S., 1, 13; Velleius. II,
6, 3; 13, 2; 32, 3; Flor. III, 17, ed. Salmasii; Plin. N. H., XXXIII, 34;
Tacit. Ann., XII, 60, ed. Nipperdey; Belot. Hist. des chev., II, 233 e seg.

123.
C. I. L., I, p. 54.

124.
Cic. in Verr. A. I, 17, 51, 52.

125.
Karlowa. Röm. Rechtsgesch. Leipzig, 1885, I, 432 e seg.

126.
Cr. R., II, 1.

127. C. I. L., I, p. 64.

128.
Lex Ac. rep. v. 2.

129.
C. I. L., I, p. 64.

130.
Lex Acil. rep., v. 59.

131.
Lex Ac. rep., v. 58.

132.
Lex Ac. rep.., v. 57.

133.
Zumpt C. R., II, (1), 159.

134.
Zumpt C. R., II, (1), 160.

135.
Lex Ac. rep., v. 57.

136.
Lex Ac. rep., v. 62 e seg.
137. Orelli, 569.

138.
Lex Ac. rep., v. 12, 16.

139.
C. I. L., I, p. 65; Mommsen. St. R., II3, p. 191, A. I.

140.
Lex Ac. rep., v. 13, 16, 17.

141.
Loc. cit., v. 18.

142.
Lex Ac. rep., 1, 20.

143.
Lex Ac. rep., v. 22-23. Si trovano di nuovo qui eccepiti tutti quei
funzionari, che innanzi erano stati eccepiti come incapaci di entrare tra i
quattrocento cinquanta, il che ha dato luogo a dissensi d'interpretazioni
e di supplementi, in cui non entro, trattandosi di una discussione
speciale che non riguarda questo lavoro. Cfr. Zumpt C. R., II, (1), 127 e
seg.

144.
Lex Ac. rep., v. 25-6.

145.
Loc. cit. v. 30-1.

146.
Loc. cit. v. 30-3; Voigt. Op. cit. IV, 385.

147. Lex Ac. rep., v. 36-56.

148.
Loc. cit. v. 56.

149.
Loc. cit. v. 76-79.

150.
C. I. L., I, p. 56.
151.
Zumpt C. R., II, (1), 187-8.

152.
Iul. Obsequ. prodig. lib. c. 101 (41) ed. Jahn; Cassiod. Chron. s. a. 648,
ed. Mommsen.

153.
Tacit. Ann., XII, 60; Cic. de inv., I, 49; Brut., 44, 164.

154.
Laboulaye. Op. cit. 231 e seg.; Zumpt C. R., II, (1), 192 e seg.; Geib.
Gesch. des röm. Criminalprocess. Leipzig, 1842, p. 198.

155.
Cic. Brut., 62, 224.

156.
Zumpt C. R., II, (1), 192.

157. Cic. Pro Rab. Post., 4, 8.

158.
Cic. in Verr. A. S., I, 9, 26.

159.
Cic. Pro Balb., 24, 54.

160.
Cic. Brut, 22, 86; Val. Max. VIII, 1, 11.

161.
S. v. res comperendinata, p. 282, Müller.

162.
Cic. in Verr., I, 9.

163.
Geib. Op. cit. p. 378.

164.
C. R., II, (1), 359, 371.

165.
Cic. Pro C. Rab. Post., 4, 8.
Welcome to our website – the ideal destination for book lovers and
knowledge seekers. With a mission to inspire endlessly, we offer a
vast collection of books, ranging from classic literary works to
specialized publications, self-development books, and children's
literature. Each book is a new journey of discovery, expanding
knowledge and enriching the soul of the reade

Our website is not just a platform for buying books, but a bridge
connecting readers to the timeless values of culture and wisdom. With
an elegant, user-friendly interface and an intelligent search system,
we are committed to providing a quick and convenient shopping
experience. Additionally, our special promotions and home delivery
services ensure that you save time and fully enjoy the joy of reading.

Let us accompany you on the journey of exploring knowledge and


personal growth!

textbookfull.com

You might also like