(Ebook) Data Mining Patterns: New Methods and Applications (Premier Reference Source) by pascal Poncelet, pascal Poncelet, Florent Masseglia, Maguelonne Teisseire ISBN 9781599041629, 9781599041643, 9782007022230, 2007022230, 1599041626, 1599041642 - Own the ebook now with all fully detailed chapters
(Ebook) Data Mining Patterns: New Methods and Applications (Premier Reference Source) by pascal Poncelet, pascal Poncelet, Florent Masseglia, Maguelonne Teisseire ISBN 9781599041629, 9781599041643, 9782007022230, 2007022230, 1599041626, 1599041642 - Own the ebook now with all fully detailed chapters
https://ebooknice.com/product/biota-grow-2c-gather-2c-cook-6661374
https://ebooknice.com/product/successes-and-new-directions-in-data-
mining-premier-reference-source-2004210
https://ebooknice.com/product/matematik-5000-kurs-2c-larobok-23848312
https://ebooknice.com/product/sat-ii-success-
math-1c-and-2c-2002-peterson-s-sat-ii-success-1722018
(Ebook) Master SAT II Math 1c and 2c 4th ed (Arco Master the SAT
Subject Test: Math Levels 1 & 2) by Arco ISBN 9780768923049,
0768923042
https://ebooknice.com/product/master-sat-ii-math-1c-and-2c-4th-ed-
arco-master-the-sat-subject-test-math-levels-1-2-2326094
https://ebooknice.com/product/cambridge-igcse-and-o-level-history-
workbook-2c-depth-study-the-united-states-1919-41-2nd-edition-53538044
https://ebooknice.com/product/visual-analytics-and-interactive-
technologies-data-text-and-web-mining-applications-premier-reference-
source-2367810
https://ebooknice.com/product/free-pascal-reference-guide-
version-3-0-2-5849370
https://ebooknice.com/product/intelligent-techniques-for-warehousing-
and-mining-sensor-network-data-premier-reference-source-1989060
Data Mining Patterns:
New Methods and
Applications
Pascal Poncelet
Maguelonne Teisseire
Florent Masseglia
Pascal Poncelet
Ecole des Mines d’Ales, France
Maguelonne Teisseire
Université Montpellier, France
Florent Masseglia
Inria, France
Copyright © 2008 by IGI Global. All rights reserved. No part of this publication may be reproduced, stored or distributed in any form or by
any means, electronic or mechanical, including photocopying, without written permission from the publisher.
Product or company names used in this set are for identification purposes only. Inclusion of the names of the products or companies does
not indicate a claim of ownership by IGI Global of the trademark or registered trademark.
Data mining patterns : new methods and applications / Pascal Poncelet, Florent Masseglia & Maguelonne Teisseire, editors.
p. cm.
Summary: "This book provides an overall view of recent solutions for mining, and explores new patterns,offering theoretical frameworks
and presenting challenges and possible solutions concerning pattern extractions, emphasizing research techniques and real-world
applications. It portrays research applications in data models, methodologies for mining patterns, multi-relational and multidimensional
pattern mining, fuzzy data mining, data streaming and incremental mining"--Provided by publisher.
1. Data mining. I. Poncelet, Pascal. II. Masseglia, Florent. III. Teisseire, Maguelonne.
QA76.9.D343D3836 2007
005.74--dc22
2007022230
British Cataloguing in Publication Data
A Cataloguing in Publication record for this book is available from the British Library.
All work contributed to this book set is new, previously-unpublished material. The views expressed in this book are those of the authors, but
not necessarily of the publisher.
Table of Contents
Preface . .................................................................................................................................................. x
Chapter I
Metric Methods in Data Mining / Dan A. Simovici................................................................................. 1
Chapter II
Bi-Directional Constraint Pushing in Frequent Pattern Mining / Osmar R. Zaïane
and Mohammed El-Hajj......................................................................................................................... 32
Chapter III
Mining Hyperclique Patterns: A Summary of Results / Hui Xiong, Pang-Ning Tan,
Vipin Kumar, and Wenjun Zhou............................................................................................................. 57
Chapter IV
Pattern Discovery in Biosequences: From Simple to Complex Patterns /
Simona Ester Rombo and Luigi Palopoli.............................................................................................. 85
Chapter V
Finding Patterns in Class-Labeled Data Using Data Visualization / Gregor Leban,
Minca Mramor, Blaž Zupan, Janez Demšar, and Ivan Bratko............................................................. 106
Chapter VI
Summarizing Data Cubes Using Blocks / Yeow Choong, Anne Laurent, and
Dominique Laurent.............................................................................................................................. 124
Chapter VII
Social Network Mining from the Web / Yutaka Matsuo, Junichiro Mori, and
Mitsuru Ishizuka.................................................................................................................................. 149
Chapter VIII
Discovering Spatio-Textual Association Rules in Document Images /
Donato Malerba, Margherita Berardi, and Michelangelo Ceci ......................................................... 176
Chapter IX
Mining XML Documents / Laurent Candillier, Ludovic Denoyer, Patrick Gallinari
Marie Christine Rousset, Alexandre Termier, and Anne-Marie Vercoustre ........................................ 198
Chapter X
Topic and Cluster Evolution Over Noisy Document Streams / Sascha Schulz,
Myra Spiliopoulou, and Rene Schult .................................................................................................. 220
Chapter XI
Discovery of Latent Patterns with Hierarchical Bayesian Mixed-Membership
Models and the Issue of Model Choice / Cyrille J. Joutard, Edoardo M. Airoldi,
Stephen E. Fienberg, and Tanzy M. Love............................................................................................ 240
Preface . .................................................................................................................................................. x
Acknowledgment................................................................................................................................. xiv
Chapter I
Metric Methods in Data Mining / Dan A. Simovici................................................................................. 1
This chapter presents data mining techniques that make use of metrics defined on the set of partitions of
finite sets. Partitions are naturally associated with object attributes and major data mining problem such
as classification, clustering and data preparation which benefit from an algebraic and geometric study
of the metric space of partitions. The metrics we find most useful are derived from a generalization of
the entropic metric. We discuss techniques that produce smaller classifiers, allow incremental clustering
of categorical data and help users to better prepare training data for constructing classifiers. Finally, we
discuss open problems and future research directions.
Chapter II
Bi-Directional Constraint Pushing in Frequent Pattern Mining / Osmar R. Zaïane
and Mohammed El-Hajj......................................................................................................................... 32
Frequent itemset mining (FIM) is a key component of many algorithms that extract patterns from
transactional databases. For example, FIM can be leveraged to produce association rules, clusters,
classifiers or contrast sets. This capability provides a strategic resource for decision support, and is
most commonly used for market basket analysis. One challenge for frequent itemset mining is the
potentially huge number of extracted patterns, which can eclipse the original database in size. In addition
to increasing the cost of mining, this makes it more difficult for users to find the valuable patterns.
Introducing constraints to the mining process helps mitigate both issues. Decision makers can restrict
discovered patterns according to specified rules. By applying these restrictions as early as possible, the
cost of mining can be constrained. For example, users may be interested in purchases whose total price-
exceeds $100, or whose items cost between $50 and $100. In cases of extremely large data sets, pushing
constraints sequentially is not enough and parallelization becomes a must. However, specific design is
needed to achieve sizes never reported before in the literature.
Chapter III
Mining Hyperclique Patterns: A Summary of Results / Hui Xiong, Pang-Ning Tan,
Vipin Kumar, and Wenjun Zhou............................................................................................................. 57
This chapter presents a framework for mining highly correlated association patterns named hyperclique
patterns. In this framework, an objective measure called h-confidence is applied to discover hyperclique
patterns. We prove that the items in a hyperclique pattern have a guaranteed level of global pairwise
similarity to one another. Also, we show that the h-confidence measure satisfies a cross-support property,
which can help efficiently eliminate spurious patterns involving items with substantially different support
levels. In addition, an algorithm called hyperclique miner is proposed to exploit both cross-support and
anti-monotone properties of the h-confidence measure for the efficient discovery of hyperclique patterns.
Finally, we demonstrate that hyperclique patterns can be useful for a variety of applications such as item
clustering and finding protein functional modules from protein complexes.
Chapter IV
Pattern Discovery in Biosequences: From Simple to Complex Patterns /
Simona Ester Rombo and Luigi Palopoli.............................................................................................. 85
In the last years, the information stored in biological datasets grew up exponentially, and new methods
and tools have been proposed to interpret and retrieve useful information from such data. Most biologi-
cal datasets contain biological sequences (e.g., DNA and protein sequences). Thus, it is more significant
to have techniques available capable of mining patterns from such sequences to discover interesting
information from them. For instance, singling out for common or similar subsequences in sets of bi-
osequences is sensible as these are usually associated to similar biological functions expressed by the
corresponding macromolecules. The aim of this chapter is to explain how pattern discovery can be ap-
plied to deal with such important biological problems, describing also a number of relevant techniques
proposed in the literature. A simple formalization of the problem is given and specialized for each of the
presented approaches. Such formalization should ease reading and understanding the illustrated material
by providing a simple-to-follow roadmap scheme through the diverse methods for pattern extraction
we are going to illustrate.
Chapter V
Finding Patterns in Class-Labeled Data Using Data Visualization / Gregor Leban,
Minca Mramor, Blaž Zupan, Janez Demšar, and Ivan Bratko............................................................. 106
Data visualization plays a crucial role in data mining and knowledge discovery. Its use is however of-
ten difficult due to the large number of possible data projections. Manual search through such sets of
projections can be prohibitively timely or even impossible, especially in the data analysis problems that
comprise many data features. The chapter describes a method called VizRank, which can be used to
automatically identify interesting data projections for multivariate visualizations of class-labeled data.
VizRank assigns a score of interestingness to each considered projection based on the degree of separa-
tion of data instances with different class label. We demonstrate the usefulness of this approach on six
cancer gene expression datasets, showing that the method can reveal interesting data patterns and can
further be used for data classification and outlier detection.
Chapter VI
Summarizing Data Cubes Using Blocks / Yeow Choong, Anne Laurent, and
Dominique Laurent.............................................................................................................................. 124
In the context of multidimensional data, OLAP tools are appropriate for the navigation in the data, aiming
at discovering pertinent and abstract knowledge. However, due to the size of the dataset, a systematic
and exhaustive exploration is not feasible. Therefore, the problem is to design automatic tools to ease
the navigation in the data and their visualization. In this chapter, we present a novel approach allowing
to build automatically blocks of similar values in a given data cube that are meant to summarize the
content of the cube. Our method is based on a levelwise algorithm (a la Apriori) whose complexity is
shown to be polynomial in the number of scans of the data cube. The experiments reported in the chapter
show that our approach is scalable, in particular in the case where the measure values present in the data
cube are discretized using crisp or fuzzy partitions.
Chapter VII
Social Network Mining from the Web / Yutaka Matsuo, Junichiro Mori, and
Mitsuru Ishizuka.................................................................................................................................. 149
This chapter describes social network mining from the Web. Since the end of the 1990’s, several attempts
have been made to mine social network information from e-mail messages, message boards, Web linkage
structure, and Web content. In this chapter, we specifically examine the social network extraction from
the Web using a search engine. The Web is a huge source of information about relations among persons.
Therefore, we can build a social network by merging the information distributed on the Web. The growth
of information on the Web, in addition to the development of a search engine, opens new possibilities to
process the vast amounts of relevant information and mine important structures and knowledge.
Chapter VIII
Discovering Spatio-Textual Association Rules in Document Images /
Donato Malerba, Margherita Berardi, and Michelangelo Ceci.......................................................... 176
This chapter introduces a data mining method for the discovery of association rules from images of
scanned paper documents. It argues that a document image is a multi-modal unit of analysis whose
semantics is deduced from a combination of both the textual content and the layout structure and the
logical structure. Therefore, it proposes a method where both the spatial information derived from a
complex document image analysis process (layout analysis), and the information extracted from the
logical structure of the document (document image classification and understanding) and the textual
information extracted by means of an OCR, are simultaneously considered to generate interesting pat-
terns. The proposed method is based on an inductive logic programming approach, which is argued to
be the most appropriate to analyze data available in more than one modality. It contributes to show a
possible evolution of the unimodal knowledge discovery scheme, according to which different types
of data describing the unitsof analysis are dealt with through the application of some preprocessing
technique that transform them into a single double entry tabular data.
Chapter IX
Mining XML Documents / Laurent Candillier, Ludovic Denoyer, Patrick Gallinari
Marie Christine Rousset, Alexandre Termier, and Anne-Marie Vercoustre......................................... 198
XML documents are becoming ubiquitous because of their rich and flexible format that can be used for
a variety of applications. Giving the increasing size of XML collections as information sources, mining
techniques that traditionally exist for text collections or databases need to be adapted and new methods
to be invented to exploit the particular structure of XML documents. Basically XML documents can be
seen as trees, which are well known to be complex structures. This chapter describes various ways of
using and simplifying this tree structure to model documents and support efficient mining algorithms.
We focus on three mining tasks: classification and clustering which are standard for text collections;
discovering of frequent tree structure, which is especially important for heterogeneous collection. This
chapter presents some recent approaches and algorithms to support these tasks together with experimental
evaluation on a variety of large XML collections.
Chapter X
Topic and Cluster Evolution Over Noisy Document Streams / Sascha Schulz,
Myra Spiliopoulou, and Rene Schult................................................................................................... 220
We study the issue of discovering and tracing thematic topics in a stream of documents. This issue, often
studied under the label “topic evolution” is of interest in many applications where thematic trends should
be identified and monitored, including environmental modeling for marketing and strategic manage-
ment applications, information filtering over streams of news and enrichment of classification schemes
with emerging new classes. We concentrate on the latter area and depict an example application from
the automotive industry—the discovery of emerging topics in repair & maintenance reports. We first
discuss relevant literature on (a) the discovery and monitoring of topics over document streams and (b)
the monitoring of evolving clusters over arbitrary data streams. Then, we propose our own method for
topic evolution over a stream of small noisy documents: We combine hierarchical clustering, performed
at different time periods, with cluster comparison over adjacent time periods, taking into account that
the feature space itself may change from one period to the next. We elaborate on the behaviour of this
method and show how human experts can be assisted in identifying class candidates among the topics
thus identified.
Chapter IX
Discovery of Latent Patterns with Hierarchical Bayesian Mixed-Membership
Models and the Issue of Model Choice / Cyrille J. Joutard, Edoardo M. Airoldi,
Stephen E. Fienberg, and Tanzy M. Love............................................................................................. 240
Statistical models involving a latent structure often support clustering, classification, and other datamin-
ing tasks. Parameterizations, specifications, and constraints of alternative models can be very different,
however, and may lead to contrasting conclusions. Thus model choice becomes a fundamental issue
in applications, both methodological and substantive. Here, we work from a general formulation of
hierarchical Bayesian models of mixed-membership that subsumes many popular models successfully
applied to problems in the computing, social and biological sciences. We present both parametric and
nonparametric specifications for discovering latent patterns. Context for the discussion is provided by
novel analyses of the following two data sets: (1) 5 years of scientific publications from the Proceedings
of the National Academy of Sciences; (2) an extract on the functional disability of Americans age 65+
from the National Long Term Care Survey. For both, we elucidate strategies for model choice and our
analyses bring new insights compared with earlier published analyses.
Index.................................................................................................................................................... 305
Preface
Since its definition a decade ago, the problem of mining patterns is becoming a very active research
area, and efficient techniques have been widely applied to problems either in industry, government or
science. From the initial definition and motivated by real applications, the problem of mining patterns
not only addresses the finding of itemsets but also more and more complex patterns. For instance, new
approaches need to be defined for mining graphs or trees in applications dealing with complex data such
as XML documents, correlated alarms or biological networks. As the number of digital data are always
growing, the problem of the efficiency of mining such patterns becomes more and more attractive.
One of the first areas dealing with a large collection of digital data is probably text mining. It aims at
analyzing large collections of unstructured documents with the purpose of extracting interesting, relevant
and nontrivial knowledge. However, patterns became more and more complex, and led to open problems.
For instance, in the biological networks context, we have to deal with common patterns of cellular interac-
tions, organization of functional modules, relationships and interaction between sequences, and patterns
of genes regulation. In the same way, multidimensional pattern mining has also been defined, and a lot
of open questions remain regarding the size of the search space or to effectiveness consideration. If we
consider social network in the Internet, we would like to better understand and measure relationships
and flows between people, groups and organizations. Many real-world applications data are no longer
appropriately handled by traditional static databases since data arrive sequentially in rapid, continuous
streams. Since data-streams are contiguous, high speed and unbounded, it is impossible to mine patterns
by using traditional algorithms requiring multiple scans and new approaches have to be proposed.
In order to efficiently aid decision making, and for effectiveness consideration, constraints become
more and more essential in many applications. Indeed, an unconstrained mining can produce such a large
number of patterns that it may be intractable in some domains. Furthermore, the growing consensus that
the end user is no more interested by a set patterns verifying selection criteria led to demand for novel
strategies for extracting useful, even approximate knowledge.
The goal of this book is to provide an overall view of the existing solutions for mining new kinds of
patterns. It aims at providing theoretical frameworks and presenting challenges and possible solutions
concerning pattern extraction with an emphasis on both research techniques and real-world applications.
It is composed of 11 chapters.
Often data mining problems require metric techniques defined on the set of partitions of finite sets
(e.g., classification, clustering, data preparation). The chapter “Metric Methods in Data Mining” proposed
by D. A. Simovici addresses this topic. Initially proposed by R. López de Màntaras, these techniques
formulate a novel splitting criterion that yields better results than the classical entropy gain splitting
techniques. In this chapter, Simovici investigates a family of metrics on the set of partitions of finite
sets that is linked to the notion of generalized entropy. The efficiency of this approach is proved through
experiments conducted for different data mining tasks: classification, clustering, feature extraction and
discretization. For each approach the most suitable metrics are proposed.
xi
Mining patterns from a dataset always rely on a crucial point: the interest criterion of the patterns.
Literature mostly proposes the minimum support as a criterion; however, interestingness may occur in
constraints applied to the patterns or the strength of the correlation between the items of a pattern, for
instance. The next two chapters deal with these criteria.
In “Bidirectional Constraint Pushing in Frequent Pattern Mining” by O.R. Zaïane and M. El-Hajj,
proposes consideration of the problem of mining constrained patterns. Their challenge is to obtain a
sheer number of rules, rather than the very large set of rules usually resulting from a mining process.
First, in a survey of constraints in data mining (which covers both definitions and methods) they show
how the previous methods can generally be divided into two sets. Methods from the first set consider the
monotone constraint during the mining, whereas methods from the second one consider the antimonotone
constraint. The main idea, in this chapter, is to consider both constraints (monotone and antimonotone)
early in the mining process. The proposed algorithm (BifoldLeap) is based on this principle and allows
an efficient and effective extraction of constrained patterns. Finally, parallelization of BifolLeap is also
proposed in this chapter. The authors thus provide the reader with a very instructive chapter on constraints
in data mining, from the definitions of the problem to the proposal, implementation and evaluation of
an efficient solution.
Another criterion for measuring the interestingness of a pattern may be the correlation between the
items it contains. Highly correlated patterns are named “Hyperclique Patterns” in the chapter of H. Xiong,
P. N. Tan, V. Kumar and W. Zhou entitled “Mining Hyperclique Patterns: A Summary of Results”. The
chapter provides the following observation: when the minimum support in a pattern mining process is
too low, then the number of extracted itemsets is very high. A thorough analysis of the patterns will often
show patterns that are poorly correlated (i.e., involving items having very different supports). Those
patterns may then be considered as spurious patterns. In this chapter, the authors propose the definition
of hyperclique patterns. Those patterns contain items that have similar threshold. They also give the
definition of the h-confidence. Then, h-confidence is analyzed for properties that will be interesting in a
data mining process: antimonotone, cross-support and a measure of association. All those properties will
help in defining their algorithm: hyperclique miner. After having evaluated their proposal, the authors
finally give an application of hyperclique patterns for identifying protein functional modules.
This book is devoted to provide new and useful material for pattern mining. Both methods afore-
mentioned are presented in the first chapters in which they focus on their efficiency. In that way, this
book reaches part of the goal. However, we also wanted to show strong links between the methods and
their applications. Biology is one of the most promising domains. In fact, it has been widely addressed
by researchers in data mining those past few years and still has many open problems to offer (and to be
defined). The next two chapters deal with bioinformatics and pattern mining.
Biological data (and associated data mining methods) are at the core of the chapter entitled “Pattern
Discovery in Biosequences: From Simple to Complex Patterns” by S. Rombo and L. Palopoli. More
precisely, the authors focus on biological sequences (e.g., DNA or protein sequences) and pattern ex-
traction from those sequences. They propose a survey on existing techniques for this purpose through
a synthetic formalization of the problem. This effort will ease reading and understanding the presented
material. Their chapter first gives an overview on biological datasets involving sequences such as DNA
or protein sequences. The basic notions on biological data are actually given in the introduction of this
chapter. Then, an emphasis on the importance of patterns in such data is provided. Most necessary no-
tions for tackling the problem of mining patterns from biological sequential data are given: definitions
of the problems, existing solutions (based on tries, suffix trees), successful applications as well as future
trends in that domain.
An interesting usage of patterns relies in their visualization. In this chapter, G. Leban, M. Mramor,
B. Zupan, J. Demsar and I. Bratko propose to focus on “Finding Patterns in Class-labeled Data Using
xii
Data Visualization.” The first contribution of their chapter is to provide a new visualization method for
extracting knowledge from data. WizRank, the proposed method, can search for interesting multidi-
mensional visualizations of class-labeled data. In this work, the interestingness is based on how well
instances of different classes are separated. A large part of this chapter will be devoted to experiments
conducted on gene expression datasets, obtained by the use of DNA microarray technology. Their ex-
periments show simple visualizations that clearly visually differentiate among cancer types for cancer
gene expression data sets.
Multidimensional databases are data repositories that are becoming more and more im-
portant and strategic in most of the main companies. However, mining these particular data-
bases is a challenging issue that has not yet received relevant answers. This is due to the fact
that multidimensional databases generally contain huge volumes of data stored according
to particular structures called star schemas that are not taken into account in most popular
data mining techniques. Thus, when facing these databases, users are not provided with useful
tools to help them discovering relevant parts. Consequently, users still have to navigate manu-
ally in the data, that is—using the OLAP operators—users have to write sophisticated queries.
One important task for discovering relevant parts of a multidimensional database is to identify homo-
geneous parts that can summarize the whole database. In the chapter “Summarizing Data Cubes Using
Blocks,” Y. W. Choong, A. Laurent and D. Laurent propose original and scalable methods to mine the
main homogeneous patterns of a multidimensional database. These patterns, called blocks, are defined
according to the corresponding star schema and thus, provide relevant summaries of a given multidi-
mensional database. Moreover, fuzziness is introduced in order to mine for more accurate knowledge
that fits users’ expectations.
The first social networking website began in 1995 (i.e., classmates). Due to the development of the
Internet, the number of social networks grew exponentially. In order to better understand and measuring
relationships and flows between people, groups and organizations, new data mining techniques, called
social network mining, appear. Usually social network considers that nodes are the individual actors
within the networks, and ties are the relationships between the actors. Of course, there can be many kinds
of ties between the nodes and mining techniques try to extract knowledge from these ties and nodes. In
the chapter “Social Network Mining from the Web,” Y. Matsuo, J. Mori and M. Ishizuka address this
problem and show that Web search engine are very useful in order to extract social network. They first
address basic algorithms initially defined to extract social network. Even if the social network can be
extracted, one of the challenging problems is how to analyze this network. This presentation illustrates
that even if the search engine is very helpful, a lot of problems remain, and they also discuss the literature
advances. They focus on the centrality of each actor of the network and illustrate various applications
using a social network.
Text-mining approaches first surfaced in the mid-1980s, but thanks to technological advances it has
been received a great deal of attention during the past decade. It consists in analyzing large collections
of unstructured documents for the purpose of extracting interesting, relevant and nontrivial knowledge.
Typical text mining tasks include text categorization (i.e., in order to classify document collection into
a given set of classes), text clustering, concept links extraction, document summarization and trends
detection.
The following three chapters address the problem of extracting knowledge from large collections of
documents. In the chapter “Discovering Spatio-Textual Association Rules in Document Images”, M.
Berardi, M. Ceci and D. Malerba consider that, very often, electronic documents are not always avail-
able and then extraction of useful knowledge should be performed on document images acquired by
scanning the original paper documents (document image mining). While text mining focuses on patterns
xiii
involving words, sentences and concepts, the purpose of document image mining is to extract high-level
spatial objects and relationships. In this chapter they introduce a new approach, called WISDOM++, for
processing documents and transform documents into XML format. Then they investigate the discovery
of spatio-textual association rules that takes into account both the layout and the textual dimension on
XML documents. In order to deal with the inherent spatial nature of the layout structure, they formulate
the problem as multi-level relational association rule mining and extend a spatial rule miner SPADA
(spatial pattern discovery algorithm) in order to cope with spatio-textual association rules. They show
that discovered patterns could also be used both for classification tasks and to support layout correction
tasks.
L. Candillier, L. Dunoyer, P. Gallinari, M.-C. Rousset, A. Termier and A. M. Vercoustre, in “Mining
XML Documents,” also consider an XML representation, but they mainly focus on the structure of the
documents rather than the content. They consider that XML documents are usually modeled as ordered
trees, which are regarded as complex structures. They address three mining tasks: frequent pattern ex-
traction, classification and clustering. In order to efficiently perform these tasks they propose various
tree-based representations. Extracting patterns in a large database is very challenging since we have to
consider the two following problems: a fast execution and we would like to avoid a memory-consum-
ing algorithm. When considering tree patterns the problem is much more challenging due to the size of
the research space. In this chapter they propose an overview of the best algorithms. Various approaches
to XML document classification and clustering are also proposed. As the efficiency of the algorithms
depends on the representation, they propose different XML representations based on structure, or both
structure and content. They show how decision-trees, probabilistic models, k-means and Bayesian net-
works can be used to extract knowledge from XML documents.
In the chapter “Topic and Cluster Evolution Over Noisy Document Streams,” S. Schulz, M. Spiliopoulou
and R. Schult also consider text mining but in a different context: a stream of documents. They mainly
focus on the evolution of different topics when documents are available over streams. As previously stated,
one of the important purpose in text mining is the identification of trends in texts. Discover emerging
topics is one of the problems of trend detection. In this chapter, they discuss the literature advances on
evolving topics and on evolving clusters and propose a generic framework for cluster change evolu-
tion. However discussed approaches do not consider non-noisy documents. The authors propose a new
approach that puts emphasis on small and noisy documents and extend their generic framework. While
cluster evolutions assume a static trajectory, they use a set-theoretic notion of overlap between old and
new clusters. Furthermore the framework extension consider both a document model describing a text
with a vector of words and a vector of n-gram, and a visualization tool used to show emerging topics.
In a certain way, C. J. Joutard, E. M. Airoldi, S. E. Fienberg and T. M. Love also address the analysis
of documents in the chapter “Discovery of Latent Patterns with Hierarchical Bayesian Mixed-Member-
ship Models and the Issue of Model Choice.” But in this chapter, the collection of papers published in
the Proceedings of the National Academy of Sciences is used in order to illustrate the issue of model
choice (e.g., the choice of the number of groups or clusters). They show that even if statistical models
involving a latent structure support data mining tasks, alternative models may lead to contrasting conclu-
sions. In this chapter they deal with hierarchical Bayesian mixed-membership models (HBMMM), that
is, a general formulation of mixed-membership models, which are a class of models very well adapted
for unsupervised data mining methods and investigate the issue of model choice in that context. They
discuss various existing strategies and propose new model specifications as well as different strategies
of model choice in order to extract good models. In order to illustrate, they consider both analysis of
documents and disability survey data.
xiv
Acknowledgment
The editors would like to acknowledge the help of all involved in the collation and review process of
the book, without whose support the project could not have been satisfactorily completed.
Special thanks go to all the staff at IGI Global, whose contributions throughout the whole process
from inception of the initial idea to final publication have been invaluable.
We received a considerable amount of chapter submissions for this book, and the first idea for re-
viewing the proposals was to have the authors review their papers with each other. However, in order to
improve the scientific quality of this book, we finally decided to gather a high level reviewing committee.
Our referees have done an invaluable work in providing constructive and comprehensive reviews. The
reviewing committee of this book is the following: Larisa Archer, Gabriel Fung, Mohamed Gaber, Fosca
Giannotti, S.K. Gupta, Ruoming Jin, Eamonn Keogh, Marzena Kryszkiewicz, Mark Last, Paul Leng,
Georges Loizou, Shinichi Morishita, Mirco Nanni, David Pearson, Raffaele Perego, Liva Ralaivola,
Christophe Rigotti, Claudio Sartori, Gerik Scheuermann, Aik-Choon Tan, Franco Turini, Ada Wai-Chee
Fu, Haixun Wang, Jeffrey Xu Yu, Jun Zhang, Benyu Zhang, Wei Zhao, Ying Zhao, Xingquan Zhu.
Warm thanks go to all those referees for their work. We know that reviewing chapters for our book
was a considerable undertaking and we have appreciated their commitment.
In closing, we wish to thank all of the authors for their insights and excellent contributions to this
book.
Pascal Poncelet ([email protected]) is a professor and the head of the data mining research group
in the computer science department at the Ecole des Mines d’Alès in France. He is also co-head of the
department. Professor Poncelet has previously worked as lecturer (1993-1994), as associate professor,
respectively, in the Méditerranée University (1994-1999) and Montpellier University (1999-2001). His
research interest can be summarized as advanced data analysis techniques for emerging applications.
He is currently interested in various techniques of data mining with application in Web mining and
text mining. He has published a large number of research papers in refereed journals, conference, and
workshops, and been reviewer for some leading academic journals. He is also co-head of the French
CNRS Group “I3” on data mining.
Maguelonne Teisseire ([email protected]) received a PhD in computing science from the Méditer-
ranée University, France (1994). Her research interests focused on behavioral modeling and design.
She is currently an assistant professor of computer science and engineering in Montpellier II University
and Polytech’Montpellier, France. She is head of the Data Mining Group at the LIRMM Laboratory,
Montpellier. Her interests focus on advanced data mining approaches when considering that data are
time ordered. Particularly, she is interested in text mining and sequential patterns. Her research takes
part on different projects supported by either National Government (RNTL) or regional projects. She
has published numerous papers in refereed journals and conferences either on behavioral modeling or
data mining.
Florent Masseglia is currently a researcher for INRIA (Sophia Antipolis, France). He did research
work in the Data Mining Group at the LIRMM (Montpellier, France) (1998-2002) and received a PhD
in computer science from Versailles University, France (2002). His research interests include data min-
ing (particularly sequential patterns and applications such as Web usage mining) and databases. He is a
member of the steering committees of the French working group on mining complex data and the Inter-
national Workshop on Multimedia Data. He has co-edited several special issues about mining complex
or multimedia data. He also has co-chaired workshops on mining complex data and co-chaired the 6th
and 7th editions of the International Workshop on Multimedia Data Mining in conjunction with the KDD
conference. He is the author of numerous publications about data mining in journals and conferences
and he is a reviewer for international journals.
Chapter I
Metric Methods in Data Mining *
Dan A. Simovici
University of Massachusetts – Boston, USA
AbstrAct
This chapter presents data mining techniques that make use of metrics defined on the set of partitions
of finite sets. Partitions are naturally associated with object attributes and major data mining problem
such as classification, clustering and data preparation which benefit from an algebraic and geometric
study of the metric space of partitions. The metrics we find most useful are derived from a generaliza-
tion of the entropic metric. We discuss techniques that produce smaller classifiers, allow incremental
clustering of categorical data and help users to better prepare training data for constructing classifiers.
Finally, we discuss open problems and future research directions.
Copyright © 2008, IGI Global, distributing in print or electronic forms without written permission of IGI Global is prohibited.
Metric Methods in Data Mining
Important contributions in this domain have introduce an algorithm for feature selection that
been made by J. P. Barthélemy (1978), Barthélemy clusters attributes using a special metric and,
and Leclerc (1995) and B. Monjardet (1981) where then uses a hierarchical clustering for feature
a metric on the set of partitions of a finite set is selection.
introduced starting from the equivalences defined Clustering is an unsupervised learning pro-
by partitions. cess that partitions data such that similar data
Our starting point is a generalization of Shan- items are grouped together in sets referred to as
non’s entropy that was introduced by Z. Daróczy clusters. This activity is important for condens-
(1970) and by J. H. Havrda and F. Charvat (1967). ing and identifying patterns in data. Despite the
We developed a new system of axioms for this type substantial effort invested in researching cluster-
of entropies in Simovici and Jaroszewicz (2002) ing algorithms by the data mining community,
that has an algebraic character (being formulated there are still many difficulties to overcome in
for partitions rather than for random distributions). building clustering algorithms. Indeed, as pointed
Starting with a notion of generalized conditional in Jain, Murthy and Flynn (1999) “there is no
entropy we introduced a family of metrics that clustering technique that is universally applicable
depends on a single parameter. Depending on the in uncovering the variety of structures present
specific data set that is analyzed some of these in multidimensional data sets.” This situation
metrics can be used for identifying the “best” has generated a variety of clustering techniques
splitting attribute in the process of constructing broadly divided into hierarchical and partitional;
decision trees (see Simovici & Jaroszewicz, 2003, also, special clustering algorithms based on a va-
in press). The general idea is to use as splitting riety of principles, ranging from neural networks
attribute the attribute that best approximates the and genetic algorithms, to tabu searches.
class attribute on the set of objects to be split. We present an incremental clustering algo-
This is made possible by the metric defined on rithm that can be applied to nominal data, that
partitions. is, to data whose attributes have no particular
The performance, robustness and useful- natural ordering. In general, objects processed
ness of classification algorithms are improved by clustering algorithms are represented as points
when relatively few features are involved in the in an n-dimensional space Rn and standard dis-
classification. Thus, selecting relevant features tances, such as the Euclidean distance, are used
for the construction of classifiers has received to evaluate similarity between objects. For objects
a great deal of attention. A lucid taxonomy of whose attributes are nominal (e.g., color, shape,
algorithms for feature selection was discussed in diagnostic, etc.), no such natural representation of
Zongker and Jain (1996); a more recent reference objects as possible, which leaves only the Ham-
is Guyon and Elisseeff (2003). Several approaches ming distance as a dissimilarity measure; a poor
to feature selection have been explored, including choice for discriminating among multivalued
wrapper techniques in Kohavi and John, (1997) attributes of objects. Our approach is to view
support vector machines in Brown, Grundy, clustering as a partition of the set of objects and
Lin, Cristiani, Sugnet, and Furey (2000), neural we focus our attention on incremental clustering,
networks in Khan, Wei, Ringner, Saal, Ladanyi, that is, on clusterings that build as new objects
and Westerman (2001), and prototype-based are added to the data set (see Simovici, Singla,
feature selection (see Hanczar, Courtine, Benis, & Kuperberg, 2004; Simovici & Singla, 2005).
Hannegar, Clement, & Zucker, 2003) that is close Incremental clustering has attracted a substantial
to our own approach. Following Butterworth, amount of attention starting with algorithm of
Piatetsky-Shapiro, and Simovici (2005), we shall Hartigan (1975) implemented in Carpenter and
Metric Methods in Data Mining
Box 1.
{{a}, {b}, {c}, {d }} {{a, b}, {c}, {d }} {{a, c}, {b}, {d }} {{a, d }, {b}, {c}}
{{a}, {b, c}, {d }} {{a}, {b, d }, {c}} {{a}, {b}, {c, d }} {{a, b, c}, {d }}
{{a, b}, {c, d }} {{a, b, d }, {c}} {{a, c}, {b, d }} {{a, c, d }, {b}}
{{a, d }, {b, c}} {{a}, {b, c, d }} {{a, b, c, d }}
Random documents with unrelated
content Scribd suggests to you:
Erkenntnisse eines Objects vorhergeht, ja sogar, ohne die
Vorstellung desselben zu einem Erkenntniß brauchen zu wollen,
gleichwohl mit ihr 25 unmittelbar verbunden wird, ist das Subjective
derselben, was gar kein Erkenntnißstück werden kann. Also wird der
Gegenstand alsdann nur darum zweckmäßig genannt, weil seine
Vorstellung unmittelbar mit dem Gefühle der Lust verbunden ist; und
diese Vorstellung selbst ist eine ästhetische Vorstellung der
Zweckmäßigkeit. — Es fragt sich nur, ob es 30 XLIV überhaupt eine
solche Vorstellung der Zweckmäßigkeit gebe.
Wenn mit der bloßen Auffassung (apprehensio) der Form eines
Gegenstandes der Anschauung ohne Beziehung derselben auf einen
Begriff zu einem bestimmten Erkenntniß Lust verbunden ist: so wird
die Vorstellung dadurch nicht auf das Object, sondern lediglich auf
das 35 Subject bezogen; und die Lust kann nichts anders als die
Angemessenheit desselben zu den Erkenntnißvermögen, die in der
reflectirenden Urtheilskraft im Spiel sind, und sofern sie darin sind,
also bloß eine subjective formale Zweckmäßigkeit des Objects
ausdrücken. Denn jene Auffassung der Formen in die
Einbildungskraft kann niemals geschehen, ohne daß die reflectirende
Urtheilskraft, auch unabsichtlich, sie wenigstens mit ihrem
Vermögen, Anschauungen auf Begriffe zu beziehen, vergliche. Wenn
nun 5 in dieser Vergleichung die Einbildungskraft (als Vermögen der
Anschauungen a priori) zum Verstande (als Vermögen der Begriffe)
durch eine gegebene Vorstellung unabsichtlich in Einstimmung
versetzt und dadurch ein Gefühl der Lust erweckt wird, so muß der
Gegenstand alsdann als zweckmäßig für die reflectirende
Urtheilskraft angesehen werden. Ein 10 solches Urtheil ist ein
ästhetisches Urtheil über die Zweckmäßigkeit des Objects, welches
sich auf keinem vorhandenen Begriffe vom Gegenstande gründet
und keinen von ihm verschafft. Wessen Gegenstandes Form (nicht
das Materielle seiner Vorstellung, als Empfindung) in der bloßen XLV
Reflexion über dieselbe (ohne Absicht auf einen von ihm zu
erwerbenden 15 Begriff) als der Grund einer Lust an der Vorstellung
eines solchen Objects beurtheilt wird: mit dessen Vorstellung wird
diese Lust auch als nothwendig verbunden geurtheilt, folglich als
nicht bloß für das Subject, welches diese Form auffaßt, sondern für
jeden Urtheilenden überhaupt. Der Gegenstand heißt alsdann schön;
und das Vermögen, durch eine 20 solche Lust (folglich auch
allgemeingültig) zu urtheilen, der Geschmack. Denn da der Grund
der Lust bloß in der Form des Gegenstandes für die Reflexion
überhaupt, mithin in keiner Empfindung des Gegenstandes und auch
ohne Beziehung auf einen Begriff, der irgend eine Absicht enthielte,
gesetzt wird: so ist es allein die Gesetzmäßigkeit im empirischen 25
Gebrauche der Urtheilskraft überhaupt (Einheit der Einbildungskraft
mit dem Verstande) in dem Subjecte, mit der die Vorstellung des
Objects in der Reflexion, deren Bedingungen a priori allgemein
gelten, zusammen stimmt; und da diese Zusammenstimmung des
Gegenstandes mit den Vermögen des Subjects zufällig ist, so bewirkt
sie die Vorstellung 30 einer Zweckmäßigkeit desselben in Ansehung
der Erkenntnißvermögen des Subjects.
Hier ist nun eine Lust, die wie alle Lust oder Unlust, welche nicht
durch den Freiheitsbegriff (d. i. durch die vorhergehende
Bestimmung des oberen Begehrungsvermögens durch reine
Vernunft) gewirkt wird, niemals 35 XLVI aus Begriffen als mit der
Vorstellung eines Gegenstandes nothwendig verbunden eingesehen
werden kann, sondern jederzeit nur durch reflectirte Wahrnehmung
als mit dieser verknüpft erkannt werden muß, folglich wie alle
empirische Urtheile keine objective Nothwendigkeit ankündigen und
auf Gültigkeit a priori Anspruch machen kann. Aber das
Geschmacksurtheil macht auch nur Anspruch, wie jedes andere
empirische Urtheil, für jedermann zu gelten, welches ungeachtet der
inneren Zufälligkeit 5 desselben immer möglich ist. Das
Befremdende und Abweichende liegt nur darin: daß es nicht ein
empirischer Begriff, sondern ein Gefühl der Lust (folglich gar kein
Begriff) ist, welches doch durch das Geschmacksurtheil, gleich als ob
es ein mit dem Erkenntnisse des Objects verbundenes Prädicat wäre,
jedermann zugemuthet und mit der Vorstellung 10 desselben
verknüpft werden soll.
Ein einzelnes Erfahrungsurtheil, z. B. von dem, der in einem
Bergkrystall einen beweglichen Tropfen Wasser wahrnimmt, verlangt
mit Recht, daß ein jeder andere es eben so finden müsse, weil er
dieses Urtheil nach den allgemeinen Bedingungen der
bestimmenden Urtheilskraft 15 unter den Gesetzen einer möglichen
Erfahrung überhaupt gefällt hat. Eben so macht derjenige, welcher
in der bloßen Reflexion über die Form eines Gegenstandes ohne
Rücksicht auf einen Begriff Lust empfindet, obzwar dieses Urtheil
empirisch und ein einzelnes Urtheil ist, mit Recht XLVII Anspruch auf
Jedermanns Beistimmung: weil der Grund zu dieser Lust 20 in der
allgemeinen, obzwar subjectiven Bedingung der reflectirenden
Urtheile, nämlich der zweckmäßigen Übereinstimmung eines
Gegenstandes (er sei Product der Natur oder der Kunst) mit dem
Verhältniß der Erkenntnißvermögen unter sich, die zu jedem
empirischen Erkenntniß erfordert werden (der Einbildungskraft und
des Verstandes), angetroffen 25 wird. Die Lust ist also im
Geschmacksurtheile zwar von einer empirischen Vorstellung
abhängig und kann a priori mit keinem Begriffe verbunden werden
(man kann a priori nicht bestimmen, welcher Gegenstand dem
Geschmacke gemäß sein werde, oder nicht, man muß ihn
versuchen); aber sie ist doch der Bestimmungsgrund dieses Urtheils
nur dadurch, daß man 30 sich bewußt ist, sie beruhe bloß auf der
Reflexion und den allgemeinen, obwohl nur subjectiven,
Bedingungen der Übereinstimmung derselben zum Erkenntniß der
Objecte überhaupt, für welche die Form des Objects zweckmäßig ist.
Das ist die Ursache, warum die Urtheile des Geschmacks ihrer
Möglichkeit 35 nach, weil diese ein Princip a priori voraussetzt, auch
einer Kritik unterworfen sind, obgleich dieses Princip weder ein
Erkenntnißprincip für den Verstand, noch ein praktisches für den
Willen und also a priori gar nicht bestimmend ist.
Die Empfänglichkeit einer Lust aus der Reflexion über die Formen
XLVIII der Sachen (der Natur sowohl als der Kunst) bezeichnet aber
nicht allein eine Zweckmäßigkeit der Objecte in Verhältniß auf die
reflectirende Urtheilskraft, 5 gemäß dem Naturbegriffe, am Subject,
sondern auch umgekehrt des Subjects in Ansehung der
Gegenstände, ihrer Form, ja selbst ihrer Unform nach, zufolge dem
Freiheitsbegriffe; und dadurch geschieht es: daß das ästhetische
Urtheil nicht bloß als Geschmacksurtheil auf das Schöne, sondern
auch, als aus einem Geistesgefühl entsprungenes, auf 10 das
E r h a b e n e bezogen wird, und so jene Kritik der ästhetischen
Urtheilskraft in zwei diesen gemäße Haupttheile zerfallen muß.
VIII.
Von der logischen Vorstellung der Zweckmäßigkeit der
Natur. 15
Der Verstand ist a priori gesetzgebend für die Natur, als Object der Sinne, zu einem
theoretischen Erkenntniß derselben in einer möglichen 5 Erfahrung. Die Vernunft
ist a priori gesetzgebend für die Freiheit und ihre eigene Causalität, als das
Übersinnliche in dem Subjecte, zu einem unbedingt-praktischen Erkenntniß. Das
Gebiet des Naturbegriffs unter der einen und das des Freiheitsbegriffs unter der
anderen Gesetzgebung sind gegen allen wechselseitigen Einfluß, den sie für sich
(ein jedes nach 10 seinen Grundgesetzen) auf einander haben könnten, durch die
große Kluft, welche das Übersinnliche von den Erscheinungen trennt, gänzlich
abgesondert. Der Freiheitsbegriff bestimmt nichts in Ansehung der theoretischen
Erkenntniß der Natur; der Naturbegriff eben sowohl nichts in Ansehung der
praktischen Gesetze der Freiheit: und es ist in sofern nicht möglich, 15 LIV eine
Brücke von einem Gebiete zu dem andern hinüberzuschlagen. — Allein wenn die
Bestimmungsgründe der Causalität nach dem Freiheitsbegriffe (und der
praktischen Regel, die er enthält) gleich nicht in der Natur belegen sind, und das
Sinnliche das Übersinnliche im Subjecte nicht bestimmen kann: so ist dieses doch
umgekehrt (zwar nicht in Ansehung des 20 Erkenntnisses der Natur, aber doch der
Folgen aus dem ersteren auf die letztere) möglich und schon in dem Begriffe einer
Causalität durch Freiheit enthalten, deren W i r k u n g diesen ihren formalen
Gesetzen gemäß in der Welt geschehen soll, obzwar das Wort U r s a c h e, von dem
Übersinnlichen gebraucht, nur den G r u n d bedeutet, die Causalität der Naturdinge
25 zu einer Wirkung gemäß ihren eigenen Naturgesetzen, zugleich aber doch auch
mit dem formalen Princip der Vernunftgesetze einhellig zu bestimmen, wovon die
Möglichkeit zwar nicht eingesehen, aber der Einwurf von einem vorgeblichen
Widerspruch, der sich darin fände, hinreichend widerlegt werden kann[2]. — Die
Wirkung nach dem Freiheitsbegriffe ist der 30 LV Endzweck, der (oder dessen
Erscheinung in der Sinnenwelt) existiren soll, wozu die Bedingung der Möglichkeit
desselben in der Natur (des Subjects als Sinnenwesens, nämlich als Mensch)
vorausgesetzt wird. Das, was diese a priori und ohne Rücksicht auf das Praktische
voraussetzt, die Urtheilskraft, giebt den vermittelnden Begriff zwischen den
Naturbegriffen 5 und dem Freiheitsbegriffe, der den Übergang von der reinen
theoretischen zur reinen praktischen, von der Gesetzmäßigkeit nach der ersten
zum Endzwecke nach dem letzten möglich macht, in dem Begriffe einer
Z w e c k m ä ß i g k e i t der Natur an die Hand; denn dadurch wird die Möglichkeit
des Endzwecks, der allein in der Natur und mit Einstimmung ihrer Gesetze 10
wirklich werden kann, erkannt.
Der Verstand giebt durch die Möglichkeit seiner Gesetze a priori für die Natur einen
Beweis davon, daß diese von uns nur als Erscheinung LVI erkannt werde, mithin
zugleich Anzeige auf ein übersinnliches Substrat derselben, aber läßt dieses
gänzlich u n b e s t i m m t. Die Urtheilskraft verschafft 15 durch ihr Princip a priori
der Beurtheilung der Natur nach möglichen besonderen Gesetzen derselben ihrem
übersinnlichen Substrat (in uns sowohl als außer uns) B e s t i m m b a r k e i t
d u r c h d a s i n t e l l e c t u e l l e V e r m ö g e n. Die Vernunft aber giebt eben
demselben durch ihr praktisches Gesetz a priori die B e s t i m m u n g; und so macht
die Urtheilskraft 20 den Übergang vom Gebiete des Naturbegriffs zu dem des
Freiheitsbegriffs möglich.
In Ansehung der Seelenvermögen überhaupt, sofern sie als obere, d. i. als solche,
die eine Autonomie enthalten, betrachtet werden, ist für das
E r k e n n t n i ß v e r m ö g e n (das theoretische der Natur) der Verstand 25
dasjenige, welches die c o n s t i t u t i v e n Principien a priori enthält; für das
G e f ü h l d e r L u s t u n d U n l u s t ist es die Urtheilskraft unabhängig von
Begriffen und Empfindungen, die sich auf Bestimmung des Begehrungsvermögens
beziehen und dadurch unmittelbar praktisch sein könnten; für das
B e g e h r u n g s v e r m ö g e n die Vernunft, welche ohne Vermittelung irgend einer
Lust, woher sie auch komme, praktisch ist und demselben als oberes Vermögen
den Endzweck bestimmt, der zugleich das reine intellectuelle Wohlgefallen am
Objecte mit sich führt. — Der Begriff der 5 Urtheilskraft von einer Zweckmäßigkeit
der Natur ist noch zu den Naturbegriffen LVII gehörig, aber nur als regulatives
Princip des Erkenntnißvermögens, obzwar das ästhetische Urtheil über gewisse
Gegenstände (der Natur oder der Kunst), welches ihn veranlaßt, in Ansehung des
Gefühls der Lust oder Unlust ein constitutives Princip ist. Die Spontaneität im 10
Spiele der Erkenntnißvermögen, deren Zusammenstimmung den Grund dieser Lust
enthält, macht den gedachten Begriff zur Vermittelung der Verknüpfung der
Gebiete des Naturbegriffs mit dem Freiheitsbegriffe in ihren Folgen tauglich, indem
diese zugleich die Empfänglichkeit des Gemüths für das moralische Gefühl
befördert. — Folgende Tafel kann die 15 Übersicht aller oberen Vermögen ihrer
systematischen Einheit nach erleichtern[3].
Gesammte
Erkenntnißvermöge Principien Anwendung
Vermögen des
n a priori a u fLVIII
Gemüths
Erkenntnißvermögen Verstand Gesetzmäßigkeit Natur
Gefühl der Lust und
Urtheilskraft Zweckmäßigkeit Kunst
Unlust
Begehrungsvermögen Vernunft Endzweck Freiheit.
Eintheilung LIX
des ganzen Werks.
Erster Theil.
Kritik der ästhetischen Urtheilskraft.
Erster Abschnitt.
Analytik der ästhetischen Urtheilskraft.
Erstes Buch.
Analytik des Schönen.
Zweites Buch.
Analytik des Erhabenen.
Zweiter Abschnitt.
Dialektik der ästhetischen Urtheilskraft.
Zweiter Theil. LX
Kritik der teleologischen Urtheilskraft.
Erste Abtheilung.
Analytik der teleologischen Urtheilskraft.
Zweite Abtheilung.
Dialektik der teleologischen Urtheilskraft.
Anhang.
Methodenlehre der teleologischen Urtheilskraft.
Der
Kritik der Urtheilskraft
Erster Theil.
Kritik
der
ästhetischen
U r t h e i l s k r a f t.
Erster Abschnitt.
Analytik der ästhetischen Urtheilskraft.
Erstes Buch.
Analytik des Schönen.
Erstes Moment
des Geschmacksurtheils[4] der Qualität nach.
§ 1.
Das Geschmacksurtheil ist ästhetisch.
G u t ist das, was vermittelst der Vernunft durch den bloßen Begriff
15 gefällt. Wir nennen einiges w o z u g u t (das Nützliche), was nur
als Mittel gefällt; ein anderes aber a n s i c h g u t, was für sich
selbst gefällt. In beiden ist immer der Begriff eines Zwecks, mithin
das Verhältniß der Vernunft zum (wenigstens möglichen) Wollen,
folglich ein Wohlgefallen am D a s e i n eines Objects oder einer
Handlung, d. i. irgend ein Interesse, 20 enthalten.
Um etwas gut zu finden, muß ich jederzeit wissen, was der
Gegenstand für ein Ding sein solle, d. i. einen Begriff von demselben
haben. Um Schönheit woran zu finden, habe ich das nicht nöthig.
Blumen, freie Zeichnungen, ohne Absicht in einander geschlungene
Züge, unter dem 25 11 Namen des Laubwerks, bedeuten nichts,
hängen von keinem bestimmten Begriffe ab und gefallen doch. Das
Wohlgefallen am Schönen muß von der Reflexion über einen
Gegenstand, die zu irgend einem Begriffe (unbestimmt welchem)
führt, abhängen und unterscheidet sich dadurch auch vom
Angenehmen, welches ganz auf der Empfindung beruht. 30
Zwar scheint das Angenehme mit dem Guten in vielen Fällen einerlei
zu sein. So wird man gemeiniglich sagen: alles (vornehmlich
dauerhafte) Vergnügen ist an sich selbst gut; welches ungefähr so
viel heißt, als: dauerhaft-angenehm oder gut sein, ist einerlei. Allein
man kann bald bemerken, daß dieses blos eine fehlerhafte
Wortvertauschung sei, da die 35 Begriffe, welche diesen Ausdrücken
eigenthümlich anhängen, keinesweges gegen einander ausgetauscht
werden können. Das Angenehme, das als ein solches den
Gegenstand lediglich in Beziehung auf den Sinn vorstellt, muß
allererst durch den Begriff eines Zwecks unter Principien der
Vernunft gebracht werden, um es als Gegenstand des Willens gut zu
nennen. Daß dieses aber alsdann eine ganz andere Beziehung auf
das Wohlgefallen 5 sei, wenn ich das, was vergnügt, zugleich g u t
nenne, ist daraus zu ersehen, daß beim Guten immer die Frage ist,
ob es blos mittelbar-gut oder unmittelbar-gut (ob nützlich oder an
sich gut) sei; da hingegen beim Angenehmen hierüber gar nicht die
Frage sein kann, indem das Wort jederzeit etwas bedeutet, was
unmittelbar gefällt. (Eben so ist es auch mit dem, 10 12 was ich
schön nenne, bewandt.)
Selbst in den gemeinsten Reden unterscheidet man das Angenehme
vom Guten. Von einem durch Gewürze und andre Zusätze den
Geschmack erhebenden Gerichte sagt man ohne Bedenken, es sei
angenehm, und gesteht zugleich, daß es nicht gut sei: weil es zwar
unmittelbar den Sinnen 15 b e h a g t, mittelbar aber, d. i. durch die
Vernunft, die auf die Folgen hinaus sieht, betrachtet, mißfällt. Selbst
in der Beurtheilung der Gesundheit kann man noch diesen
Unterschied bemerken. Sie ist jedem, der sie besitzt, unmittelbar
angenehm (wenigstens negativ, d. i. als Entfernung aller
körperlichen Schmerzen). Aber um zu sagen, daß sie gut sei, muß
man sie 20 noch durch die Vernunft auf Zwecke richten, nämlich
daß sie ein Zustand ist, der uns zu allen unsern Geschäften
aufgelegt macht. In Absicht der Glückseligkeit glaubt endlich doch
jedermann, die größte Summe (der Menge sowohl als Dauer nach)
der Annehmlichkeiten des Lebens ein wahres, ja sogar das höchste
Gut nennen zu können. Allein auch dawider sträubt sich 25 die
Vernunft. Annehmlichkeit ist Genuß. Ist es aber auf diesen allein
angelegt, so wäre es thöricht, scrupulös in Ansehung der Mittel zu
sein, die ihn uns verschaffen, ob er leidend, von der Freigebigkeit
der Natur, oder durch Selbstthätigkeit und unser eignes Wirken
erlangt wäre. Daß aber eines Menschen Existenz an sich einen Werth
habe, welcher blos lebt (und 30 13 in dieser Absicht noch so sehr
geschäftig ist), um z u g e n i e ß e n, sogar wenn er dabei Andern,
die alle eben so wohl nur aufs Genießen ausgehen, als Mittel dazu
aufs beste beförderlich wäre und zwar darum, weil er durch
Sympathie alles Vergnügen mit genösse: das wird sich die Vernunft
nie überreden lassen. Nur durch das, was er thut ohne Rücksicht auf
Genuß, 35 in voller Freiheit und unabhängig von dem, was ihm die
Natur auch leidend verschaffen könnte, giebt er seinem Dasein als
der Existenz einer Person einen absoluten Werth; und die
Glückseligkeit ist mit der ganzen Fülle ihrer Annehmlichkeit bei
weitem nicht ein unbedingtes Gut[6].
Aber ungeachtet aller dieser Verschiedenheit zwischen dem
Angenehmen und Guten kommen beide doch darin überein: daß sie
jederzeit mit einem Interesse an ihrem Gegenstande verbunden
sind, nicht allein das Angenehme, 5 § 3, und das mittelbar Gute
(das Nützliche), welches als Mittel zu irgend einer Annehmlichkeit
gefällt, sondern auch das schlechterdings und in aller Absicht Gute,
nämlich das moralische, welches das höchste Interesse bei sich
führt. Denn das Gute ist das Object des Willens (d. i. 14 eines durch
Vernunft bestimmten Begehrungsvermögens). Etwas aber 10 wollen
und an dem Dasein desselben ein Wohlgefallen haben, d. i. daran
ein Interesse nehmen, ist identisch.
§ 5.
Vergleichung der drei specifisch verschiedenen Arten des
Wohlgefallens. 15
Das Angenehme und Gute haben beide eine Beziehung auf das
Begehrungsvermögen und führen sofern, jenes ein pathologisch-
bedingtes (durch Anreize, stimulos), dieses ein reines praktisches
Wohlgefallen bei sich, welches nicht bloß durch die Vorstellung des
Gegenstandes, sondern zugleich durch die vorgestellte Verknüpfung
des Subjects mit der Existenz 20 desselben bestimmt wird. Nicht
bloß der Gegenstand, sondern auch die Existenz desselben gefällt.
Dagegen ist das Geschmacksurtheil bloß c o n t e m p l a t i v, d. i. ein
Urtheil, welches, indifferent in Ansehung des Daseins eines
Gegenstandes, nur seine Beschaffenheit mit dem Gefühl der Lust
und Unlust zusammenhält. Aber diese Contemplation selbst ist auch
25 nicht auf Begriffe gerichtet; denn das Geschmacksurtheil ist kein
Erkenntnißurtheil (weder ein theoretisches noch praktisches) und
daher auch nicht auf Begriffe g e g r ü n d e t, oder auch auf solche
a b g e z w e c k t.
Das Angenehme, das Schöne, das Gute bezeichnen also drei
verschiedene Verhältnisse der Vorstellungen zum Gefühl der Lust
und Unlust, in 30 15 Beziehung auf welches wir Gegenstände oder
Vorstellungsarten von einander unterscheiden. Auch sind die jedem
angemessenen Ausdrücke, womit man die Complacenz in denselben
bezeichnet, nicht einerlei. A n g e n e h m heißt Jemandem das, was
ihn vergnügt; s c h ö n, was ihm blos gefällt; g u t, was geschätzt,
g e b i l l i g t, d. i. worin von ihm ein objectiver 5 Werth gesetzt wird.
Annehmlichkeit gilt auch für vernunftlose Thiere; Schönheit nur für
Menschen, d. i. thierische, aber doch vernünftige Wesen, aber auch
nicht blos als solche (z. B. Geister), sondern zugleich als thierische;
das Gute aber für jedes vernünftige Wesen überhaupt; ein Satz, der
nur in der Folge seine vollständige Rechtfertigung und Erklärung
bekommen 10 kann. Man kann sagen: daß unter allen diesen drei
Arten des Wohlgefallens das des Geschmacks am Schönen einzig
und allein ein uninteressirtes und f r e i e s Wohlgefallen sei; denn
kein Interesse, weder das der Sinne, noch das der Vernunft, zwingt
den Beifall ab. Daher könnte man von dem Wohlgefallen sagen: es
beziehe sich in den drei genannten 15 Fällen auf N e i g u n g, oder
G u n s t, oder A c h t u n g. Denn Gunst ist das einzige freie
Wohlgefallen. Ein Gegenstand der Neigung und einer, welcher durch
ein Vernunftgesetz uns zum Begehren auferlegt wird, lassen uns
keine Freiheit, uns selbst irgend woraus einen Gegenstand der Lust
zu machen. Alles Interesse setzt Bedürfniß voraus, oder bringt eines
20 16 hervor; und als Bestimmungsgrund des Beifalls läßt es das
Urtheil über den Gegenstand nicht mehr frei sein.
Was das Interesse der Neigung beim Angenehmen betrifft, so sagt
jedermann: Hunger ist der beste Koch, und Leuten von gesundem
Appetit schmeckt alles, was nur eßbar ist; mithin beweiset ein
solches Wohlgefallen 25 keine Wahl nach Geschmack. Nur wenn das
Bedürfniß befriedigt ist, kann man unterscheiden, wer unter Vielen
Geschmack habe, oder nicht. Eben so giebt es Sitten (Conduite)
ohne Tugend, Höflichkeit ohne Wohlwollen, Anständigkeit ohne
Ehrbarkeit u. s. w. Denn wo das sittliche Gesetz spricht, da giebt es
objectiv weiter keine freie Wahl in Ansehung dessen, was zu 30
thun sei; und Geschmack in seiner Aufführung (oder in Beurtheilung
anderer ihrer) zeigen, ist etwas ganz anderes, als seine moralische
Denkungsart äußern: denn diese enthält ein Gebot und bringt ein
Bedürfniß hervor, da hingegen der sittliche Geschmack mit den
Gegenständen des Wohlgefallens nur spielt, ohne sich an einen zu
hängen. 35
Our website is not just a platform for buying books, but a bridge
connecting readers to the timeless values of culture and wisdom. With
an elegant, user-friendly interface and an intelligent search system,
we are committed to providing a quick and convenient shopping
experience. Additionally, our special promotions and home delivery
services ensure that you save time and fully enjoy the joy of reading.
ebooknice.com