WINSEM2022-23 - CSI3005 - ETH - VL2022230503219 - ReferenceMaterialI - FriFeb1700 00 00IST2023 - TextandDocumentVisualization

The document discusses text and document visualization. It describes text data as collections of documents including articles, books, emails, web pages, etc. It explains that text can be analyzed as data by looking at word meanings, relations, orderings, and hierarchies. It then outlines a common text processing pipeline involving tokenization, stemming/lemmatization, and removing stop words. Finally, it discusses several techniques for visualizing document content and structure at both the single document and collection level, including word clouds, word trees, text arcs, and arc diagrams.

Uploaded by

M Ramani Devi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views

WINSEM2022-23 - CSI3005 - ETH - VL2022230503219 - ReferenceMaterialI - FriFeb1700 00 00IST2023 - TextandDocumentVisualization

Uploaded by

M Ramani Devi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 20

Text and Document Visualization

Text data?
• Huge resources of information; from libraries, to e-mail archives
• Documents
• Articles, books and novels
• Computer programs
• E-mails, web pages, blogs
• Tags, comments
Text data
Collection of documents
• Messages (e-mail, blogs, tags, comments)
• Social networks (personal profiles)
• Academic collaborations (publications)
Text as Data

• Words have meanings and relations

– Correlations: Hong Kong, San Francisco, Bay Area
– Order: April, February, January, June, March, May
– Membership: Tennis, Running, Swimming, Hiking, Piano
– Hierarchy, antonyms & synonyms, entities
• Whether text is a nominal or ordinal ??
Text Processing Pipeline
Tokenization: segment text into terms
• Special cases? e.g., “San Francisco”, “L’ensemble”, “U.S.A.”
• Remove stop words? e.g., “a”, “an”, “the”, “to”, “be”?
Stemming: one means of normalizing terms
• Reduce terms to their “root”; Porter’s algorithm for English
• e.g., automate(s), automatic, automation all map to automat
• For visualization, want to reverse stemming for labels
• Simple solution: map from stem to the most frequent word
Stemming Vs Lemmatization
Stop words
Bag of Words Model
• A document ≈ vector of term weights
– Each dimension corresponds to a term (10,000+)
– Each value represents the relevance
– For example, simple term counts
• Aggregate into a document x term matrix
• Document vector space model
Document x Term matrix
• Each document is a vector of term weights
• Simplest weighting is to just count occurrences
Computing Weights
• Tf (w) be the term frequency or number of times that word w occurred in the
document,
• Let Df (w) be the document frequency (number of documents that contain the
word).
• Let N be the number of documents.
• We define Tf Idf(w) as
Bag of Words Model
Example
Vector Space Representation
Visualizing Document Content
Single document visualization
Word Clouds
WordTree
TextArc
Arc Diagrams

CSE442 Text
No ratings yet
CSE442 Text
89 pages
DVT UNIT 4
No ratings yet
DVT UNIT 4
21 pages
DVT UNIT -4 Notes 211124 (1)
No ratings yet
DVT UNIT -4 Notes 211124 (1)
21 pages
NLP Text Preprocessing
No ratings yet
NLP Text Preprocessing
19 pages
dvt u4 my notes
No ratings yet
dvt u4 my notes
15 pages
Text
No ratings yet
Text
102 pages
1152cs191 Data Visualization Unit IV
No ratings yet
1152cs191 Data Visualization Unit IV
99 pages
4th Unit DVT
No ratings yet
4th Unit DVT
40 pages
Lecture 6 - From Unstructured Texts to Structure Data I
No ratings yet
Lecture 6 - From Unstructured Texts to Structure Data I
17 pages
Week 12
No ratings yet
Week 12
19 pages
NLP_Module 2
No ratings yet
NLP_Module 2
54 pages
Session 11-12 - Text Analytics
No ratings yet
Session 11-12 - Text Analytics
38 pages
Dealing With Textual Data
No ratings yet
Dealing With Textual Data
67 pages
1 Text Mining Review Slides
No ratings yet
1 Text Mining Review Slides
78 pages
CS423 Data Warehousing and Data Mining: Dr. Hammad Afzal
No ratings yet
CS423 Data Warehousing and Data Mining: Dr. Hammad Afzal
31 pages
ML7 - Text Classification
No ratings yet
ML7 - Text Classification
13 pages
AFM_Module 4
No ratings yet
AFM_Module 4
48 pages
Unit iv
No ratings yet
Unit iv
58 pages
06 Text and Document
No ratings yet
06 Text and Document
43 pages
A New Approach To Represent Textual Documents Using CVSM
No ratings yet
A New Approach To Represent Textual Documents Using CVSM
6 pages
Unit-4 NLP
No ratings yet
Unit-4 NLP
21 pages
Semantic_Technology-Assisted_Review_STAR_Document_
No ratings yet
Semantic_Technology-Assisted_Review_STAR_Document_
14 pages
feature eng
No ratings yet
feature eng
34 pages
Statistical NLP
No ratings yet
Statistical NLP
45 pages
Introduction To Text Visualization by Nan Cao, Weiwei Cui (Auth.)
No ratings yet
Introduction To Text Visualization by Nan Cao, Weiwei Cui (Auth.)
122 pages
Text Mining
No ratings yet
Text Mining
34 pages
Unit iv
No ratings yet
Unit iv
57 pages
Text Analytics Basics
No ratings yet
Text Analytics Basics
28 pages
Text Analysis: Why Do We Need Text Analytics
No ratings yet
Text Analysis: Why Do We Need Text Analytics
2 pages
week2and3
No ratings yet
week2and3
76 pages
Feature Engineering
100% (2)
Feature Engineering
44 pages
Unit 2 Updated New
No ratings yet
Unit 2 Updated New
77 pages
Vector Semantics
No ratings yet
Vector Semantics
83 pages
Bag of Words
No ratings yet
Bag of Words
32 pages
NLP Basic - YL
No ratings yet
NLP Basic - YL
16 pages
Text Mining
No ratings yet
Text Mining
25 pages
Text Mining
No ratings yet
Text Mining
62 pages
Text and Sentiment Analysis
No ratings yet
Text and Sentiment Analysis
41 pages
Mapping Texts _ Computational Text Analysis for the Social -- Dustin S_ Stoltz, Marshall A_ Taylor -- 2024 -- Computational Social Science -- 9780197756874 -- 4bb94f00b911a0819217ab0b4e8b9aab -- Anna’s Archive
No ratings yet
Mapping Texts _ Computational Text Analysis for the Social -- Dustin S_ Stoltz, Marshall A_ Taylor -- 2024 -- Computational Social Science -- 9780197756874 -- 4bb94f00b911a0819217ab0b4e8b9aab -- Anna’s Archive
326 pages
Mapping Texts 2024
No ratings yet
Mapping Texts 2024
326 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
37 pages
Text Analysis
No ratings yet
Text Analysis
13 pages
Module5-Representing and Mining Text
No ratings yet
Module5-Representing and Mining Text
24 pages
Unit 3 NLP
No ratings yet
Unit 3 NLP
103 pages
NLP Prez Word - Sentence Embedding - MAQUET - MARTIN - LEEFEBURE - MOGAVERO
No ratings yet
NLP Prez Word - Sentence Embedding - MAQUET - MARTIN - LEEFEBURE - MOGAVERO
18 pages
AP for NLP-Word 2 Vec
No ratings yet
AP for NLP-Word 2 Vec
33 pages
6. Applications of NLP
No ratings yet
6. Applications of NLP
85 pages
Text Analysis
No ratings yet
Text Analysis
15 pages
NLP CT1
No ratings yet
NLP CT1
6 pages
Business Intelligence and Data Mining: by Dr. Atanu Rakshit Email: Atanu - Rakshit@iimrohtak - Ac.in
No ratings yet
Business Intelligence and Data Mining: by Dr. Atanu Rakshit Email: Atanu - Rakshit@iimrohtak - Ac.in
122 pages
Computational Journalism 2016 Week 2: Text Analysis
No ratings yet
Computational Journalism 2016 Week 2: Text Analysis
68 pages
Chapter 4 - Processing Text
No ratings yet
Chapter 4 - Processing Text
7 pages
Machine Learning For NLP: Vocabulary
No ratings yet
Machine Learning For NLP: Vocabulary
37 pages
AP for NLP-LO1
No ratings yet
AP for NLP-LO1
61 pages
Lab 5
No ratings yet
Lab 5
27 pages
Module III
No ratings yet
Module III
42 pages
NLP-UNIT-4 (1) (1)
No ratings yet
NLP-UNIT-4 (1) (1)
23 pages
Lect04
No ratings yet
Lect04
44 pages
Module 8 - Text - Update
No ratings yet
Module 8 - Text - Update
42 pages
CSV File Guide
From Everand
CSV File Guide
Mia Wright
No ratings yet

WINSEM2022-23 - CSI3005 - ETH - VL2022230503219 - ReferenceMaterialI - FriFeb1700 00 00IST2023 - TextandDocumentVisualization

Uploaded by

WINSEM2022-23 - CSI3005 - ETH - VL2022230503219 - ReferenceMaterialI - FriFeb1700 00 00IST2023 - TextandDocumentVisualization

Uploaded by

Text and Document Visualization

• Words have meanings and relations

You might also like