(Description) Sentiment Analysis
(Description) Sentiment Analysis
Với mỗi đơn vị văn bản có thể thuộc vào tập các nhãn như: ‘Technology’, ‘Sports’, ‘Business’,...
1
AI VIETNAM aivietnam.edu.vn
Sentiment Analysis là nhóm các bài toán con thuộc vào phân loại văn bản. Với mục tiêu phân
tích và đánh giá các bình luận của khách hàng cho các sản phẩm và tích cực, tiêu cực hay trung tính.
Phần project này sẽ tập trung giải quyết cho bài phân tích cảm xúc trên bộ dữ liệu IMDB - Đánh
giá phim.
2
AI VIETNAM aivietnam.edu.vn
2. Đọc bộ dữ liệu: Sử dụng thư viện pandas, chúng ta sẽ đọc file .csv lên như sau:
1 # Load dataset
2 import pandas as pd
3
4 df = pd . read_csv ( ’ ./ IMDB - Dataset . csv ’)
5
6 # Remove duplicate rows
7 df = df . drop_duplicates ()
Ở đây chúng ta sẽ thực hiện làm sạch dữ liệu thông qua các bước như: xoá thẻ html, xoá dấu câu,
xoá số, xoá các icon,...
1 import re
2 import string
3 import nltk
4 nltk . download ( ’ stopwords ’)
5 nltk . download ( ’ wordnet ’)
6 from nltk . corpus import stopwords
7 from nltk . stem import WordNetLemmatizer
8 from bs4 import BeautifulSoup
9 import contractions
10
11 stop = set ( stopwords . words ( ’ english ’) )
12
13 # Expanding contractions
14 def expand_contractions ( text ) :
15 return contractions . fix ( text )
16
17 # Function to clean data
18 def preprocess_text ( text ) :
19
20 wl = WordNetLemmatizer ()
21
22 soup = BeautifulSoup ( text , " html . parser " ) # Removing html tags
3
AI VIETNAM aivietnam.edu.vn
4
AI VIETNAM aivietnam.edu.vn
5
AI VIETNAM aivietnam.edu.vn
6
AI VIETNAM aivietnam.edu.vn
7
AI VIETNAM aivietnam.edu.vn
3. Mô hình nào có thể được sử dụng làm bộ phân loại cho bài toán phân loại văn bản?
4. Phương pháp biểu diễn văn bản thành vector được sử dụng trong phần thực nghiệm là?
5. Bộ dữ liệu được sử dụng cho bài toán phân loại trong phần thực nghiệm là?
6. Số lượng sample trùng lặp trong bộ dữ liệu phân loại được sử dụng trong phần thực nghiệm là?
7. Kích thước bộ từ điển sau bước tiền xử lý trong phần thực nghiệm xấp xỉ với kết quả nào sau
đây?
8
AI VIETNAM aivietnam.edu.vn
9. Kết quả độ chính xác accuracy của mô hình Random Forest Classifier trên xấp xỉ với kết quả nào
sau đây?
(a) 64 (c) 84
(b) 74 (d) 94
- Hết -