0% found this document useful (0 votes)
5 views

Stat1371 - Topic 1

Topic 1 Statistics
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
5 views

Stat1371 - Topic 1

Topic 1 Statistics
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 2

Chủ đề 1. Tổng quan và trực quan hóa dữ liệu.

1. Định nghĩa.
- Thuật ngữ Thông kê (Statistics) được dùng trong phạm vi hẹp, đặc biệt trong các
phương tiện truyền thông (thu nhập bình quân của hộ gia đình, tỉ lệ phần trăm gia
đình có nuôi chó…)
- Ở phạm vi rộng hơn, thống kê là ngành khoa học thu thập (collecting), tổ chức
(organising), phiên dịch (interpreting), trực quan hóa (visualising) và báo cáo số
liệu (reporting data).
- Mục tiêu: tách thông tin từ dữ liệu trong bối cảnh không chắc chắn.

2. Ý nghĩa.
- Đa số dữ liệu chúng ta thu thập thường có khuynh hướng biến đổi.
- Sự thay đổi được gây ra do sự khác biệt về môi trường (evironmental), sinh học
(biological) hay xã hội (social).
- Nó gây ra sự khó khăn trong việc xác định cái gì đang diễn ra.

3. Thông tin dựa trên bằng chứng.


- Phương pháp khoa học: Thu thập thông tin dựa trên các bằng chứng
- Các bước làm:
+ Trình bày (formulate) câu hỏi thu thập.
+ Thu thập các dữ liệu có liên quan (relevant data).
+ Thực hiện phân tích các dữ liệu thống kê (statistical data analysis).

4. Mẫu thử và quần thể.


- Quần thể (population): Tập hợp các phép đo đang quan tâm khả thi.
- Mẫu thử (sample): Tập hợp con các phép đo của quần thể.
- Ta lấy một mẫu thử và dùng để trình bày các thuộc tính (properties) của quần
thể.

5. Kiểu dữ liệu / biến.


- Có nhiều kiểu biến, phụ thuộc vào cái đang xem xét.
- Chúng ta sẽ dùng những thể loại biến số (variable) sau:
+ Dữ liệu theo hạng mục (categorical) / định tính:
 Danh sách (nominal): Thông tin được cho theo danh mục, tên (giới tính...)
Chúng không có cách khả thi để sắp xếp chúng.
 Thứ tự (ordinal): danh mục có thể được sắp xếp (tốt, bình thường, xấu...)
 Một số được gọi là lưỡng tính.
+ Dữ liệu kiểu số / định lượng:
 Rời rạc (discrete): < Tập xác định: N> Từ việc đếm và chỉ có một số giá
trị nhất định khả thi (số ví dụ ở các phần trước).
 Liên tục (continuous): < Tập xác định: R hay một phần của R> để mọi giá
trị đều khả thi (số đo độ dài).
 Có thể cộng, trừ hoặc lấy tỉ lệ với những giá trị đó.
- Để có thể thu thập thông tin từ mẫu thử thường phụ thuộc vào loại dữ liệu hiện
có.

6. Ma trận dữ liệu.
- Là cách thuận tiện để ghi chép và lưu trữ dữ liệu.
- Trên thực tế, cần đặt ra những câu hỏi có tính làm rõ nhằm đảm bảo những khía
cạnh quan trọng của dữ liệu có thể hiểu được.

7. Nhập dữ liệu.
- Dữ liệu nên được nhập vào một bảng tính, cơ sở dữ liệu hay phần mềm thống
kê.
- Excel là cái phổ biến nhất
- Lý tưởng nhất: Tạo mẫu nhập dữ liệu trước khi thu thập.
- Cần giữ cho dữ liệu ngăn nắp và sạch.

8. Dọn dẹp dữ liệu.


- Miêu tả cách để lưu trữ các dữ liệu mà chúng có thể được dùng bất kì lúc nào.
- Ý nghĩa: Tốn ít thời gian sử dụng công cụ và thêm thời gian phân tích.
- Đặc điểm của dữ liệu ngăn nắp.
+ Mỗi biến số là một cột
+ Mỗi đặc điểm cần quan sát (observation) là một hàng
+ Mỗi giá trị là một ô.
- Mỗi hàng được biết là một bản ghi, một cho từng chủ đề (một người trong một
nhóm người được nghiên cứu), chứa thông tin được thu thập cho chủ đề đó.

You might also like