0% found this document useful (0 votes)

17 views

What_is_Data_Science

Uploaded by

gotip76351

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views

What_is_Data_Science

Uploaded by

gotip76351

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

What is Data Science?

Data science can be defined as the interdisciplinary field that uses
scientific methods, processes, algorithms, and systems to extract
knowledge and insights from structured and unstructured data. Let's
break down the definition into its two components:
1. Data:
• Structured Data: Refers to organized and formatted data that fits
into a tabular format, such as databases with rows and columns.
Examples include spreadsheets and relational databases.
• Unstructured Data: Encompasses information that lacks a predefined
data model or is not organized in a structured manner. Examples
include text documents, images, videos, and social media posts.
2. Science:
• Scientific Methods: Involves the application of systematic and logical
processes to investigate phenomena, make predictions, and test
hypotheses. Data science employs scientific methods to analyze
and interpret data in order to derive meaningful insights.
• Algorithms and Models: Data science uses computational
algorithms and statistical models to process and analyze data,
uncover patterns, and make predictions or decisions. These
models can range from simple statistical methods to complex
machine learning algorithms.

Data science encompasses a wide range of techniques, including data

collection, data cleaning, data analysis, data visualization, and
machine learning. The ultimate goal of data science is to turn data
into actionable insights that can drive business decisions, scientific
research, or other applications.

1|Page
Data Science- A Powerful Combination of Various Disciplines:
Data science combines computer science, mathematics and statistics,
and domain expertise. These disciplines are crucial for data scientists
to understand, collect, clean, analyse, and visualize data.
• Computer science skills are necessary for programming and
utilizing big data technologies, enabling data scientists to write
code for data tasks and deploy machine learning models.
• Math and statistics knowledge is vital for applying complex
algorithms to identify patterns, make predictions, and draw
conclusions from data.
• Domain expertise is essential for understanding specific industries
or problems, allowing data scientists to use data effectively. For
instance, a data scientist in healthcare needs a good
understanding of medical terminology.
The overlap of these disciplines represents the skills and knowledge
required for successful data scientists. A strong foundation in all three
disciplines is necessary to effectively use data for solving real-world
problems.

2|Page
What are Datasets?
Datasets are collections of data, typically organized in a structured
manner for analysis or research purposes. These collections can
include various types of data, such as text, numbers, images, or other
forms of information. Datasets serve as the foundation for data-driven
tasks in fields like data science, machine learning, and statistics. Here
are some key points about datasets:
1. Structure:
• Tabular Data: Many datasets are organized in tabular form,
similar to a spreadsheet, with rows and columns. Each row
represents an individual observation, while columns represent
different features or attributes.
• Multi-modal Data: Datasets can include a variety of data types,
such as text, images, audio, time-series, and more.
2. Types of Datasets:
• Public Datasets: These are datasets that are openly available to
the public and are often used for research, analysis, and
educational purposes. Examples include datasets provided by
government agencies, research institutions, and online repositories.
• Private Datasets: Some datasets are proprietary or restricted in
access due to privacy, security, or commercial reasons.

Example Dataset
Let's create a small example dataset to illustrate the concept. In this
case, we'll consider a simple dataset of students and their exam scores:

Example Dataset: Students and Exam Scores

Student ID Name Age Exam Score

1 Alice 20 85
2 Bob 21 72
3 Charlie 19 90
4 David 22 78
5 Emily 20 95

3|Page
In this small dataset:
• Student ID: Unique identifier for each student.
• Name: The name of the student.
• Age: The age of the student.
• Exam Score: The score achieved by the student in a particular exam.

This dataset is easy to understand and work with. It's small, making it
suitable for explanatory purposes, and it includes both categorical
(name) and numerical (age, exam score) variables. You might use
such a dataset to perform basic statistical analyses, visualize trends, or
even build simple models, depending on your analytical goals.

There are various sources for datasets available online:

Here are links to some of the main free sources for datasets:
1. Kaggle: Kaggle Datasets
(kaggle.com/datasets/goldenoakresearch/us-household-income-
stats-geo-locations)
2. UCI Machine Learning Repository: UCI Machine Learning Repository
(archive.ics.uci.edu/dataset/53/iris)
3. Google Dataset Search: Google Dataset Search
(datasetsearch.research.google.com/)
4. Data.gov: data.gov.in/
5. GitHub: GitHub Datasets (github.com/awesomedata/awesome-
public-datasets)

Data Scientists and Their Role

Data scientists are professionals who specialize in the field of data
science. They play a crucial role in organizations by leveraging their
expertise to solve complex problems and generate value from data.
Their responsibilities include:

4|Page
Responsibilities of Data Scientists

1. Data Collection: Data scientists gather data from various sources,

such as databases, sensors, web scraping, or APIs.

2. Data Cleaning: They preprocess and clean the data to ensure its
quality, removing inconsistencies and errors.

3. Data Analysis: Data scientists use statistical and analytical

techniques to explore data, identify patterns, and derive meaningful
insights.

4. Data Visualization: They create visualizations (charts, graphs,

dashboards) to present data in a comprehensible and actionable
manner.

5. Machine Learning: Data scientists build and train machine learning

models to make predictions, classifications, or recommendations
based on data.

6. Data Interpretation: They interpret the results of their analyses and

provide actionable recommendations or insights to stakeholders.

7. A/B Testing: Data scientists design and conduct experiments to test

hypotheses and evaluate the impact of changes or interventions.

5|Page

Unit I - Part I Notes
100% (7)
Unit I - Part I Notes
33 pages
Cortex XDR Demo Guide
No ratings yet
Cortex XDR Demo Guide
52 pages
Notes - EDA-Unit1 (2)
No ratings yet
Notes - EDA-Unit1 (2)
34 pages
DS Mod 1 To 2 Complete Notes
No ratings yet
DS Mod 1 To 2 Complete Notes
63 pages
Unit - 1
No ratings yet
Unit - 1
25 pages
Class 9 (Chap #4)
No ratings yet
Class 9 (Chap #4)
9 pages
Session1-DataCharacteristics
No ratings yet
Session1-DataCharacteristics
41 pages
Unit-1 Data Science
No ratings yet
Unit-1 Data Science
74 pages
FDS notes
No ratings yet
FDS notes
5 pages
Unit 1 - DATA ANALYTICS - KIT-601 - AKTU
No ratings yet
Unit 1 - DATA ANALYTICS - KIT-601 - AKTU
24 pages
Ds unit 1 notes
No ratings yet
Ds unit 1 notes
23 pages
MSE-merged
No ratings yet
MSE-merged
78 pages
Chapter No.4 Exercise Solution (Computer)
No ratings yet
Chapter No.4 Exercise Solution (Computer)
8 pages
Cs3352 Foundation of Data Science
No ratings yet
Cs3352 Foundation of Data Science
80 pages
Notes Unit I
No ratings yet
Notes Unit I
47 pages
DS_UNIT I
No ratings yet
DS_UNIT I
3 pages
DS Lecture 15
No ratings yet
DS Lecture 15
44 pages
MLM FDS
No ratings yet
MLM FDS
19 pages
Module 2 PPT
No ratings yet
Module 2 PPT
78 pages
DataScience Week3
No ratings yet
DataScience Week3
2 pages
Ass 2
No ratings yet
Ass 2
6 pages
Unit 1 Data Mining
No ratings yet
Unit 1 Data Mining
15 pages
Data Science Unit-1 Notes
No ratings yet
Data Science Unit-1 Notes
19 pages
4_Unit 2 - Lecture 1 Types of DataSet-L1
No ratings yet
4_Unit 2 - Lecture 1 Types of DataSet-L1
17 pages
Data Science Is A Multidisciplinary Field That Uses Scientific Methods
No ratings yet
Data Science Is A Multidisciplinary Field That Uses Scientific Methods
2 pages
Data Science
No ratings yet
Data Science
5 pages
Orientation To Computing
No ratings yet
Orientation To Computing
67 pages
Module1 Data Science
No ratings yet
Module1 Data Science
15 pages
Research Assignment 02burhan Ul Din
No ratings yet
Research Assignment 02burhan Ul Din
8 pages
What Is Data Warehouse
No ratings yet
What Is Data Warehouse
9 pages
Data Science
No ratings yet
Data Science
7 pages
All About Data Science
No ratings yet
All About Data Science
35 pages
FDS-Unit II-ECE
No ratings yet
FDS-Unit II-ECE
22 pages
DA (1)
No ratings yet
DA (1)
86 pages
Unit-1 IDS
No ratings yet
Unit-1 IDS
26 pages
Data Analytics 1
No ratings yet
Data Analytics 1
4 pages
2 Data Analytics
No ratings yet
2 Data Analytics
49 pages
Fods MQP Solutions - 025136
No ratings yet
Fods MQP Solutions - 025136
76 pages
fundamentals_of_Datascience1
No ratings yet
fundamentals_of_Datascience1
83 pages
Fundamentals of Datascience
No ratings yet
Fundamentals of Datascience
80 pages
UNIT 1 Exploratory Data Analysis
No ratings yet
UNIT 1 Exploratory Data Analysis
21 pages
Data Analytics
No ratings yet
Data Analytics
4 pages
Data Science PDF
No ratings yet
Data Science PDF
11 pages
Revision (1)
No ratings yet
Revision (1)
19 pages
DA Merge Notes(30!09!24)
No ratings yet
DA Merge Notes(30!09!24)
348 pages
Introduction To Datasciecne
No ratings yet
Introduction To Datasciecne
50 pages
1 Introduction To Data Science
No ratings yet
1 Introduction To Data Science
14 pages
Chapter 1
No ratings yet
Chapter 1
47 pages
CCS105 Data Analytics Class
No ratings yet
CCS105 Data Analytics Class
5 pages
Kenny-230718-Top 60+ Data Analyst Interview Questions and Answers For 2023
No ratings yet
Kenny-230718-Top 60+ Data Analyst Interview Questions and Answers For 2023
39 pages
Data Science Management_vss
No ratings yet
Data Science Management_vss
84 pages
Assignment Solution
No ratings yet
Assignment Solution
27 pages
DS PPT Aman
No ratings yet
DS PPT Aman
9 pages
DSBDA_UNIT1
No ratings yet
DSBDA_UNIT1
232 pages
Datasciencevictoryy
No ratings yet
Datasciencevictoryy
16 pages
02 Introduction_Fall 23-24
No ratings yet
02 Introduction_Fall 23-24
29 pages
full and correct notes for FDS-6th bca
No ratings yet
full and correct notes for FDS-6th bca
83 pages
6001_DATASCIENCE WITH BIGDATA
No ratings yet
6001_DATASCIENCE WITH BIGDATA
34 pages
AIDS C04-Session-19
No ratings yet
AIDS C04-Session-19
29 pages
Session 1819
No ratings yet
Session 1819
47 pages
"Big Data Science" Basic Concepts and Applications
From Everand
"Big Data Science" Basic Concepts and Applications
Sukanta Bhattacharya
No ratings yet
Using_Array_Creation_Routines
No ratings yet
Using_Array_Creation_Routines
9 pages
Using_the_numpy.array_Function
No ratings yet
Using_the_numpy.array_Function
4 pages
Random_Data_Generation_with_NumPy
No ratings yet
Random_Data_Generation_with_NumPy
3 pages
Scientific_Computing
No ratings yet
Scientific_Computing
3 pages
NumPy_Array_Operations_and_Functions
No ratings yet
NumPy_Array_Operations_and_Functions
14 pages
Python_Arrays
No ratings yet
Python_Arrays
9 pages
NumPy_Array_Attributes
No ratings yet
NumPy_Array_Attributes
4 pages
How_to_Create_Numpy_Arrays
No ratings yet
How_to_Create_Numpy_Arrays
15 pages
NumPy_and_NumPy_Arrays
No ratings yet
NumPy_and_NumPy_Arrays
5 pages
How To Create A Bootable Pendrive Using CMD (MBR + GPT)
No ratings yet
How To Create A Bootable Pendrive Using CMD (MBR + GPT)
20 pages
Visa Procesing System PowerPoint Templates
No ratings yet
Visa Procesing System PowerPoint Templates
8 pages
Worldwide Enterprise Digital Assistant (Eda) : Specification Sheet
No ratings yet
Worldwide Enterprise Digital Assistant (Eda) : Specification Sheet
4 pages
4 Series Solutions
No ratings yet
4 Series Solutions
72 pages
Lec 7,8 Modern CMOS Technology
No ratings yet
Lec 7,8 Modern CMOS Technology
43 pages
Sritharan's Resume
No ratings yet
Sritharan's Resume
1 page
Ge3251 - Unit 1 - (Eg) - PN
No ratings yet
Ge3251 - Unit 1 - (Eg) - PN
10 pages
Electric Field Hockey Sim Homework
100% (1)
Electric Field Hockey Sim Homework
7 pages
Lift and Shift To MariaDB SkySQL
No ratings yet
Lift and Shift To MariaDB SkySQL
17 pages
Python Revision Tour-1
No ratings yet
Python Revision Tour-1
18 pages
Drager Patient Monitor PM8060 User Manual
No ratings yet
Drager Patient Monitor PM8060 User Manual
104 pages
Unisphere Product Guide by EMC
No ratings yet
Unisphere Product Guide by EMC
528 pages
AA Incedo Business Pro Device Configuration Processes v2.2 ENG
No ratings yet
AA Incedo Business Pro Device Configuration Processes v2.2 ENG
145 pages
Greedy Algorithm
No ratings yet
Greedy Algorithm
28 pages
Pe Perioada: 01-06-2023 - 30-06-2023 EXTRAS DE CONT Nr. 5 Din Data: 20-01-2024
No ratings yet
Pe Perioada: 01-06-2023 - 30-06-2023 EXTRAS DE CONT Nr. 5 Din Data: 20-01-2024
7 pages
Tutorial 3 Basic - Beam Elements
No ratings yet
Tutorial 3 Basic - Beam Elements
13 pages
X415JA_4_2_60NB0SR0_MB6210_X515JAB_MB_4G_I5_1035G1_AS_R4_2_DMIC
No ratings yet
X415JA_4_2_60NB0SR0_MB6210_X515JAB_MB_4G_I5_1035G1_AS_R4_2_DMIC
11 pages
Rfa 11f Relocation of Fcu
No ratings yet
Rfa 11f Relocation of Fcu
4 pages
Arithmetic B
No ratings yet
Arithmetic B
21 pages
Research Analysis PDF
No ratings yet
Research Analysis PDF
51 pages
X20+ User Guide
No ratings yet
X20+ User Guide
24 pages
009-2014-009 APAC Best Practice Installation Manual Issue 1.1
No ratings yet
009-2014-009 APAC Best Practice Installation Manual Issue 1.1
85 pages
Cuadro de Notas Octavo B Carmenta
No ratings yet
Cuadro de Notas Octavo B Carmenta
2 pages
Lecture 01 Oop210
No ratings yet
Lecture 01 Oop210
14 pages
Sensor Hotel Solutions
No ratings yet
Sensor Hotel Solutions
26 pages
Class X Worksheet Real Numbers, Polynomials & Pair of Linear Equations With Two Variables.
100% (1)
Class X Worksheet Real Numbers, Polynomials & Pair of Linear Equations With Two Variables.
3 pages
Verilog® Quickstart
No ratings yet
Verilog® Quickstart
347 pages
Unit Iii Database Management System
No ratings yet
Unit Iii Database Management System
20 pages
8048 MC
No ratings yet
8048 MC
4 pages

What_is_Data_Science

Uploaded by

What_is_Data_Science

Uploaded by

What is Data Science?