0% found this document useful (0 votes)

4 views

01_DS and Env Setup

Data Science is a multidisciplinary field that utilizes statistics, programming, machine learning, and data visualization to extract insights from data. High-Performance Computing (HPC) is essential for data science as it enables faster processing, scalability, and parallel processing of large datasets. Tools like Anaconda, Jupyter Notebook, Google Colab, and Kaggle facilitate data science workflows by providing environments for coding, collaboration, and access to computational resources.

Uploaded by

ankushsonawane36

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views

01_DS and Env Setup

Uploaded by

ankushsonawane36

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 17

Data Science and

Environment Setup
What is Data Science ?
Data Science is a broad field that combines
different areas:
Definition :
Statistics: Collecting, analyzing, and
Data Science is a field that uses scientific
interpreting data.
methods, algorithms, and systems to extract
knowledge and insights from data. In simpler Programming: Using code (like Python) to
words, it’s about making sense of large process data.
amounts of data to find useful information and
make better decisions. Machine Learning: Making computers learn
from data to predict or make decisions.

Data Visualization: Presenting data visually in

charts or graphs.
Why is Data Science Important ?
Data is Everywhere

The world generates massive amounts of data daily – from social media, hospitals, online stores, and
more.

Importance of Data Science:

Data Science helps:

● Businesses understand customer behavior (e.g., product popularity).

● Healthcare professionals predict diseases or recommend treatments.
● Technology companies improve products (e.g., recommendation systems on Netflix, YouTube).
Why is HPC Needed for Data Science?
Definition :

High-Performance Computing (HPC) refers to the use of supercomputers and parallel processing
to handle complex computations and large-scale data processing tasks quickly.

Why Data Science Needs HPC

Speed: HPC enables faster processing of large datasets, reducing analysis time from hours or
days to minutes.

Scalability: HPC systems can handle data and computation growth, accommodating the
increasing size and complexity of data in fields like genomics, climate modeling, and AI.

Parallel Processing: HPC allows multiple tasks to run simultaneously, which is essential for
training complex models, such as those in deep learning.
What is Anaconda ?
Anaconda includes several essential tools:

Overview : Isolated Environments

Anaconda allows users to create isolated
Anaconda is a popular open-source distribution environments for each project to prevent version
of Python and R, tailored for scientific conflicts.
computing and data science. It simplifies
package management and deployment, making Simple Package Management
it easier to work with various data science With Conda, packages can be installed and
libraries and tools. managed with a single command, which saves
time and reduces errors.

Interactive Coding & Visualization

For More Details and Installation Guide Tools like Jupyter Notebook enable users to
Check : notebook1_setting_up.ipynb code interactively and visualize data in real-time.
What is Jupyter Notebook ?
Overview : Key Features of Jupyter Notebook
Code Execution :
Jupyter Notebook is an interactive, web-based
Run code snippets in multiple languages, including
tool that enables users to write and execute Python, R, and Julia.
code in a flexible, user-friendly environment. It
Markdown Support :
is widely used for data analysis, machine
Write formatted text, such as headings, lists, and
learning, and scientific computing. Jupyter links, directly in the notebook.
Notebook allows users to combine code,
Visualizations :
visualizations, and text in a single document,
Generate graphs and charts to visualize data within
making it easy to share and present work. the notebook.

Interactive Widgets :
For More Details and Installation Guide Add elements like sliders and buttons to create more
Check : notebook1_setting_up.ipynb interactive notebooks for an enhanced user
experience.
What is Google Colab?
Key Features of Google Colab :
Overview :
Free GPU and TPU Access:
Google Colab (Collaboratory) is a free Jupyter Offers free GPU (e.g., NVIDIA K80, T4) and TPU
resources to speed up model training and
notebook environment offered by Google. It
computational tasks.
enables users to write and execute Python code
directly in their browsers and provides access to Pre-installed Libraries :
Google’s cloud-based GPUs and TPUs for Includes popular libraries like TensorFlow, PyTorch,
enhanced computing power. Built on Jupyter NumPy, and Pandas to make setup easier.
notebooks, Colab integrates well with Google
Seamless Cloud Integration :
Drive, making file management and sharing Provides direct access to Google Drive for managing
simple. datasets and saving outputs.

For More Details and Setup Guide Check : Collaborative Functionality :

Allows multiple users to work on the same notebook in
notebook2_setting_up_online.ipynb
real-time, similar to Google Docs.
What is Kaggle ?
Key Features of Kaggle and Kaggle Workspaces
Overview:
Data and Competitions:
● Kaggle is a well-known platform that hosts Access a vast array of datasets and participate in machine
data science competitions, offers various learning competitions, providing hands-on experience with
datasets, and fosters a community of data real-world data.

enthusiasts. GPU and TPU Access:

● Kaggle Workspaces (formerly known as Free GPU and TPU resources are available (subject to
Kaggle Kernels) provide cloud-based usage limits) to speed up model training and other
computations.
Jupyter notebooks or scripts where users
can analyze data and build models. These Community and Collaboration:
workspaces come pre-configured for data Kaggle’s platform allows users to share notebooks, comment
science with both Python and R on each other’s work, and connect with a global community
of data scientists.
environments, including essential libraries.
For More Details and Setup Guide Check : Integration with Kaggle Datasets:
notebook2_setting_up_online.ipynb Directly load and analyze datasets hosted on Kaggle without
additional setup, streamlining the workflow.
Data Collection and
Management
Introduction to Data
Why Data Matters :
Definition :
Informed Decisions :
Data refers to raw facts, figures, and details
Data enables organizations and individuals to
collected from different sources. It can include
make data-driven choices, reducing reliance on
numbers, text, images, audio, or videos. Data is
intuition or guesswork.
used to make informed decisions, identify
patterns, and generate insights. Problem-Solving :
Data helps identify problems and find solutions
through trends and pattern analysis.

Automation :
Data is essential for training AI and machine
learning algorithms to automate processes.

Prediction and Forecasting :

Data is crucial for predicting future trends, such as
stock prices, weather, or consumer behavior.
Different Types of Data
Introduction to Data Ethics and Privacy

Definition: Importance:
Data ethics involves the principles and ● Trust : Ethical data practices build user trust.
obligations that guide the ethical collection, ● Compliance : Adherence to privacy laws (e.g.,
storage, and use of data, prioritizing individual GDPR, CCPA).
rights. ● Responsibility : Protecting data to prevent
misuse.

Key Considerations in Data Ethics :

● Consent : Obtain explicit permission for data
use.
● Transparency : Clearly communicate data use,
storage, and sharing practices.
● Data Minimization : Limit data collection to
essential information.
● Security : Implement strong security protocols.
Understanding Data Sources

Definition : Origins from which data is gathered,

including internal and external sources.

Types of Data Sources :

Primary Data : Directly collected through

surveys, interviews, experiments.

Secondary Data : Sourced from existing

publications, databases, and research.

Tertiary Data : Aggregated from multiple

sources.
Data Collection Techniques

.Techniques:

● Surveys and Questionnaires : Structured forms

for gathering insights.
● Interviews : In-depth conversations for detailed
insights.
● Observations : Monitoring behavior in natural
settings.
● Experiments : Controlled tests for quantitative
data.
● Web Scraping : Automated data extraction from
websites.
● APIs : Access data from other applications or
services.
Data Storage and Management Tools

Types of Tools:

Database Management Systems (DBMS):

MySQL, PostgreSQL.

Data Warehousing: Amazon Redshift, Google

BigQuery , Supercomputer Data-Store.

Cloud Storage: Amazon S3, Google Cloud

Storage.

Data Lakes: Apache Hadoop, Azure Data Lake.

Data Governance: Collibra, Informatica.

Data and HPC
Advanced Data Preprocessing :
High-Performance Data Storage and Access:
Speed and Performance: Supercomputers
● Supercomputers handle massive datasets preprocess large datasets quickly, enabling fast data
at high speeds, enabling real-time data cleaning and feature extraction.
collection from sources like IoT devices and
sensors. Handling High-Dimensional Data : Supercomputers
● handle high-dimensional datasets like images, videos,
Supercomputers feature large-scale
and genomics without performance degradation.
storage systems capable of managing
petabytes of data. Parallel Processing : Parallel processing enables
● Advanced file systems (like Lustre or simultaneous execution of multiple preprocessing
GPFS) enable simultaneous data reading tasks.
and writing by multiple processes,
Complex Algorithms:Supercomputers execute
improving accessibility and reducing
sophisticated algorithms, including dimensionality
latency. reduction (e.g., PCA, t-SNE).

Mastering Python For Data Science With Numpy & Pandas
100% (2)
Mastering Python For Data Science With Numpy & Pandas
136 pages
Ocs353dsf Unit Wise Notes
100% (2)
Ocs353dsf Unit Wise Notes
121 pages
Trackpad Pro Ver. 5.0 Class 8
From Everand
Trackpad Pro Ver. 5.0 Class 8
Nidhi Arora
No ratings yet
Informatica Power Center 9
100% (1)
Informatica Power Center 9
166 pages
205 Oracle To Postgres Migration
100% (1)
205 Oracle To Postgres Migration
58 pages
TY FDS Workbook
No ratings yet
TY FDS Workbook
56 pages
Data Science Tools
No ratings yet
Data Science Tools
8 pages
DataAnalytic-03 - Data Analytics Implementation
No ratings yet
DataAnalytic-03 - Data Analytics Implementation
37 pages
Lecture 2 Data Science For Beginners
No ratings yet
Lecture 2 Data Science For Beginners
11 pages
Unit 1
No ratings yet
Unit 1
21 pages
DT-1. Familiarization With AIML Platforms
No ratings yet
DT-1. Familiarization With AIML Platforms
25 pages
Introduction-It Skills
No ratings yet
Introduction-It Skills
20 pages
1
No ratings yet
1
32 pages
Slidesgo Unlocking Insights A Professional Introduction To Data Science With Python 20241125160150D6YR
No ratings yet
Slidesgo Unlocking Insights A Professional Introduction To Data Science With Python 20241125160150D6YR
14 pages
03-Jupyter Markdown Python
No ratings yet
03-Jupyter Markdown Python
28 pages
3.1.1
No ratings yet
3.1.1
7 pages
Lab Course - II (Foundations of Data Science)
No ratings yet
Lab Course - II (Foundations of Data Science)
59 pages
Essential Tools For Data Science: A Comprehensive Overview Essential Tools For Data Science: A Comprehensive Overview
No ratings yet
Essential Tools For Data Science: A Comprehensive Overview Essential Tools For Data Science: A Comprehensive Overview
8 pages
Datascience Tools
No ratings yet
Datascience Tools
6 pages
PYTHON DATA ANALYTICS: Mastering Python for Effective Data Analysis and Visualization (2024 Beginner Guide)
From Everand
PYTHON DATA ANALYTICS: Mastering Python for Effective Data Analysis and Visualization (2024 Beginner Guide)
FLOYD BAX
No ratings yet
Lesson1 Introduction To The Data Science Process and The Value of Learning Data Science
No ratings yet
Lesson1 Introduction To The Data Science Process and The Value of Learning Data Science
6 pages
Python For Data Science
No ratings yet
Python For Data Science
17 pages
Let's Start With Data Science
No ratings yet
Let's Start With Data Science
5 pages
DSOST1
No ratings yet
DSOST1
91 pages
Advanced Data Analytics Using Python - Unit II
No ratings yet
Advanced Data Analytics Using Python - Unit II
57 pages
Data Science Presentation Enhanced (1)
No ratings yet
Data Science Presentation Enhanced (1)
34 pages
6th Sem Cse Data Science Analytics SM o
No ratings yet
6th Sem Cse Data Science Analytics SM o
40 pages
Data Ty
No ratings yet
Data Ty
59 pages
Lec 1 Introduction to Python
No ratings yet
Lec 1 Introduction to Python
26 pages
A Review On Data Science Technologies
No ratings yet
A Review On Data Science Technologies
3 pages
Python For Data Science and Machine Learning
100% (2)
Python For Data Science and Machine Learning
31 pages
Lecture_5_2_Skills Required by Data Scientist
No ratings yet
Lecture_5_2_Skills Required by Data Scientist
11 pages
Tools For Data Science
No ratings yet
Tools For Data Science
5 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
255 pages
What Is Data Science by IBM
No ratings yet
What Is Data Science by IBM
9 pages
Python For Data Analysis
No ratings yet
Python For Data Analysis
49 pages
Data Science
No ratings yet
Data Science
244 pages
01-Introduction To Data Science
No ratings yet
01-Introduction To Data Science
3 pages
DAV Notes
No ratings yet
DAV Notes
266 pages
Data Science Presentation Final
No ratings yet
Data Science Presentation Final
34 pages
DSC Unit 1
No ratings yet
DSC Unit 1
59 pages
Data Science Modern Technology5
No ratings yet
Data Science Modern Technology5
6 pages
1. Databases for Data Science-SQL
No ratings yet
1. Databases for Data Science-SQL
55 pages
Data Science With Python - Lesson 01 - Data Science Overview
100% (5)
Data Science With Python - Lesson 01 - Data Science Overview
35 pages
Getting Started With Python
No ratings yet
Getting Started With Python
8 pages
Data Science Syllabus From Beginner to Advanced
No ratings yet
Data Science Syllabus From Beginner to Advanced
7 pages
Course 2
No ratings yet
Course 2
9 pages
Lect1
No ratings yet
Lect1
25 pages
Unit2 PDS
No ratings yet
Unit2 PDS
17 pages
Lesson 02 2.01 Introduction To Data Science
No ratings yet
Lesson 02 2.01 Introduction To Data Science
31 pages
IDS UNIT 1,2,3,4 & 5
No ratings yet
IDS UNIT 1,2,3,4 & 5
117 pages
Chapter One Data Science
No ratings yet
Chapter One Data Science
4 pages
DOC-20250105-WA0007.
No ratings yet
DOC-20250105-WA0007.
8 pages
Eguide of Cloud Data Engineering
No ratings yet
Eguide of Cloud Data Engineering
23 pages
Data Science - Data
No ratings yet
Data Science - Data
10 pages
Python For Data Science .
100% (1)
Python For Data Science .
112 pages
Unit 2 Data Science
No ratings yet
Unit 2 Data Science
53 pages
Data Science Unit I
No ratings yet
Data Science Unit I
13 pages
Python For Data Science
No ratings yet
Python For Data Science
20 pages
Sustainability and Climate Resilience: Trends and Innovations
From Everand
Sustainability and Climate Resilience: Trends and Innovations
Mimi Okougbo
No ratings yet
Touchpad Modular Ver. 1.1 Class 8
From Everand
Touchpad Modular Ver. 1.1 Class 8
Team Orange
No ratings yet
Getting Started with Greenplum for Big Data Analytics
From Everand
Getting Started with Greenplum for Big Data Analytics
Sunila Gollapudi
No ratings yet
Module in Practical Research 1 Standard Format
No ratings yet
Module in Practical Research 1 Standard Format
104 pages
Multiple Choice Questions: Data Resource Management
No ratings yet
Multiple Choice Questions: Data Resource Management
78 pages
Com - Amepro.pdv
No ratings yet
Com - Amepro.pdv
13 pages
2.1 Slides PDF
No ratings yet
2.1 Slides PDF
144 pages
Lecture 3
No ratings yet
Lecture 3
25 pages
Role of Generative Artificial Intelligent in Indian Banking Sector: Challenges & Opportunities
No ratings yet
Role of Generative Artificial Intelligent in Indian Banking Sector: Challenges & Opportunities
4 pages
Instrumentation and Measurements BE-56 A&B Fall 2020: Instructor: LT Dr. Col Humayun Zubair Khan
No ratings yet
Instrumentation and Measurements BE-56 A&B Fall 2020: Instructor: LT Dr. Col Humayun Zubair Khan
35 pages
English Reviewer
No ratings yet
English Reviewer
5 pages
Digital Solutions 2019 v1.2
No ratings yet
Digital Solutions 2019 v1.2
12 pages
17149934281714555260UMKDQ4-15-M 23jan - TSC Assessment Brief
No ratings yet
17149934281714555260UMKDQ4-15-M 23jan - TSC Assessment Brief
12 pages
Software Design Description (SDD Report) Template
No ratings yet
Software Design Description (SDD Report) Template
6 pages
55 Google Sheets Interview Questions To Ask Candidates With Answers 1726054403307msn
No ratings yet
55 Google Sheets Interview Questions To Ask Candidates With Answers 1726054403307msn
1 page
Unit 5 1 Cache Performance V 2
No ratings yet
Unit 5 1 Cache Performance V 2
29 pages
Access OCTOBER 2021
No ratings yet
Access OCTOBER 2021
224 pages
Salman's Resume Cognizant
No ratings yet
Salman's Resume Cognizant
1 page
A2 Biology Coursework Conclusion
100% (2)
A2 Biology Coursework Conclusion
7 pages
ERStudioDA 9.7 QuickStart en
No ratings yet
ERStudioDA 9.7 QuickStart en
63 pages
Computer Systems Servicing
No ratings yet
Computer Systems Servicing
9 pages
syllabus 3 sem
No ratings yet
syllabus 3 sem
9 pages
Translation of Indonesian Proverbs Into English
No ratings yet
Translation of Indonesian Proverbs Into English
13 pages
Immediate download Applications of Artificial Intelligence Techniques in the Petroleum Industry 1st Edition Abdolhossein Hemmati Sarapardeh ebooks 2024
100% (3)
Immediate download Applications of Artificial Intelligence Techniques in the Petroleum Industry 1st Edition Abdolhossein Hemmati Sarapardeh ebooks 2024
50 pages
Trapping LLM "Hallucinations" Using Tagged Context Prompts: Philip Feldman, James R. Foulds, and Shimei Pan
No ratings yet
Trapping LLM "Hallucinations" Using Tagged Context Prompts: Philip Feldman, James R. Foulds, and Shimei Pan
14 pages
Activities 15 % of EXAM: Material For PRPC Certification
No ratings yet
Activities 15 % of EXAM: Material For PRPC Certification
36 pages
Data Mining-Unit 3-Part1
No ratings yet
Data Mining-Unit 3-Part1
41 pages
Day 28 Master Spark Concept
No ratings yet
Day 28 Master Spark Concept
5 pages
Cat247 Asterix Version Number Exchange Part 20
No ratings yet
Cat247 Asterix Version Number Exchange Part 20
19 pages
2007 - 05 PDI Lean Six Sigma
No ratings yet
2007 - 05 PDI Lean Six Sigma
14 pages
Metropolitan Area Networks
No ratings yet
Metropolitan Area Networks
6 pages

01_DS and Env Setup

Uploaded by

01_DS and Env Setup

Uploaded by

Data Science and

Data Visualization: Presenting data visually in

Importance of Data Science:

● Businesses understand customer behavior (e.g., product popularity).

Why Data Science Needs HPC

Overview : Isolated Environments

Interactive Coding & Visualization

For More Details and Setup Guide Check : Collaborative Functionality :

enthusiasts. GPU and TPU Access:

Prediction and Forecasting :

Key Considerations in Data Ethics :

Definition : Origins from which data is gathered,

Types of Data Sources :

Primary Data : Directly collected through

Secondary Data : Sourced from existing

Tertiary Data : Aggregated from multiple

● Surveys and Questionnaires : Structured forms

Database Management Systems (DBMS):

Data Warehousing: Amazon Redshift, Google

Cloud Storage: Amazon S3, Google Cloud

Data Lakes: Apache Hadoop, Azure Data Lake.

Data Governance: Collibra, Informatica.

You might also like