Coding Final Study Guide Notes

Uploaded by

antadiiagne

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views

Coding Final Study Guide Notes

Uploaded by

antadiiagne

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Lecture 5: Stats & Probability Lecture 7: Hypothesis Testing

Population vs Sample Central Limit Theorem

population: all possible values that could’ve been collected Distro of sample mean as sample size increases → approaches normal
sample: each singular data point actually collected Small N: sampling distro resembles original pop distro
rand num gen: pop= range of values that could’ve been, Moderate N (8): distro smooths, clusters toward true pop.mean (bell)
sample =values gen Large N >30: distro approaches normal
Calculate Stats & Discuss their Meaning Distro of raw data → approaches original pop distro
if np.mean & np.median = similar → distribution is not skewed Drawing Random Samples
np.std(name, ddof=1): measurements +/- std away from mean
range: np.max() - np.min() if large relative to mean → outliers
scipystats.mode: helpful if data = discrete values, unhelpful if
data= decimaled Manipulating Random Sample
scipystats.skew: negative means tail to left, positive =tail to right Np.random.rand(N): draws from uniform distro with default interval [0, 1]
scipystats.kurtosis(name, fisher=False): 3 = normal, <3 = flatter 0.5 * np.random.rand(N): multiply by decimal make interval smaller [0, 0.5]
(platykurtic), >3 =peaked (leptokurtic) 6.0 + np.random.rand(N): add a number shifts interval [6, 7]
Plotting Histogram w/ Correct Bins Calculate Bounds for 99% Confidence Interval:

Occurrence Probability for Theoretical Distros:

Prob that sample from norm distro w/mean 6.5 will be > than
5.5:

Performing Hypothesis Test for 2 : comparing 2 slices within dataset

Sampling Distribution, Sample Size & Number of Samples:

Population distr: total set of measurements
Sample distr of sample mean: distr of means collected from
diff samples
Number of Samples = # sets of data → increasing will make
distro converge at normal, no effect on mean
Sample size = # of measurements w/in each set → increasing
will make sample distro narrower & decrease uncertainty of
mean SEM = sigma/sqrt(n)
Practice Problems:
select data along specific coordinate values →sel()
timeseries = temp.mean(dim=('lon','lat'))
Best way to select data at specific lon & lat:
ds.temperature.sel(lat=34.05, lon=-118.25, method="nearest")
plot time-averaged spatial heatmap using temp variable from ds:
ds.temperature.mean(dim="time").plot()
“The t-stat x > the crit value y at a 90% significance level. At this sig level,
ds = xr.open_dataset(“path”) we reject the null hypothesis that noon mean pH is similar or < in the
morning and adopt the alt hypo that pH > in the afternoon”
Lecture 6: Time Series Analysis Lecture 7: Hypothesis Testing Continued
Fitting Polynomial Functions to Data: SubPlot Sample Distr of Sample Mean @ Sample Sizes:

Overfitting: model too complex & captures noise → poor generalization
to new data.
Underfitting: model too simple & fails to capture true pattern

Linear Interpolation:

easy to implement & no extreme oscillations, use on sparse data points
Spline Interpolation:

Lecture 8: Multi-Dimensional Data Analysis

Same as linear, add cubic argument to 3rd code line
Use when data has natural continuous variation & need smooth curve

Global Fit & Applied to a Value:

Extrapolation:
interp.interp1d(x, y, bounds_error=False, fille_value=”extrapolate”
How Polynomial Functions Fit Data to Curves: (LSR)
1 specify function form (polynomial, exponential, constant)
2 guess initial values for constants in function
3 define squared error residual metric quantifying mismatch between
observed data & current function values
4 use algorithm to change coefficient values to minimize error metric→
finds least-square solution best fitting data
Quality of Functional Fit Quality:
improves when quantity of data points increases or noise decreases
Higher order fits have extreme oscillations between data points, even if
data seems perfectly matched by a higher order fit → default is to
choose SIMPLEST fit matching data → less prone to high frequency
oscillations Using Xarray.plot(), .contour, etc.
Calculate Correlation Coefficient between Datasets:

always linear relationship, >0.7 strong, 0.3-0.7 moderate, <0.3 weak
2 independent datasets can still have strong correlation, indicating they
are impacted by a common 3rd variable
Other
Ddof: If pop std → Ddof = 1/n, if sample std → Ddof = 1/(n-1)
-matrices in format (#rows, #columns)
Calculating Degrees of Freedom
For confidence interval→ dof = n-1
For 2-sample t-test→ dof =n1+n2−2

Data Science Cheatsheet
100% (1)
Data Science Cheatsheet
5 pages
Arterial Line Arterial Line
100% (1)
Arterial Line Arterial Line
13 pages
Data Science Algorithmen Master - 02 Data Handling
No ratings yet
Data Science Algorithmen Master - 02 Data Handling
76 pages
Lecture_6_Python
No ratings yet
Lecture_6_Python
38 pages
Probability and Statistics Course
No ratings yet
Probability and Statistics Course
5 pages
Sampling and Standard Error
No ratings yet
Sampling and Standard Error
33 pages
Lecture 2 - Statistical Inference - EDA and DS Process - 02032023 111156am 1 - 1 27022024 012412pm
No ratings yet
Lecture 2 - Statistical Inference - EDA and DS Process - 02032023 111156am 1 - 1 27022024 012412pm
44 pages
CS-3361-Data-science-lab Manual
No ratings yet
CS-3361-Data-science-lab Manual
36 pages
Fitting Data - SciPy Cookbook Documentation PDF
No ratings yet
Fitting Data - SciPy Cookbook Documentation PDF
10 pages
Solution
No ratings yet
Solution
148 pages
MACHINE LEARNING LAB WORD 12-1-2025. DOCUMENT
No ratings yet
MACHINE LEARNING LAB WORD 12-1-2025. DOCUMENT
68 pages
DA Manual - Part B
No ratings yet
DA Manual - Part B
13 pages
Static Tics
No ratings yet
Static Tics
47 pages
Data Analysis
No ratings yet
Data Analysis
8 pages
TYCS Practical
No ratings yet
TYCS Practical
26 pages
Workshop 5: PDF Sampling and Statistics: Preview: Generating Random Numbers
No ratings yet
Workshop 5: PDF Sampling and Statistics: Preview: Generating Random Numbers
10 pages
Lecture 4 - Data Wrangling
No ratings yet
Lecture 4 - Data Wrangling
41 pages
Statistical Methods For Data Science
100% (2)
Statistical Methods For Data Science
406 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Data Science Manual
No ratings yet
Data Science Manual
16 pages
UNIT 1,2
No ratings yet
UNIT 1,2
17 pages
PML Ex3
No ratings yet
PML Ex3
20 pages
Data science and analtics Laboratory
No ratings yet
Data science and analtics Laboratory
21 pages
UnivariateRegression Summary
No ratings yet
UnivariateRegression Summary
36 pages
Stat 509 Notes
100% (1)
Stat 509 Notes
195 pages
ML(sudhanshu)
No ratings yet
ML(sudhanshu)
24 pages
Confidence interval and credintial interval
No ratings yet
Confidence interval and credintial interval
15 pages
Data Science Cheatsheet 2.0: Statistics Model Evaluation Logistic Regression
No ratings yet
Data Science Cheatsheet 2.0: Statistics Model Evaluation Logistic Regression
4 pages
Random Variable
No ratings yet
Random Variable
10 pages
DS Lab Manual Lovesh 1
No ratings yet
DS Lab Manual Lovesh 1
15 pages
DAV Assign6
No ratings yet
DAV Assign6
8 pages
dsa
No ratings yet
dsa
26 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
اسايمنت
No ratings yet
اسايمنت
28 pages
ML LAB Mannual - Index
No ratings yet
ML LAB Mannual - Index
29 pages
Lab Manual (DAV)
No ratings yet
Lab Manual (DAV)
33 pages
EDA Document
No ratings yet
EDA Document
13 pages
DVA Lab Manual
No ratings yet
DVA Lab Manual
20 pages
Data Sci HW1
No ratings yet
Data Sci HW1
8 pages
DS Chapter - 2
No ratings yet
DS Chapter - 2
73 pages
178 hw 9
No ratings yet
178 hw 9
153 pages
d950dff6-fa1c-4553-b486-6e3656de899a
No ratings yet
d950dff6-fa1c-4553-b486-6e3656de899a
6 pages
AD3411-DATA SCIENCE AND ANALYTICS LABORATORY
No ratings yet
AD3411-DATA SCIENCE AND ANALYTICS LABORATORY
27 pages
Maths 1
No ratings yet
Maths 1
31 pages
Data Science
No ratings yet
Data Science
15 pages
CS194 Lec 06 EDA
No ratings yet
CS194 Lec 06 EDA
40 pages
Teks DATA SCIENCE Syllabus - QR
No ratings yet
Teks DATA SCIENCE Syllabus - QR
26 pages
ML Lab Manual
No ratings yet
ML Lab Manual
28 pages
Python Programs
No ratings yet
Python Programs
7 pages
data science practicals
No ratings yet
data science practicals
47 pages
S 15 Notes
No ratings yet
S 15 Notes
216 pages
4.5-Bootstrap_Variations
No ratings yet
4.5-Bootstrap_Variations
25 pages
Lecture 10
No ratings yet
Lecture 10
19 pages
Bishop Solutions PDF
No ratings yet
Bishop Solutions PDF
87 pages
Lect10 2d Plotting & Curve Fitting
No ratings yet
Lect10 2d Plotting & Curve Fitting
19 pages
Maxima by Example
No ratings yet
Maxima by Example
66 pages
Applied Robust Statistics-David Olive
No ratings yet
Applied Robust Statistics-David Olive
588 pages
AI Syllabus Course
No ratings yet
AI Syllabus Course
16 pages
QB For ADS
No ratings yet
QB For ADS
12 pages
PythonForMachineLearning
No ratings yet
PythonForMachineLearning
66 pages
Random Sample Consensus: Robust Estimation in Computer Vision
From Everand
Random Sample Consensus: Robust Estimation in Computer Vision
Fouad Sabry
No ratings yet
UPPP+146+PS3
No ratings yet
UPPP+146+PS3
8 pages
Econ Midterm
No ratings yet
Econ Midterm
4 pages
Spillers-+Mamas+Baby+Papas+Maybe
No ratings yet
Spillers-+Mamas+Baby+Papas+Maybe
19 pages
pnv4-murillo-22untimely-dispatch-2422
No ratings yet
pnv4-murillo-22untimely-dispatch-2422
9 pages
policy
No ratings yet
policy
6 pages
Las Cookery10
No ratings yet
Las Cookery10
4 pages
Kids Spelling Website
No ratings yet
Kids Spelling Website
5 pages
ETM Retrofit
No ratings yet
ETM Retrofit
10 pages
Indirect Lesson Plan
No ratings yet
Indirect Lesson Plan
8 pages
Sulphur Removal Unit
No ratings yet
Sulphur Removal Unit
73 pages
Assignment Meeting 7 (Rachel Gracia A021231082)
No ratings yet
Assignment Meeting 7 (Rachel Gracia A021231082)
5 pages
Mitsubishi Pga 300
No ratings yet
Mitsubishi Pga 300
7 pages
Quarter 1 Module 6 FOLK DANCE ETIQUETTE
No ratings yet
Quarter 1 Module 6 FOLK DANCE ETIQUETTE
12 pages
WL Excercies 3&4
50% (2)
WL Excercies 3&4
12 pages
Lalitha Sahasranam (Meaning)
No ratings yet
Lalitha Sahasranam (Meaning)
25 pages
Les Images Satellitaires Utilisation en Cartographie Géologique Exploration Minière (Guyane, Côte-d'Ivoire)
No ratings yet
Les Images Satellitaires Utilisation en Cartographie Géologique Exploration Minière (Guyane, Côte-d'Ivoire)
5 pages
Sunfar E550 Inverter Manual
No ratings yet
Sunfar E550 Inverter Manual
3 pages
Toddle 3eea88cf 80db 46f1 84b2 816035455156 Forces and Momentum
No ratings yet
Toddle 3eea88cf 80db 46f1 84b2 816035455156 Forces and Momentum
26 pages
Ac 2 Business Plan
No ratings yet
Ac 2 Business Plan
4 pages
IR-700 Series DataSheet
No ratings yet
IR-700 Series DataSheet
3 pages
Grand - Tests For Neet Ug Examination
No ratings yet
Grand - Tests For Neet Ug Examination
27 pages
R3-2 125KHz DataSheet 10 09
No ratings yet
R3-2 125KHz DataSheet 10 09
12 pages
Kinematics 2d Lec1
No ratings yet
Kinematics 2d Lec1
34 pages
Project Snowblind - Manual - PS2
No ratings yet
Project Snowblind - Manual - PS2
15 pages
2 Ingles, Week 19, 20, 21 Project 3
No ratings yet
2 Ingles, Week 19, 20, 21 Project 3
4 pages
Malayan Colleges Mindanao Chemical Engineering Curriculm
No ratings yet
Malayan Colleges Mindanao Chemical Engineering Curriculm
1 page
Manual: Auto Transfer Controller
100% (1)
Manual: Auto Transfer Controller
32 pages
Ducting Measurement Sheet: Blue Star LTD Kalyan Silks
No ratings yet
Ducting Measurement Sheet: Blue Star LTD Kalyan Silks
7 pages
Full Length Article: Sciencedirect
No ratings yet
Full Length Article: Sciencedirect
15 pages
List of Branches UIDAI PDF
No ratings yet
List of Branches UIDAI PDF
59 pages
The River’s Promise
No ratings yet
The River’s Promise
2 pages
Ad Ii
No ratings yet
Ad Ii
8 pages
The Men We Carry in Our Minds Essay
100% (2)
The Men We Carry in Our Minds Essay
5 pages

Coding Final Study Guide Notes

Uploaded by

Coding Final Study Guide Notes

Uploaded by

Lecture 5: Stats & Probability Lecture 7: Hypothesis Testing

Population vs Sample Central Limit Theorem

Occurrence Probability for Theoretical Distros:

Sampling Distribution, Sample Size & Number of Samples:​

Global Fit & Applied to a Value:​

You might also like

Sampling Distribution, Sample Size & Number of Samples:

Global Fit & Applied to a Value: