Final Notes

The document outlines key concepts in statistics, including various visualization techniques such as scatter plots and histograms, as well as probability rules like multiplication and addition. It covers hypothesis testing, A/B testing, bootstrapping, and regression analysis, detailing methods for calculating means, confidence intervals, and regression coefficients. Additionally, it introduces k-NN classification and Bayes Theorem, emphasizing their applications in statistical analysis.

Uploaded by

milindisbeast

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views3 pages

Final Notes

Uploaded by

milindisbeast

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Pre-Midterm

Visualizations
- Scatter plot – Relation between two values, useful for visualizing associations
- Line plot – Also two values, used for chronological or sequential data
- Bar chart – Categorical data, bar width is same, categories on y axis
- Histogram – visualize distribution of numerical values [lower bound, upper bound)

Chance
- Multiplication rule: two events happen together (think and)
- Addition rule: event happens in multiple ways (think or)
- Complement rule: (atleast one) of something
- Probability of all outcomes = 1, so P(every other event) = 1 - P(one event)

Hypothesis testing
- Simulate under null hypothesis
- Test stats such as TVD, abs diff

A/B Testing
- 2 groups, usually comparing means
- Test stat is
- Shuffling labels is simulation

Bootstrapping
- 95% CI means in a 10000 bootstrap stample, 95% of the time your sampled interval will
contain the true mean
- Cutting off the two ends (2.75 97.5) ignores most extreme values
- (100-p)% is when you have a p-value cutoff, otherwise given
- To get an interval do percentile(lower_bound, variable),(higher_bound, variable)

Post-Midterm
Center and Spread
- Mean: np.mean(array), Media: percentile(50,array)
- Also mean: np.sqrt(np.mean((array - np.mean(array)) ** 2))
1
- Chebyshev’s bound: 1 − 2
𝑘

Sample means and CLT (central limit theorem)

- CLT says most sample means is centered at population mean
- Does not work with max
- 95% confidence interval is (sample mean - nSD, sample mean + nSD)
- Width > SD times (population SD/sqrt(sample size))
𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 𝑆𝐷
- SD of sample means =
𝑠𝑎𝑚𝑝𝑙𝑒 𝑠𝑖𝑧𝑒
Regression
- -1 < r < 1 shows slope relation
- Residuals shows error (actual - predicted)
- RMSE – np.sqrt(np.mean((actual - predicted) ** 2))
- Correlation coefficient – r = np.mean(Xsu * Ysu)
- Regression line formula
- Predicted y = slope * x + intercept
𝑛𝑝.𝑠𝑡𝑑(𝑦)
- 𝑆𝑙𝑜𝑝𝑒 = 𝑟 × 𝑛𝑝.𝑠𝑡𝑑(𝑥)
- Intercept = np.mean(y) - slope * np.mean(x)
k-NN Classification
- k-Neareast Neighbors
- np.sqrt(np.sum((feats_1 - feats_2)**2)), distance between new points and training
set points
2 2
(𝑥1 − 𝑥2) + (𝑦1 − 𝑦2)
- k-NN regression
- Use euclidean formula first, then average the differences
𝑁𝑒𝑖𝑔ℎ𝑏𝑜𝑟 1 + 𝑁𝑒𝑖𝑔ℎ𝑏𝑜𝑟 2
𝑘
- Multiple linear regression
𝑦 = 𝑚1×𝑥1 + 𝑚2×𝑥2 + 𝑏

Bayes Theorem
- P(A & B happen) = P(A happens) * P(B happens given A happens), same for B & A
- Theorem says
𝑃(𝐴 & 𝐵) 𝑃(𝐴 𝐻𝑎𝑝𝑝𝑒𝑛𝑠) × 𝑃(𝐵 ℎ𝑎𝑝𝑝𝑒𝑛𝑠 𝑔𝑖𝑣𝑒𝑛 𝐴 ℎ𝑎𝑝𝑝𝑒𝑛𝑠)
- 𝑃(𝐴|𝐵) = 𝑃(𝐵)
= 𝑃(𝐵)

Repetition P-value - np.count_nonzero(test_stats >= ovserved_ts) -

cool_stats = make_array() len(test_stats)
for i in np.arange(n):
stat = make_statistic() Bootstrapping
cool_stats = np.append(cool_stats, stats) def bootstrap(tbl):
statistic = make_array()
TVD: sum(abs(array1 - array2)) / 2 for i in np.arange(n)
boostrap_tbl = tbl.sample()
Hypothesis testing statistic = np.mean(boostrap_tbl.column(0)
def simulate(num_simulations): statistics = np.append(statistics, statistic)
test_stats = make_array() return statistics
for i in np.arange(num_simulations):
one_test_stat = calculate_statistics() Regression prediction
test_stats = np.append(test_stats, one_test_stat) x_su = (x_value - np.mean(x_array)) / np.std(array)
return test_stats y_su_pred = r * x_su
y_pred = y_su_pred * np.std(y_array) + np.mean(y_array)

Statistics Consulting Overview
100% (1)
Statistics Consulting Overview
44 pages
Logistic Regression Overview
No ratings yet
Logistic Regression Overview
4 pages
Statistics Cheatsheet 1703847367
No ratings yet
Statistics Cheatsheet 1703847367
8 pages
4 12
No ratings yet
4 12
17 pages
Stats Lab (7-9)
No ratings yet
Stats Lab (7-9)
8 pages
Statistical Methods II
No ratings yet
Statistical Methods II
284 pages
Akritas Probability & Statistics With R For Engineers and Scientists
No ratings yet
Akritas Probability & Statistics With R For Engineers and Scientists
256 pages
Lecture Notes Statistics
100% (2)
Lecture Notes Statistics
117 pages
Machine Learning Algorithms Are Generally Categorized Into Three Main Types
No ratings yet
Machine Learning Algorithms Are Generally Categorized Into Three Main Types
7 pages
UnivariateRegression Summary
No ratings yet
UnivariateRegression Summary
36 pages
Introduction to Statistics at DTU
No ratings yet
Introduction to Statistics at DTU
422 pages
BAN5
No ratings yet
BAN5
2 pages
DVA Lab Manual
No ratings yet
DVA Lab Manual
20 pages
Data Science Course Syllabus
No ratings yet
Data Science Course Syllabus
13 pages
Data Science Distributions & Models
50% (2)
Data Science Distributions & Models
5 pages
Data Science Cheatsheet
No ratings yet
Data Science Cheatsheet
4 pages
R Console
No ratings yet
R Console
6 pages
Fha-Pyhton Program Unit 1-4
No ratings yet
Fha-Pyhton Program Unit 1-4
13 pages
Module - 5
No ratings yet
Module - 5
81 pages
Machine Learning Programs
No ratings yet
Machine Learning Programs
10 pages
Oral Aswers Dsbda
No ratings yet
Oral Aswers Dsbda
7 pages
Applied Robust Statistics Overview
No ratings yet
Applied Robust Statistics Overview
532 pages
Applied Robust Statistics
No ratings yet
Applied Robust Statistics
532 pages
Applied Robust Statistics-David Olive
No ratings yet
Applied Robust Statistics-David Olive
588 pages
Quantitative Research Methods For Political Science, Public Policy and Public Administration, With Applications in R
No ratings yet
Quantitative Research Methods For Political Science, Public Policy and Public Administration, With Applications in R
259 pages
Intro To Probability and Statistics
No ratings yet
Intro To Probability and Statistics
147 pages
Data Sci HW1
No ratings yet
Data Sci HW1
8 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
9 pages
Advanced Statistical Analysis Guide
No ratings yet
Advanced Statistical Analysis Guide
194 pages
178 HW 9
No ratings yet
178 HW 9
153 pages
Statistics Practice Guide
No ratings yet
Statistics Practice Guide
8 pages
Reg Book Stat
No ratings yet
Reg Book Stat
79 pages
PRML Exercise Solutions Guide
No ratings yet
PRML Exercise Solutions Guide
87 pages
Statistics Notes Based On Pattern Recognition and Machine Learning (PRML)
No ratings yet
Statistics Notes Based On Pattern Recognition and Machine Learning (PRML)
5 pages
Bootstrap Student Presentation
100% (1)
Bootstrap Student Presentation
36 pages
Complete Data Science Questions
No ratings yet
Complete Data Science Questions
5 pages
1.descriptive Statistics and Probability Distributions:: Datascience Course Content
No ratings yet
1.descriptive Statistics and Probability Distributions:: Datascience Course Content
10 pages
Cheatsheet
No ratings yet
Cheatsheet
4 pages
Statistical Methods For Data Science
100% (2)
Statistical Methods For Data Science
406 pages
Ad3411-Data Science and Analytics Laboratory
No ratings yet
Ad3411-Data Science and Analytics Laboratory
27 pages
Basicof Stats
No ratings yet
Basicof Stats
7 pages
CC02 Group6 Report
No ratings yet
CC02 Group6 Report
36 pages
4 - Basics in Statistics and Linear Algebra
No ratings yet
4 - Basics in Statistics and Linear Algebra
7 pages
AP Statistics Michel Liao
No ratings yet
AP Statistics Michel Liao
20 pages
Statlearn PDF
No ratings yet
Statlearn PDF
123 pages
Pattern Summary Final
No ratings yet
Pattern Summary Final
28 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
0975 Data Science and Machine Learning
No ratings yet
0975 Data Science and Machine Learning
6 pages
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
32 pages
R Programming Practical Exercises
No ratings yet
R Programming Practical Exercises
13 pages
Computer Intensive Methods in Statistics
No ratings yet
Computer Intensive Methods in Statistics
227 pages
Group 05
No ratings yet
Group 05
16 pages
Tor Final Evaluation Beyond Chocolate 2025
No ratings yet
Tor Final Evaluation Beyond Chocolate 2025
18 pages
Analysis of Interaction Among The Barriers To Total Quality Management Implementation Using Interpretive Structural Modeling Approach
No ratings yet
Analysis of Interaction Among The Barriers To Total Quality Management Implementation Using Interpretive Structural Modeling Approach
25 pages
STEM Research Problem Identification
No ratings yet
STEM Research Problem Identification
11 pages
Objects in Motion Principles of Classical Mechanics Secrets of The Universe 1st Edition, 1st Printing Edition Paul Fleisher Instant Download
No ratings yet
Objects in Motion Principles of Classical Mechanics Secrets of The Universe 1st Edition, 1st Printing Edition Paul Fleisher Instant Download
77 pages
Unit 1 - Part 1 & Part 2 - Great Leaning - Research Methodology - Revised Sep 24
No ratings yet
Unit 1 - Part 1 & Part 2 - Great Leaning - Research Methodology - Revised Sep 24
120 pages
Eco-Control Merupakan Bagian Dari Akuntansi Manajemen Lingkungan Dan Salah Satu Aplikasi
No ratings yet
Eco-Control Merupakan Bagian Dari Akuntansi Manajemen Lingkungan Dan Salah Satu Aplikasi
2 pages
Chapter 2
100% (1)
Chapter 2
8 pages
Learning Experiences in The Culinary Classroom
No ratings yet
Learning Experiences in The Culinary Classroom
12 pages
Modeling Difficulties in Creating Conceptual Data
No ratings yet
Modeling Difficulties in Creating Conceptual Data
27 pages
Notes On Thoughts
No ratings yet
Notes On Thoughts
7 pages
Why Are Many Businesses Instilling A Devops Culture Into Their Organization?
No ratings yet
Why Are Many Businesses Instilling A Devops Culture Into Their Organization?
50 pages
Practical Research 2 Chapter 1 3 Quantitative Research
No ratings yet
Practical Research 2 Chapter 1 3 Quantitative Research
33 pages
Navy and Broken White Geometric Thesis Defense Presentation
No ratings yet
Navy and Broken White Geometric Thesis Defense Presentation
15 pages
Marketing Research Insights
No ratings yet
Marketing Research Insights
3 pages
Unit-2
No ratings yet
Unit-2
27 pages
Implications of Social Support Exchanges On The Social Well-Being of Older Persons in Kitui County, Kenya
No ratings yet
Implications of Social Support Exchanges On The Social Well-Being of Older Persons in Kitui County, Kenya
226 pages
Ebook (EPUB) Nursing Research 11e Denise Polit, Cheryl Beck
17% (6)
Ebook (EPUB) Nursing Research 11e Denise Polit, Cheryl Beck
19 pages
eProceedings-iMarC 2022
No ratings yet
eProceedings-iMarC 2022
222 pages
BUDGET OF WORK-Research Project
No ratings yet
BUDGET OF WORK-Research Project
3 pages
9239 Teacher Guide (For Examination From 2023) - 1
No ratings yet
9239 Teacher Guide (For Examination From 2023) - 1
81 pages
Carlisle - The Analysis of 168 Randomised Controlled Trials To Test Data Integrity
No ratings yet
Carlisle - The Analysis of 168 Randomised Controlled Trials To Test Data Integrity
17 pages
Design Science Methodology: Principles and Practice: Roel Wieringa
100% (1)
Design Science Methodology: Principles and Practice: Roel Wieringa
2 pages
Final BH Defense Saturday
No ratings yet
Final BH Defense Saturday
89 pages
Dalya Hamid - MKT
No ratings yet
Dalya Hamid - MKT
22 pages
Monitoring For Health Hazards at Work 5th Edition John Cherrie Instant Download
100% (1)
Monitoring For Health Hazards at Work 5th Edition John Cherrie Instant Download
149 pages
Q2 - Mod2 - Data-Collection-Presentation-and-Analysis - Co Version 2
100% (1)
Q2 - Mod2 - Data-Collection-Presentation-and-Analysis - Co Version 2
57 pages
E 185
No ratings yet
E 185
18 pages
Calculate The Standard Deviation and Variance From The Following Data
No ratings yet
Calculate The Standard Deviation and Variance From The Following Data
24 pages
Writing Report Discussion
No ratings yet
Writing Report Discussion
20 pages

Final Notes

Uploaded by

Final Notes

Uploaded by

Pre-Midterm

Sample means and CLT (central limit theorem)

Repetition P-value - np.count_nonzero(test_stats >= ovserved_ts) -

You might also like