0% found this document useful (0 votes)

16 views8 pages

Sem 4.1

The document details a data analysis process using the 'mtcars' dataset, focusing on calculating various statistics such as mean, median, and range for the 'mpg' and 'hp' columns. It employs techniques like jackknife resampling and bootstrapping to estimate standard errors and confidence intervals. Additionally, it includes visualizations of bootstrap sample means to illustrate the distribution of these estimates.

Uploaded by

Catherine Shendre

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOC, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views8 pages

Sem 4.1

Uploaded by

Catherine Shendre

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOC, PDF, TXT or read online on Scribd

You are on page 1/ 8

import pandas as pd

import numpy as np

data=pd.read_csv("C:/Users/LENOVO/Downloads/mtcars.csv")
data.head()

import statistics
mean=statistics.mean(data.mpg)
print(mean)

OUTPUT: 20.090625

data['jackknife_mean_mpg']=np.nan
for i in range (len(data)):
data_minus_one=data.drop(index=i)
mean_value_minus_one=data_minus_one['mpg'].mean()
data.at[i,'jackknife_mean_mpg']=mean_value_minus_one
print(data.at[i,'jackknife_mean_mpg'])

20.06129032258064 20.26451612903226
20.06129032258064 19.693548387096776
20.00322580645161 19.758064516129032
20.048387096774192 19.64516129032258
20.135483870967743 20.045161290322575
20.154838709677417 20.23870967741935
20.277419354838706 20.24838709677419
19.951612903225808 20.309677419354834
20.00322580645161 20.119354838709675
20.119354838709675 19.85806451612903
20.164516129032254 19.899999999999995
20.20967741935484 19.75806451612903
20.180645161290318 20.229032258064514
20.248387096774195 20.103225806451608

import scipy.stats as stats

n=32
standard_error=np.std(data['mpg']/np.sqrt(n))
jackknife_mean_mpg=np.mean(data['jackknife_mean_mpg'])
jackknife_standard_error=np.sqrt(((n-1)/n)*np.sum((data['jackknife_mean_mpg']
-jackknife_mean_mpg)**2))
t_value=stats.t.ppf(0.975,df=n-1)
confidence_interval=[np.mean(data['mpg'])+factor*t_value*standard_error for
factor in[-1,1]]
print(standard_error)
print(jackknife_mean_mpg)
print(jackknife_standard_error)
print(t_value)
print(confidence_interval)

OUTPUT:

1.0486445806577978
20.090624999999996
1.0654239593728139
2.0395134463964077
[17.951900277257703, 22.229349722742302]

import statistics
mean=statistics.mean(data.hp)
print(mean)

OUTPUT: 146.6875

data['jackknife_mean_hp']=np.nan
for i in range (len(data)):
data_pseudo=data.drop(index=i)
mean_value_pseudo=data_pseudo['hp'].mean()
data.at[i,'jackknife_mean_hp']=mean_value_pseudo
print(data.at[i,'jackknife_mean_hp'])

147.8709677419355 149.41935483870967
147.8709677419355 148.3548387096774
148.41935483870967 147.4516129032258
147.8709677419355 147.4516129032258
145.7741935483871 145.61290322580646
148.03225806451613 145.61290322580646
143.51612903225808

import scipy.stats as stats

n=32
standard_error=np.std(data['hp']/np.sqrt(n))
jackknife_mean_hp=np.mean(data['jackknife_mean_hp'])
jackknife_standard_error=np.sqrt(((n-1)/n)*np.sum((data['jackknife_mean_hp']-
jackknife_mean_hp)**2))
t_value=stats.t.ppf(0.975,df=n-1)
confidence_interval=[np.mean(data['hp'])+factor*t_value*standard_error for
factor in[-1,1]]
print(standard_error)
print(jackknife_mean_hp)
print(jackknife_standard_error)
print(t_value)
print(confidence_interval)

OUTPUT:
11.929434243382522
146.6875
12.120317311599985
2.0395134463964077
[122.35725845271959, 171.01774154728042]

MEDIAN
import statistics
median=statistics.median(data.mpg)
print(median)

OUTPUT: 19.2

data['jackknife_mean_mpg']=np.nan
for i in range (len(data)):
data_minus_one=data.drop(index=i)
median_value_minus_one=data_minus_one['mpg'].median()
data.at[i,'jackknife_mean_mpg']=median_value_minus_one
print(data.at[i,'jackknife_mean_mpg'])

19.2 19.2
19.2 19.2
19.2 19.2
19.2 19.2
19.2 19.2
19.2 19.2
19.2
19.2 19.2
19.2 19.2
19.2 19.2
19.2 19.2
19.2
19.2
19.2

import scipy.stats as stats

n=32
standard_error=np.std(data['mpg']/np.sqrt(n))
jackknife_median_mpg=np.median(data['jackknife_mean_mpg'])
jackknife_standard_error=np.sqrt(((n-1)/n)*np.sum((data['jackknife_mean_mpg']
-jackknife_mean_mpg)**2))
t_value=stats.t.ppf(0.975,df=n-1)
confidence_interval=[np.median(data['mpg'])+factor*t_value*standard_error for
factor in[-1,1]]
print(standard_error)
print(jackknife_median_mpg)
print(jackknife_standard_error)
print(t_value)
print(confidence_interval)

1.0486445806577978
19.2
4.958790135645469
2.0395134463964077
[17.0612752772577, 21.3387247227423]

import statistics
mean=statistics.median(data.hp)
print(median)

OUTPUT: 19.2

data['jackknife_mean_hp']=np.nan
for i in range (len(data)):
data_pseudo=data.drop(index=i)
median_value_pseudo=data_pseudo['hp'].median()
data.at[i,'jackknife_mean_hp']=median_value_pseudo
print(data.at[i,'jackknife_mean_hp'])

123.0 123.0
123.0 123.0
123.0 123.0
123.0 123.0
123.0 123.0
123.0 123.0
123.0 123.0
123.0 123.0
123.0 123.0
123.0 123.0
123.0 123.0
123.0 123.0
123.0 123.0
123.0

import scipy.stats as stats

n=32
standard_error=np.std(data['hp']/np.sqrt(n))
jackknife_median_hp=np.median(data['jackknife_mean_hp'])
jackknife_standard_error=np.sqrt(((n-1)/n)*np.sum((data['jackknife_mean_hp']-
jackknife_mean_hp)**2))
t_value=stats.t.ppf(0.975,df=n-1)
confidence_interval=[np.median(data['hp'])+factor*t_value*standard_error for
factor in[-1,1]]
print(standard_error)
print(jackknife_median_hp)
print(jackknife_standard_error)
print(t_value)
print(confidence_interval)

11.929434243382522
123.0
131.88641834453614
2.0395134463964077
[98.66975845271959, 147.33024154728042]
jackknife_median_hp=np.mean(data['jackknife_mean_hp'])
print(jackknife_median_hp)

OUTPUT: 123.0

RANGE
max=data['mpg'].max()
min=data['mpg'].min()
print(f"Maximum MPG: {max}")
print(f"Minimum MPG: {min}")

OUTPUT:
Maximum MPG: 33.9
Minimum MPG: 10.4
range_mpg=max-min
print(range_mpg)

OUTPUT:23.5

data['jackknife_range_mpg']=np.nan
for i in range (len(data)):
data_minus_one=data.drop(index=i)
max_value_minus_one=data_minus_one['mpg'].max()
min_value_minus_one=data_minus_one['mpg'].min()
range_value_minus_one=max_value_minus_one-min_value_minus_one
data.at[i,'jackknife_range_mpg']=range_value_minus_one
print(data.at[i,'jackknife_range_mpg'])

23.5 23.5
23.5 22.0
23.5 23.5
23.5 23.5
23.5 23.5
23.5 23.5
23.5 23.5
23.5 23.5
23.5 23.5
23.5 23.5
23.5 23.5
23.5 23.5
23.5 23.5
23.5
23.5

import scipy.stats as stats

n=32
standard_error=np.std(data['mpg']/np.sqrt(n))
jackknife_range_mpg=np.mean(data['jackknife_range_mpg'])
jackknife_standard_error1=np.sqrt(((n-1)/n)*np.sum((data['jackknife_range_mpg
']-jackknife_range_mpg)**2))
t_value1=stats.t.ppf(0.975,df=n-1)
confidence_interval1=[np.median(data['mpg'])+factor*t_value*standard_error
for factor in[-1,1]]
print(standard_error)
print(jackknife_range_mpg)
print(jackknife_standard_error1)
print(t_value1)
print(confidence_interval1)

OUTPUT:

1.0486445806577978
23.453125
1.453125
2.0395134463964077
[17.0612752772577, 21.3387247227423]
BOOTSTRAPPING
import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.formula.api import glm

data=pd.read_csv("C:/Users/LENOVO/Downloads/mtcars.csv")
data.head()

model mpg cyl disp hp drat wt qsec vs am gear

\
0 Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4

1 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4

2 Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4

3 Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3

4 Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3

carb
0 4
1 4
2 1
3 1
4 2

sample_size=len(data)
data_bootstrap_sample=data['hp'].sample(n=sample_size, replace=True)
print("Samples:", data_bootstrap_sample)
sample_mean=data_bootstrap_sample.mean()
print(sample_mean)

Samples: 2 93 8 95
1 110 17 66
31 109 31 109
30 335 5 105
15 215 8 95
4 175 5 105
21 150 28 264
8 95 26 91
25 66 8 95
12 180 16 230
22 150 11 180
18 52 15 215
4 175 22 150
10 123 25 66
9 123 10 123
20 97
10 123

Name: hp, dtype: int64

136.25

def create_bootstrap_samples(sample_size=len(data), n_sample=1000):

sample_means=[]
for i in range(n_sample):
data_bootstrap_sample=data['hp'].sample(n=sample_size, replace=True)
sample_mean=data_bootstrap_sample.mean()
sample_means.append(sample_mean)
return pd.Series(sample_means)

sample_means=create_bootstrap_samples()
sample_means.plot(kind='hist', bins=20, title='Distribution of bootstrap
sample means')
<Axes: title={'center': 'Distribution of bootstrap sample means'},
ylabel='Frequency'>

ci_lower=sample_means.quantile(q=0.025)
ci_upper=sample_means.quantile(q=0.975)
print(ci_lower)
print(ci_upper)

124.084375
171.44453124999998

import matplotlib.pyplot as plt

sample_means.plot(kind='hist', bins=20, title='confidence interval of the

sample means')
plt.axvline(ci_lower,color='green', ls='--')
plt.axvline(ci_upper, color='red', ls='--')
# for disp
sample_size=len(data)
data_bootstrap_sample=data['disp'].sample(n=sample_size, replace=True)
print("Samples:", data_bootstrap_sample)
sample_mean=data_bootstrap_sample.mean()
print(sample_mean)

Samples: 4 360.0 20 120.1

24 400.0 22 304.0
9 167.6 19 71.1
3 258.0 19 71.1
26 120.3 13 275.8
5 225.0 24 400.0
20 120.1 13 275.8
31 121.0 12 275.8
30 301.0 19 71.1
21 318.0 16 440.0
18 75.7 28 351.0
5 225.0 26 120.3
25 79.0 18 75.

def create_bootstrap_samples(sample_size=len(data), n_sample=1000):

sample_means=[]
for i in range(n_sample):
data_bootstrap_sample=data['disp'].sample(n=sample_size,
replace=True)
sample_mean=data_bootstrap_sample.mean()
sample_means.append(sample_mean)
return pd.Series(sample_means)
sample_means=create_bootstrap_samples()
sample_means.plot(kind='hist', bins=20, title='Distribution of bootstrap
sample means')
ci_lower=sample_means.quantile(q=0.025)
ci_upper=sample_means.quantile(q=0.975)
print(ci_lower)
print(ci_upper)
sample_means.plot(kind='hist', bins=20, title='confidence interval of the
sample means')
plt.axvline(ci_lower,color='yellow', ls='--')
plt.axvline(ci_upper, color='blue', ls='--')

Dav Week8 240953580
No ratings yet
Dav Week8 240953580
15 pages
R Lab Ex 1 To 5
No ratings yet
R Lab Ex 1 To 5
26 pages
Big Data Analytics Practical Guide
No ratings yet
Big Data Analytics Practical Guide
41 pages
Download mtcars Dataset CSV
No ratings yet
Download mtcars Dataset CSV
4 pages
Mtcars - Ipynb - Colab
No ratings yet
Mtcars - Ipynb - Colab
2 pages
'Horsepower' "?" 'Horsepower' 'Horsepower' 'Horsepower' 'Horsepower' 'Horsepower'
No ratings yet
'Horsepower' "?" 'Horsepower' 'Horsepower' 'Horsepower' 'Horsepower' 'Horsepower'
5 pages
Introduction to Base R Programming
No ratings yet
Introduction to Base R Programming
10 pages
R
No ratings yet
R
3 pages
DataFrames: Handling Missing Values & Visualization
No ratings yet
DataFrames: Handling Missing Values & Visualization
12 pages
Dal Programs With Output
No ratings yet
Dal Programs With Output
11 pages
Ex. No.: 01 Working With Numpy Arrays
No ratings yet
Ex. No.: 01 Working With Numpy Arrays
30 pages
DA Exp6 HTML
No ratings yet
DA Exp6 HTML
9 pages
ML Foram
No ratings yet
ML Foram
17 pages
Data Science Lab
No ratings yet
Data Science Lab
28 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
22 pages
DVA Lab Manual
No ratings yet
DVA Lab Manual
20 pages
Data Science Practical With Solutions BSC Cs Sem 6
No ratings yet
Data Science Practical With Solutions BSC Cs Sem 6
29 pages
Data Analysis for Auto Enthusiasts
No ratings yet
Data Analysis for Auto Enthusiasts
8 pages
Solutions Modernstatistics
No ratings yet
Solutions Modernstatistics
140 pages
Python Codes
No ratings yet
Python Codes
17 pages
Statisitics Project 3
No ratings yet
Statisitics Project 3
22 pages
Assignment 2 Output 229010
No ratings yet
Assignment 2 Output 229010
17 pages
6.lab Activity
No ratings yet
6.lab Activity
23 pages
Engo 645
No ratings yet
Engo 645
9 pages
Introduction To Python (Part III)
No ratings yet
Introduction To Python (Part III)
29 pages
Import As Import As
No ratings yet
Import As Import As
18 pages
Notes 1
No ratings yet
Notes 1
21 pages
SVM Guide for Data Science Enthusiasts
100% (1)
SVM Guide for Data Science Enthusiasts
28 pages
Assignment CSE-520
No ratings yet
Assignment CSE-520
29 pages
DSBDA1
No ratings yet
DSBDA1
5 pages
Numpy & Pandas
No ratings yet
Numpy & Pandas
3 pages
4 12
No ratings yet
4 12
17 pages
Machine Learning
No ratings yet
Machine Learning
27 pages
R Analysis of mtcars Dataset
No ratings yet
R Analysis of mtcars Dataset
4 pages
02 KDEplot
No ratings yet
02 KDEplot
30 pages
Descriptive Statistics
No ratings yet
Descriptive Statistics
2 pages
Data Visualization with Jupyter: Mtcars Analysis
No ratings yet
Data Visualization with Jupyter: Mtcars Analysis
20 pages
Miles Per Gallon
No ratings yet
Miles Per Gallon
11 pages
Data Analysis and NaN Handling Programs
No ratings yet
Data Analysis and NaN Handling Programs
38 pages
Practice Questions On Central Tendency On Mtcars
No ratings yet
Practice Questions On Central Tendency On Mtcars
3 pages
Statisitics Project 7
No ratings yet
Statisitics Project 7
22 pages
ML Updated File
No ratings yet
ML Updated File
36 pages
Principles of AI Laboratory Varshadr
No ratings yet
Principles of AI Laboratory Varshadr
54 pages
Pandas 2
No ratings yet
Pandas 2
18 pages
R Scripts for Data Analysis Techniques
No ratings yet
R Scripts for Data Analysis Techniques
3 pages
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
32 pages
Expt2.ipynb - Colaboratory
No ratings yet
Expt2.ipynb - Colaboratory
2 pages
Machine Learning
No ratings yet
Machine Learning
3 pages
PML Ex3
No ratings yet
PML Ex3
20 pages
DS3 1
No ratings yet
DS3 1
8 pages
Machine Learning Lab Word 12-1-2025. Document
No ratings yet
Machine Learning Lab Word 12-1-2025. Document
68 pages
R Studio
No ratings yet
R Studio
5 pages
23bet10114 Naman Gupta Assignment-1
No ratings yet
23bet10114 Naman Gupta Assignment-1
17 pages
Stats Lab (4-6)
No ratings yet
Stats Lab (4-6)
7 pages
Python Code for Central Tendency
No ratings yet
Python Code for Central Tendency
28 pages
Week2 Submission Assignment Solution AshaA-3
No ratings yet
Week2 Submission Assignment Solution AshaA-3
2 pages
R Data Analysis with mtcars Dataset
No ratings yet
R Data Analysis with mtcars Dataset
11 pages
Exp 5 Exploratory Data Analysis SDK Ok
No ratings yet
Exp 5 Exploratory Data Analysis SDK Ok
13 pages
R Program
No ratings yet
R Program
2 pages
TK/KW/15 - 6235 Third Semester Master of Science (M. SC.) Examination
No ratings yet
TK/KW/15 - 6235 Third Semester Master of Science (M. SC.) Examination
3 pages
Unit 3
No ratings yet
Unit 3
13 pages
Revised OGs UFS 2017-22
No ratings yet
Revised OGs UFS 2017-22
9 pages
Master of Science (M.SC.) Third Semester (Statistics) (CBCS) Examination Decision Theory and Non Parametric Methods Compulsory Paper-1 Paper-I
No ratings yet
Master of Science (M.SC.) Third Semester (Statistics) (CBCS) Examination Decision Theory and Non Parametric Methods Compulsory Paper-1 Paper-I
12 pages
Survey Methodology and Estimation Procedure
No ratings yet
Survey Methodology and Estimation Procedure
13 pages
Import As Import As From Import From Import From Import From Import
No ratings yet
Import As Import As From Import From Import From Import From Import
4 pages
Soda Sales
No ratings yet
Soda Sales
2 pages
Principal Component Analysis: #Question 1
No ratings yet
Principal Component Analysis: #Question 1
6 pages
Understanding Z-Scores for Students
No ratings yet
Understanding Z-Scores for Students
2 pages
Random Forest
No ratings yet
Random Forest
5 pages
Graphic Designer Job PAN India
No ratings yet
Graphic Designer Job PAN India
2 pages
Stata Plus
No ratings yet
Stata Plus
61 pages
Computer Age Statistical Inference Ebook
100% (1)
Computer Age Statistical Inference Ebook
67 pages
Monte Carlo Simulations Explained
No ratings yet
Monte Carlo Simulations Explained
31 pages
Studi Kasus: Identifikasi Komponen Penciri Akreditasi Sekolah/Madrasah Pada Tingkat SD/MI Di Provinsi Kalimantan Timur Tahun 2015
No ratings yet
Studi Kasus: Identifikasi Komponen Penciri Akreditasi Sekolah/Madrasah Pada Tingkat SD/MI Di Provinsi Kalimantan Timur Tahun 2015
8 pages
Soguero-Ruiz Et Al (2020) - Finding Associations Among Chronic Conditions by Bootstrap and Multiple Correspondence Analysis
No ratings yet
Soguero-Ruiz Et Al (2020) - Finding Associations Among Chronic Conditions by Bootstrap and Multiple Correspondence Analysis
8 pages
Official: 1034 Analysis of Biological Assays
No ratings yet
Official: 1034 Analysis of Biological Assays
17 pages
Model Validation Techniques
No ratings yet
Model Validation Techniques
8 pages
Supply Chain Simulation
100% (1)
Supply Chain Simulation
8 pages
Path Analysis vs. SEM in Marketing Research
No ratings yet
Path Analysis vs. SEM in Marketing Research
11 pages
DSAI Part I Updatated Syllabus
No ratings yet
DSAI Part I Updatated Syllabus
40 pages
Incanter Cheat Sheet
No ratings yet
Incanter Cheat Sheet
1 page
Lavaan: Latent Variable Modeling in R
No ratings yet
Lavaan: Latent Variable Modeling in R
104 pages
Split Half Reliability Method Examples
No ratings yet
Split Half Reliability Method Examples
4 pages
R in Action Third Edition Robert I Kabacoff Full Chapters Instanly
100% (1)
R in Action Third Edition Robert I Kabacoff Full Chapters Instanly
134 pages
Reliability Data Statistical Methods
No ratings yet
Reliability Data Statistical Methods
8 pages
Prediction of Gold Price Movement Using
No ratings yet
Prediction of Gold Price Movement Using
12 pages
Resampling Methods: Cross Validation & Bootstrapping
No ratings yet
Resampling Methods: Cross Validation & Bootstrapping
11 pages
Regression Analysis Willey Publication
20% (5)
Regression Analysis Willey Publication
15 pages
Body Image: Jasmine Fardouly, Lenny R. Vartanian
No ratings yet
Body Image: Jasmine Fardouly, Lenny R. Vartanian
7 pages
Artificial Int Syllabus Sem V Mumbai University
No ratings yet
Artificial Int Syllabus Sem V Mumbai University
39 pages
Autoregressive Neural Network
No ratings yet
Autoregressive Neural Network
56 pages
Statistical Foundations, Reasoning and Inference: For Science and Data Science (Springer Series in Statistics) Göran Kauermann
100% (4)
Statistical Foundations, Reasoning and Inference: For Science and Data Science (Springer Series in Statistics) Göran Kauermann
69 pages
Claims Triangle - R: Submitted by Ishan Bandyopadhyay
No ratings yet
Claims Triangle - R: Submitted by Ishan Bandyopadhyay
23 pages
Alaskan Stream Oxygen Levels Study
No ratings yet
Alaskan Stream Oxygen Levels Study
51 pages
Datebase 2
No ratings yet
Datebase 2
11 pages
Transactive Memory Systems Team Innovation
No ratings yet
Transactive Memory Systems Team Innovation
12 pages
Statistics in Archaeology Guide
No ratings yet
Statistics in Archaeology Guide
12 pages
Business Statistics 1st Edition Donnelly Test Bank 1
100% (97)
Business Statistics 1st Edition Donnelly Test Bank 1
44 pages
Markov Chain Monte Carlo Algorithms For
No ratings yet
Markov Chain Monte Carlo Algorithms For
10 pages
Uncertainties in Above Ground Tree Biomass Estimation: Lihou Qin Shengwang Meng Guang Zhou Qijing Liu Zhenzhao Xu
No ratings yet
Uncertainties in Above Ground Tree Biomass Estimation: Lihou Qin Shengwang Meng Guang Zhou Qijing Liu Zhenzhao Xu
12 pages

Sem 4.1

Uploaded by

Sem 4.1

Uploaded by

import pandas as pd

import scipy.stats as stats

import scipy.stats as stats

import scipy.stats as stats

import scipy.stats as stats

import scipy.stats as stats

model mpg cyl disp hp drat wt qsec vs am gear

1 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4

2 Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4

3 Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3

4 Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3

Name: hp, dtype: int64

def create_bootstrap_samples(sample_size=len(data), n_sample=1000):

import matplotlib.pyplot as plt

sample_means.plot(kind='hist', bins=20, title='confidence interval of the

Samples: 4 360.0 20 120.1

def create_bootstrap_samples(sample_size=len(data), n_sample=1000):

You might also like