Data Analysis With Python

The document provides a comprehensive overview of data analysis using Python, covering topics such as database connections, data wrangling, exploratory data analysis, model development, and evaluation techniques. It includes code snippets for database operations, data normalization methods, correlation analysis, and various regression techniques. Additionally, it discusses model evaluation metrics and strategies for handling overfitting and underfitting.

Uploaded by

sheheryarabbas71

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views3 pages

Data Analysis With Python

Uploaded by

sheheryarabbas71

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

DATA ANALYSIS WITH PYTHON

PYTHON DATABASE API

CONNECTION OBJECTS
_DATABASE CONNECT
_MANAGE TRANSACTION
CURSOR OBJECT
_DATABASE QUERIES
CONNECTION METHODS
_CURSOR()
_COMMIT()
_ROLLBACK()
_CL0SE()
WRITING CODE USING DB-API
>from dmodule import connect
>connection = connect('databasename', 'username', 'pswd')
>cursor = connection.cursor()
>cursor.execute('select * from mytable')
>results = cursor.fetchall()
>cursor.close()
>connection.close()

DATA WRANGLING
MISSING VALUES
_df.dropna(subset=["price"], axis = 0, inplace =True)
_df.replace(missing_value, new_value)
_mean = df["normalized-loss"].mean()
_df["normalized-loss"].replace(np.nan, mean)
DATA FORMATTING
_df.astype()
DATA NORMALIZATION
METHODS OF NORMALIZIMG
_SIMPLE FEATURE SCALING(xnew = xold/xmax)
_MIN-MAX(xnew=xold-xmin/xmax-xmin)
_Z-SCORE(xnew=xold-meo/sigma)
BINNING
_GROUPING OF VALUES INTO BINS
_CONVERTING NUMERIC INTO CATEGORICAL VARIABLES
_bins = np.linespace(min(df["price"]), max(df["price"]), 4)
_group_names = ["Low", "Medium", "High"]
_df["price-binned"] = pd.cut(df["price"], bins, labels= group_names,
include_lowest=True)
HOW TO TURN CATEGORICAL VARIABLES INTO QUANTITATIVE VARIABLES:
DUMMMY VARIABLES
_pd.get_dummies(df['fuel'])

EXPLORATORY DATA ANALYSIS

DESCRIPTIVE STATISTICS
_value_counts()
_BOX PLOTS
_sns.boxplot(x= "drive-wheels", y="price", data=df)
_SCATTER PLOT
>x= df["price"]
>x= df["engine size"]
>plt.scatter(x,y)
>plt.title("...")
>plt.xlabel("Engine Size")
>plt.ylabel("Price")
GROUP BY
PIVOT
HEATMAP
>plt.pcolor(df_pivot, cmap='RdBu')
>plt.colorbar()
>plt.show()
CORRELATION
PEARSON CORRELATION
_CORRELATION COEFFICIENT(CLOSE TO +1:LARGE POSITIVE RELATIONSHIP, CLOSE TO -1:LARGE
NEGATIVE RELATIONSHIP, CLOSE TO 0:NO RELATIONSHIP)
_P-VALUE(<0.001 Strong Certainty, <0.05 Moderate Certainty, <0.1 Weak Certainty,
>0.1 No Certainty)
STRONG CORRELATION
_CORRELATION COEFFICIENT CLOSE TO 1 TO -1
_P-VALUE LESS THAM 0.001
>pearson_coef, p_value = stats.pearsonr(df['horsepower'], df['price'])
CORRELATION HEATMAP
CHI-SQUARE TEST
>data = [[20, 30], # Male: [Like, Dislike]
[25, 25]] # Female: [Like, Dislike]
>df = pd.DataFrame(data, columns=["Like", "Dislike"], index=["Male", "Female"])
>chi2, p, dof, expected = chi2_contingency(df)

MODEL DEVEOLOPMENT
LINEAR REGRESSION(ONE INDEPENDENT VARIABLE)
_y=bo+b1x
_FIT
_PREDICT
>from sklearn.linear_model import LinearRegression
>lm=LinearRegression()
>X=df[['highway-mpg']]
>Y=df[['price']]
>lm.fit(X, Y)
>Yhat=lm.predict(X)
MULTIPLE LINEAR REGRESSION
_ONE CONTINOUS TARGET(Y) VARIABLE
_TWO OR MORE PREDICTOR(X) VARIABLE
_Y^=bo+b1x1+b2x2+b3x3+b4x4
_Y^=1 + 2x1 + 3x2
>Z=df[['']]
>lm.fit(Z, df[''])
>Yhat=lm.predict(X)
MODEL EVALUATION USING VISUALIZATION
>import seaborn as sns
>sns.regplot(x="hidhway-mpg", y="price", data=df)
>plt.ylim(0,)
RESIDUAL PLOT
>import seaborn as sns
>sns.residplot(df['highway-mpg'],df['price'])
DISTRIBUTION PLOT
>import seaborn as sns
>ax1= sns.distplot(df['price'], hist=False, color="r", label="Actual Value")
>sns.distplot(Yhat, hist=False, color="b", label="Fitted Values", ax= ax1])
POLYNOMIAL REGRESSION
_USEFUL FOR CURVILINEAR RELATIONSHIPS(BY SQUARING OR SETTING HIGHER-ORGER TERMS OF
PREDICTOR VARIABLES)
QUADRATIC-2ND ORDER
_Y^=bo+b1x1+b2(x1)2
CUBIC-3RD ORDER
_Y^=bo+b1x1+b2(x1)2+b3(x1)3
CALCULATE POLYNOMIAL OF 3RD ORDER
>f=np.polyfit(x,y,3)
>p=np.polyld(f)
>print(p)
MORE THAN ONE DIMENSIONS
>from sklearn.preprocessing import PolynomialFeatures
>pr=PolynomialFeatures(degree=2, include_bias=False)
>x_polly=pr.fit_transform(x[['horsepower', 'curb-weight']])
>from sklearn.preprocessing import StandardScaler
>SCALE=StandardScaler()
>SCALE.fit(x_data[['horsepower', 'curb-weight']])
>x_scale=SCALE.transform(x_data[['horsepower', 'curb-weight']])
PIPELINES
>from sklearn.preprocessing import PolynomialFeatures
>from sklearn.linear_model import LinearRegression
>from sklearn.preprocessing import StandardScaler
>from sklearn.pipeline import Pipeline
>Input=[('polynomial',PolynomialFeature(degree=2)),('scale',StandardScaler()),...
('Model',LinearRegression())
>pipe=Pipeline(Input)
>Pipe.fit(df[['']], y)
>yhat=Pipe.predict(X[[''']])
MEASURES FOR IN SAMPLE EVALUATION
TWO MEASURES
MEAN SQUARED ERROR
>from sklearn.metrics import mean_squared_error
>mean_squared_error(df['price'],Y_predict_simple_fit)
R-SQUARED
>X=df[['highway-mpg']]
>Y=df[['price']]
>lm.fit(X, Y)
>lm.score(X,y)
PRECISION AND MAKING
>import numpy as np
>new_input=np,arrange(1,101,1).reshape(-1,1)
>yhat=lm.predict(new_input)
>VISUALIZATION

MODEL EVALUATION
SPLIT DATA INTO TEST AND TRAIN
GENERALIZATION PERFORMANCE
CROSS VALIDATION
_cross_val_score()
>from sklearn.model_selection import cross_val_score
>scores= cross_val_score(lr, x_data, y_data, cv=3)
>np.mean(scores)
_cross_val_predict()
>from sklearn.model_selection import cross_val_predict
>yhat=cross_val_predict(lr2e, x_data, y_data, cv=3)
OVERFITTING, UNDERFITTING AND MODEL SELECTION
RIDGE REGRESSION
GRID SEARCH

Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
8 pages
Python Cheat Sheet For Data Analysis
No ratings yet
Python Cheat Sheet For Data Analysis
2 pages
Cheat Sheet Modeldeploy
No ratings yet
Cheat Sheet Modeldeploy
2 pages
Project Paarth
No ratings yet
Project Paarth
21 pages
DWDM Lab Manual
No ratings yet
DWDM Lab Manual
32 pages
Résumé-Analyse Des Données Resumee Resumee
No ratings yet
Résumé-Analyse Des Données Resumee Resumee
4 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
1 page
Ex. No.: 01 Working With Numpy Arrays
No ratings yet
Ex. No.: 01 Working With Numpy Arrays
30 pages
Data Science Record - 05
No ratings yet
Data Science Record - 05
20 pages
Ad3411 - Student
No ratings yet
Ad3411 - Student
27 pages
ML Lab Experiment Shivansh
No ratings yet
ML Lab Experiment Shivansh
29 pages
Pandas Data Analysis and Wrangling Guide
No ratings yet
Pandas Data Analysis and Wrangling Guide
12 pages
Machine Learning Lab Experiments Guide
No ratings yet
Machine Learning Lab Experiments Guide
47 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
ML Lab File
No ratings yet
ML Lab File
47 pages
003-FIN7790 (Part2)
No ratings yet
003-FIN7790 (Part2)
162 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Advanced Machine Learning Course Guide
No ratings yet
Advanced Machine Learning Course Guide
36 pages
Data Mining Lab: Regression & Clustering
No ratings yet
Data Mining Lab: Regression & Clustering
36 pages
Group Work Assignment Supervised and Unsupervised Learning
No ratings yet
Group Work Assignment Supervised and Unsupervised Learning
10 pages
Python Data Science Cheat Sheet
0% (1)
Python Data Science Cheat Sheet
3 pages
100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
Data Science Experiment Guide
100% (2)
Data Science Experiment Guide
43 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
ML Manual Final
No ratings yet
ML Manual Final
35 pages
DA Manual - Part B
No ratings yet
DA Manual - Part B
13 pages
Predictive Modelling
67% (3)
Predictive Modelling
64 pages
Pandas
No ratings yet
Pandas
21 pages
Machine Learning Lab File
No ratings yet
Machine Learning Lab File
45 pages
DS Manual 1
No ratings yet
DS Manual 1
96 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
ML Lab Records
No ratings yet
ML Lab Records
101 pages
Regression Analysis Cheat Sheet
No ratings yet
Regression Analysis Cheat Sheet
9 pages
DSBDA Prac4 2
No ratings yet
DSBDA Prac4 2
1 page
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
TYCS Practical
No ratings yet
TYCS Practical
26 pages
Exp - 6-Model Development - SDK - Ok
No ratings yet
Exp - 6-Model Development - SDK - Ok
11 pages
Predictive Business Analysis Notes
No ratings yet
Predictive Business Analysis Notes
5 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
Predictive Modeling Project
No ratings yet
Predictive Modeling Project
16 pages
House Price Prediction for Analysts
No ratings yet
House Price Prediction for Analysts
91 pages
Machine Learning Record VR19
No ratings yet
Machine Learning Record VR19
46 pages
Experiment No 11
No ratings yet
Experiment No 11
19 pages
Class Xii PDF For Practical
No ratings yet
Class Xii PDF For Practical
24 pages
Data Exploration with Python on Kaggle
No ratings yet
Data Exploration with Python on Kaggle
20 pages
ML Book Notes
No ratings yet
ML Book Notes
9 pages
Data Analytics Lab Manual
No ratings yet
Data Analytics Lab Manual
26 pages
ML Lab Codes
No ratings yet
ML Lab Codes
14 pages
Advanced Regression with IPL Data
No ratings yet
Advanced Regression with IPL Data
25 pages
Advanced Feature Engineering and Data Preprocessing in Machine Learning
No ratings yet
Advanced Feature Engineering and Data Preprocessing in Machine Learning
7 pages
DM Assignment
No ratings yet
DM Assignment
17 pages
ML 1-10
No ratings yet
ML 1-10
53 pages
Train
No ratings yet
Train
17 pages
Monika Sree 11-07-2024
No ratings yet
Monika Sree 11-07-2024
36 pages
Week 10
No ratings yet
Week 10
50 pages
Machine Learning
No ratings yet
Machine Learning
10 pages
ML 1-11
No ratings yet
ML 1-11
27 pages
(Feature Engineering) (Extended-Cheatsheet)
100% (1)
(Feature Engineering) (Extended-Cheatsheet)
9 pages
Grey Minimalist The Power of Branding Carousel Instagram Post
No ratings yet
Grey Minimalist The Power of Branding Carousel Instagram Post
7 pages
Grey Minimalist The Power of Branding Carousel Instagram Post
No ratings yet
Grey Minimalist The Power of Branding Carousel Instagram Post
7 pages
Grey Minimalist The Power of Branding Carousel Instagram Post
No ratings yet
Grey Minimalist The Power of Branding Carousel Instagram Post
7 pages
Laptop List
No ratings yet
Laptop List
48 pages
Factoring GCF - Demo Deped - Edited
No ratings yet
Factoring GCF - Demo Deped - Edited
35 pages
František Wald Et Al. - CBFEM Book - Component-Based Finite Element Design of Steel connections-IDEA StatiCa (2020)
No ratings yet
František Wald Et Al. - CBFEM Book - Component-Based Finite Element Design of Steel connections-IDEA StatiCa (2020)
248 pages
MTH601 Assignment 02 Solution 2023
No ratings yet
MTH601 Assignment 02 Solution 2023
4 pages
ECE 595, Section 10 Numerical Simulations Lecture 14: Beam Propagation Method
No ratings yet
ECE 595, Section 10 Numerical Simulations Lecture 14: Beam Propagation Method
16 pages
c3 Coursework Guide Mei
100% (2)
c3 Coursework Guide Mei
7 pages
Beres, M., & Domesova, S. (2017) .
No ratings yet
Beres, M., & Domesova, S. (2017) .
13 pages
Midterm 1
No ratings yet
Midterm 1
2 pages
Anna University:: Chennai 600025
No ratings yet
Anna University:: Chennai 600025
56 pages
Jnu Syllabus Mca
No ratings yet
Jnu Syllabus Mca
1 page
Numerical Differentiation of Continuous Functions
No ratings yet
Numerical Differentiation of Continuous Functions
13 pages
Important Questions
No ratings yet
Important Questions
2 pages
ARIMA Modeli Yordamida Vaqt Seriyalarini Tahlil Qilish Amaliy Qismi
No ratings yet
ARIMA Modeli Yordamida Vaqt Seriyalarini Tahlil Qilish Amaliy Qismi
6 pages
LP Assignment Model 9
No ratings yet
LP Assignment Model 9
26 pages
المراجعة التسويقية وأهميتها في تحسين الأداء التسويقي للمؤسسة الخدمية دراسة حالة مؤسسة اتصالات الجزائر الوحدة العملية للاتصالات ورقلة
No ratings yet
المراجعة التسويقية وأهميتها في تحسين الأداء التسويقي للمؤسسة الخدمية دراسة حالة مؤسسة اتصالات الجزائر الوحدة العملية للاتصالات ورقلة
25 pages
Big M Method in Linear Programming
No ratings yet
Big M Method in Linear Programming
13 pages
Grade 8 Math Exam Review Guide
No ratings yet
Grade 8 Math Exam Review Guide
4 pages
MATLAB Commands and Functions Guide
No ratings yet
MATLAB Commands and Functions Guide
75 pages
Simplex Method Steps
No ratings yet
Simplex Method Steps
35 pages
Elec9731 LM3
No ratings yet
Elec9731 LM3
21 pages
DDA5002Lecture13 Annotated
No ratings yet
DDA5002Lecture13 Annotated
54 pages
FVM PDF
No ratings yet
FVM PDF
35 pages
Dynamic Programming
No ratings yet
Dynamic Programming
27 pages
Conm MCQ
No ratings yet
Conm MCQ
21 pages
The Numerical Solution of Systems of Polynomials Arising in Engineering and Science Andrew John Sommese Instant Download
No ratings yet
The Numerical Solution of Systems of Polynomials Arising in Engineering and Science Andrew John Sommese Instant Download
69 pages
Write The Indicated Letter of The Quadratic Function in The Form y A (X - H) + K Into The Box That Corresponds To Its Equivale
No ratings yet
Write The Indicated Letter of The Quadratic Function in The Form y A (X - H) + K Into The Box That Corresponds To Its Equivale
1 page
OPERATIONS RESEARCH MCQs FROM TEXTBOOK
No ratings yet
OPERATIONS RESEARCH MCQs FROM TEXTBOOK
16 pages
Chapter13BinaryandMixed IntegerProgramming
No ratings yet
Chapter13BinaryandMixed IntegerProgramming
10 pages
Roots of Nonlinear Equations
No ratings yet
Roots of Nonlinear Equations
2 pages
VI
No ratings yet
VI
4 pages
5.2 Evaluation of Continued Fractions
No ratings yet
5.2 Evaluation of Continued Fractions
5 pages

Data Analysis With Python

Uploaded by

Data Analysis With Python

Uploaded by

DATA ANALYSIS WITH PYTHON

PYTHON DATABASE API

EXPLORATORY DATA ANALYSIS

You might also like