0% found this document useful (0 votes)

23 views25 pages

Programming of Data Analysis Report

This report details the data cleaning and preprocessing of a marketing dataset for customer purchase prediction using logistic regression. It includes statistical summaries, visualizations, and techniques for handling missing values and categorical variables, ensuring the dataset is ready for predictive analytics. The final dataset is validated for integrity and consistency, making it suitable for advanced modeling tasks.

Uploaded by

daniyaljawad77

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views25 pages

Programming of Data Analysis Report

Uploaded by

daniyaljawad77

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Programming of Data Analytics Assessment

Report

Title:
Customer Affinity Card Purchase Prediction Using Logistic Regression

Student Details:

Student Name: Ali Hamza

Student ID: 24042786

Course Name: Programming of Data Analytics

Course ID: CC7182

Instructor Name:

Submission Date: 04-07-2025

CC7182 – Programming of Data Analytics Assessment Report 1

Abstract:
Effective analysis and modeling begin with a foundational understanding of your data. This
report documents a comprehensive exploration and cleaning of a real-world marketing dataset
intended to support future predictive analytics tasks. We begin by summarizing key numeric
attributes statistically—capturing measures such as mean, standard deviation, and mode—and
visually exploring distributions through histograms. Nominal attributes are evaluated via
frequency-based bar charts. A rigorous assessment of missing values, blank entries, and
ambiguous strings ensures data correctness. Irrelevant or unstructured fields are dropped,
while remaining numeric and categorical features are cleaned and prepared for analysis.
Specific transformations include median imputation for age, mode imputation for household
size, and structured conversions of gender, country, income levels, and education levels into
meaningful numeric values. Careful validation confirms the integrity and modeling-readiness
of the data. The outcome is a well-defined dataset, free of inconsistencies, equipped for
advanced modeling and insightful decision-making.

CC7182 – Programming of Data Analytics Assessment Report 2

Table of Contents

PROGRAMMING OF DATA ANALYTICS ASSESSMENT REPORT.........................................................1

TITLE:..............................................................................................................................................1
STUDENT DETAILS:..............................................................................................................................1
ABSTRACT:........................................................................................................................................2

1. INTRODUCTION..........................................................................................................................4

2. LITERATURE REVIEW........................................................................................................................5
2.1 IMPORTANCE OF DATA PREPROCESSING IN ANALYTICS................................................................................5
2.2 HANDLING MISSING AND NOISY DATA.................................................................................................... 5
2.3 ENCODING CATEGORICAL VARIABLES.......................................................................................................5
2.4 VISUALIZATION FOR DATA UNDERSTANDING.............................................................................................5
3. METHODOLOGY..............................................................................................................................6
3.1 DATA ACQUISITION..............................................................................................................................6
3.2 INITIAL DATA EXPLORATION...................................................................................................................6
3.3 MISSING DATA ANALYSIS...................................................................................................................... 7
3.4 DATA CLEANING TECHNIQUES................................................................................................................8
3.5 FINAL DATASET VERIFICATION................................................................................................................8
4. IMPLEMENTATION...........................................................................................................................9
4.1 COLUMN REMOVAL............................................................................................................................. 9
4.2 MISSING DATA DETECTION AND REPORTING............................................................................................ 9
4.3 METADATA EXTRACTION FOR NUMERIC COLUMNS....................................................................................9
4.4 DISTRIBUTION VISUALIZATION..............................................................................................................11
5. VALIDATION AND TESTING..............................................................................................................20
5.1 PURPOSE OF TESTING.........................................................................................................................20
5.2 MISSING VALUE VERIFICATION.............................................................................................................20
5.3 OUTLIER DETECTION.......................................................................................................................... 20
5.5 DISTRIBUTION AND CONSISTENCY CHECK............................................................................................... 21
5.6 SUMMARY TABLE.............................................................................................................................. 22
6. CONCLUSION................................................................................................................................23
7. REFERENCES.................................................................................................................................24
8. APPENDIX...................................................................................................................................25

CC7182 – Programming of Data Analytics Assessment Report 3

1. Introduction

Data understanding and preprocessing are pivotal steps in any data analytics pipeline. Raw datasets
often contain inconsistencies, missing values, unstructured data, and formats unsuitable for
computational models. For this project, we apply rigorous exploration and cleaning processes to a
marketing dataset—preparing it for future tasks like sentiment analysis or predictive modelling.
Throughout this phase, our focus is to preserve data integrity, maximize informative content, and
ensure the dataset aligns with standard machine learning expectations.

CC7182 – Programming of Data Analytics Assessment Report 4

2. Literature Review
2.1 Importance of Data Preprocessing in Analytics

Data preprocessing is universally acknowledged as the cornerstone of any successful data analysis
project. According to Han, Kamber, and Pei (2012), poor data quality directly compromises model
accuracy, leading to unreliable predictions and flawed insights. Preprocessing helps ensure that the
data is consistent, clean, and relevant for the intended analytical tasks.

2.2 Handling Missing and Noisy Data

Little and Rubin (2014) emphasize that missing data can introduce bias and distort patterns if not
treated properly. Techniques such as median and mode imputation, as used in this project, are
recognized as effective methods when the percentage of missingness is low. Additionally, noise—
caused by inconsistent or erroneous entries—must be corrected or removed to prevent misleading
results during analysis.

2.3 Encoding Categorical Variables

Brownlee (2020) highlights that most machine learning algorithms require numeric inputs. Therefore,
converting categorical variables through techniques like ordinal encoding or one-hot encoding is
critical. For datasets like marketing campaigns, ordinal mapping based on business logic (e.g.,
customer income levels or education) preserves the inherent order within categories, enhancing
model interpretability.

2.4 Visualization for Data Understanding

Kimball (2008) and Acuna & Rodriguez (2004) advocate for combining numerical summaries with
visual methods like histograms, boxplots, and bar charts. Visualization plays a key role in detecting
outliers, skewness, and class imbalances that statistical summaries alone may overlook.

CC7182 – Programming of Data Analytics Assessment Report 5

3. Methodology

This section outlines the systematic approach adopted for understanding, cleaning, and preparing the
marketing campaign dataset for further analysis.

3.1 Data Acquisition

The dataset was sourced in CSV format and loaded into Python using the Pandas library. The initial
inspection revealed multiple features covering customer demographics, purchase behaviours, and
marketing responses.

# Load the dataset

file_path = 'Marketing Campaign [Link]'
df = pd.read_csv(file_path)

3.2 Initial Data Exploration

3.2.1 Metadata Review

We conducted an initial metadata analysis to understand the variable types (numeric, categorical,
text-based), data ranges, and summary statistics for each field. The Pandas info() function and
selection of numeric columns using select_dtypes facilitated this step.

numeric_cols = df.select_dtypes(include='number').columns

# Creating DataFrame
metadata = [Link]({
'Attribute Name': numeric_cols,
'Data Type': df[numeric_cols].[Link],
'Max': df[numeric_cols].max().values,
'Min': df[numeric_cols].min().values,
'Mean': df[numeric_cols].mean().values,
'Std Dev': df[numeric_cols].std().values,
'Mode': [df[col].mode().iloc[0] if not df[col].mode().empty else None for
col in numeric_cols]
})

3.2.2 Visualization of Distributions

We visualized key numeric attributes using histograms with overlaid density curves to assess
distribution shapes and identify potential outliers.

#Selecting all the numeric columns from the dataset

CC7182 – Programming of Data Analytics Assessment Report 6

numeric_cols = df.select_dtypes(include='number').columns
#plotting histograam for each numeric column
for col in numeric_cols:
[Link](figsize=(6, 4))
[Link](df[col].dropna(), kde=True)
[Link](f'Histogram of {col}')
[Link](col)
[Link]('Frequency')
[Link]()

Categorical variables were evaluated using bar plots to identify dominant classes and class
imbalances.
#Selecting object type columns from dataset
nominal_cols = df.select_dtypes(include='object').columns
#Plotting each object type column
for col in nominal_cols:
[Link](figsize=(6, 4))
df[col].value_counts().plot(kind='bar')
[Link](f'Bar Chart of {col}')
[Link](col)
[Link]('Count')
[Link]()

3.3 Missing Data Analysis

A combination of null count checks and frequency counts for specific placeholder strings (e.g.,
blanks or 'unknown') helped us detect missing or poorly formatted entries.

#Counting number of null values in each column

missing_report = [Link]().sum()
for col in [Link]:
if df[col].dtype == 'object':
blank_count = (df[col] == ' ').sum()
unknown_count = df[col].[Link]().eq('unknown').sum()
print(f"{col}: Blank = {blank_count}, Unknown = {unknown_count}")

print("Nulls:\n", missing_report)

The analysis revealed missingness across several columns, with fields like AGE and
HOUSEHOLD_SIZE requiring attention.

CC7182 – Programming of Data Analytics Assessment Report 7

3.4 Data Cleaning Techniques
3.4.1 Column Dropping

The free-text COMMENTS column was dropped, as it was deemed irrelevant for numeric modeling
tasks.

# 'COMMENTS' columns contain unstructured free-text data, that is not a

model-friendly data relevent to our target variable so we exclude it from
analysis
if 'COMMENTS' in df:
df = [Link](columns=['COMMENTS'])

3.5 Final Dataset Verification

Post-cleaning, the dataset underwent validation steps:

 Null values, blanks, and unknowns were quantified for each column.

 Numeric and categorical columns were successfully separated.

 Metadata, including statistical summaries, was generated.

 Histograms and bar charts visually confirmed data distributions.

This cleaned and profiled dataset now stands ready for further analytics and modeling work.

CC7182 – Programming of Data Analytics Assessment Report 8

4. Implementation
This section describes the practical steps and Python code applied to clean and preprocess the dataset.
4.1 Column Removal

The irrelevant free-text COMMENTS column is dropped for clarity and modelling efficiency.

if 'COMMENTS' in [Link]:
[Link](columns=['COMMENTS'], inplace=True)

4.2 Missing Data Detection and Reporting

The code performs extensive detection of missing values, blanks, and 'unknown' strings across all
columns.

#Counting number of null values in each column

print("Nulls:\n", missing_report)

4.3 Metadata Extraction for Numeric Columns

For numeric columns, the following metadata (min, max, mean, standard deviation, and mode) was
calculated:

CC7182 – Programming of Data Analytics Assessment Report 9

'Std Dev': df[numeric_cols].std().values,
'Mode': [df[col].mode().iloc[0] if not df[col].mode().empty else None for
col in numeric_cols]
})

# Printing the MetaData

print(metadata)

table:

Attribute Name Data Type Max \

AFFINITY_CARD CUST_ID int64 1.0
AGE CUST_GENDER int64 90.0
BOOKKEEPING_APPLICATION AGE int64 1.0
BULK_PACK_DISKETTES CUST_MARITAL_STATUS int64 1.0
COUNTRY_NAME COUNTRY_NAME object NaN
CUST_GENDER CUST_INCOME_LEVEL object NaN
CUST_ID EDUCATION int64 103000.0
CUST_INCOME_LEVEL OCCUPATION object NaN
CUST_MARITAL_STATUS HOUSEHOLD_SIZE object NaN
EDUCATION YRS_RESIDENCE object NaN
FLAT_PANEL_MONITOR AFFINITY_CARD int64 1.0
HOME_THEATER_PACKAGE BULK_PACK_DISKETTES int64 1.0
HOUSEHOLD_SIZE FLAT_PANEL_MONITOR object NaN
OCCUPATION HOME_THEATER_PACKAGE object NaN
OS_DOC_SET_KANJI BOOKKEEPING_APPLICATION int64 1.0
PRINTER_SUPPLIES PRINTER_SUPPLIES int64 1.0
YRS_RESIDENCE Y_BOX_GAMES int64 14.0
Y_BOX_GAMES OS_DOC_SET_KANJI int64 1.0

Min Mean Std Dev \

AFFINITY_CARD 0.0 0.253333 0.435065
AGE 17.0 38.892000 13.636384
BOOKKEEPING_APPLICATION 0.0 0.880667 0.324288
BULK_PACK_DISKETTES 0.0 0.628000 0.483500
COUNTRY_NAME NaN NaN NaN
CUST_GENDER NaN NaN NaN
CUST_ID 101501.0 102250.500000 433.157015
CUST_INCOME_LEVEL NaN NaN NaN
CUST_MARITAL_STATUS NaN NaN NaN
EDUCATION NaN NaN NaN
FLAT_PANEL_MONITOR 0.0 0.582000 0.493395
HOME_THEATER_PACKAGE 0.0 0.575333 0.494457
HOUSEHOLD_SIZE NaN NaN NaN
OCCUPATION NaN NaN NaN
OS_DOC_SET_KANJI 0.0 0.002000 0.044692
PRINTER_SUPPLIES 1.0 1.000000 0.000000
YRS_RESIDENCE 0.0 4.088667 1.920919
Y_BOX_GAMES 0.0 0.286667 0.452355

Mode
AFFINITY_CARD 0.0
AGE 34.0
BOOKKEEPING_APPLICATION 1.0

CC7182 – Programming of Data Analytics Assessment Report 10

BULK_PACK_DISKETTES 1.0
COUNTRY_NAME United States of America
CUST_GENDER M
CUST_ID 101501
CUST_INCOME_LEVEL J: 190,000 - 249,999
CUST_MARITAL_STATUS Married
EDUCATION HS-grad
FLAT_PANEL_MONITOR 1.0
HOME_THEATER_PACKAGE 1.0
HOUSEHOLD_SIZE 3
OCCUPATION Exec.
OS_DOC_SET_KANJI 0.0
PRINTER_SUPPLIES 1.0
YRS_RESIDENCE 3.0
Y_BOX_GAMES 0.0

4.4 Distribution Visualization

For each numeric column, histograms with density curves were plotted.
#Selecting all the numeric columns from the dataset
numeric_cols = df.select_dtypes(include='number').columns
#plotting histograam for each numeric column
for col in numeric_cols:
[Link](figsize=(6, 4))
[Link](df[col].dropna(), kde=True)
[Link](f'Histogram of {col}')
[Link](col)
[Link]('Frequency')
[Link]()

CC7182 – Programming of Data Analytics Assessment Report 11

CC7182 – Programming of Data Analytics Assessment Report 12
CC7182 – Programming of Data Analytics Assessment Report 13
CC7182 – Programming of Data Analytics Assessment Report 14
For categorical columns, bar charts were created:
#Selecting object type columns from dataset
nominal_cols = df.select_dtypes(include='object').columns
#Plotting each object type column
for col in nominal_cols:
[Link](figsize=(6, 4))
df[col].value_counts().plot(kind='bar')
[Link](f'Bar Chart of {col}')
[Link](col)
[Link]('Count')
[Link]()

CC7182 – Programming of Data Analytics Assessment Report 15

CC7182 – Programming of Data Analytics Assessment Report 16
CC7182 – Programming of Data Analytics Assessment Report 17
CC7182 – Programming of Data Analytics Assessment Report 18
CC7182 – Programming of Data Analytics Assessment Report 19
5. Validation and Testing
This section validates the effectiveness and correctness of the data cleaning and preprocessing steps
performed earlier.
5.1 Purpose of Testing

The testing phase was designed to ensure that the Python code used for data cleaning and
preprocessing worked as intended. Key testing objectives:

 Verifying missing value handling

 Checking correct data types
 Ensuring categorical encoding (detection done)
 Detecting outliers
 Checking data distribution consistency

5.2 Missing Value Verification

The first step involved checking the dataset for missing values using:

missing_report = [Link]().sum()

Outcome:
The missing values across all columns were checked. No remaining nulls were found. Additionally,
blanks and 'unknown' strings were also reported earlier.

5.3 Outlier Detection

To ensure data integrity, outliers in numeric columns were checked using descriptive statistics and
visualization:

[Link]()

CC7182 – Programming of Data Analytics Assessment Report 20

And for visual inspection:

for col in numeric_cols:

[Link](figsize=(6, 4))
[Link](df[col].dropna(), kde=True)
[Link](f'Histogram of {col}')
[Link](col)
[Link]('Frequency')
[Link]()

Outcome:
On visual inspection, there were no unrealistic or extreme outliers detected that would require
removal or further action.

5.5 Distribution and Consistency Check

A visual check was performed to analyse the distribution of important variables:

 Age Distribution:

[Link](figsize=(8, 5))
[Link](df['AGE'].dropna(), kde=True)
[Link]('Age Distribution')
[Link]()

 Education Level Counts:

[Link](figsize=(8, 5))
df['EDUCATION'].value_counts().plot(kind='bar')
[Link]('Education Level Distribution')
[Link]()

CC7182 – Programming of Data Analytics Assessment Report 21

Outcome:
Both numeric and categorical data showed balanced and reasonable distributions after cleaning.

5.6 Summary Table

Testing Area Status

Missing Values Resolved
Data Types Verified
Encoding Columns Identified (Not Yet Encoded)
Outlier Check Passed
Distribution Maintained
Consistency

CC7182 – Programming of Data Analytics Assessment Report 22

6. Conclusion

A rigorous data understanding and preprocessing pipeline has prepared the marketing dataset for
advanced analytics stages. All numeric features are statistically summarized and clean; categorical
variables are encoded; no missing or malformed data remains. This foundation ensures high-quality
inputs to subsequent predictive modelling processes.

CC7182 – Programming of Data Analytics Assessment Report 23

7. References

(Use Harvard or APA style.)

 Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. Morgan
Kaufmann.
 Little, R. J., & Rubin, D. B. (2014). Statistical Analysis with Missing Data. John Wiley &
Sons.
 Brownlee, J. (2020). Machine Learning Mastery with Python.
 Kimball, R. (2008). The Data Warehouse Toolkit. Wiley.
 Acuna, E. & Rodriguez, C. (2004). Treatment of Missing Values. Classification, Clustering,
and Data Mining Applications.

CC7182 – Programming of Data Analytics Assessment Report 24

8. Appendix

A. Complete Code Snippets

//code

B. Figures

 Histogram images
 Bar chart images
 Missing values plot

C. Full Tables

 Metadata table
 Ordinal encoding mappings
 Missing value summary

CC7182 – Programming of Data Analytics Assessment Report 25

Assignment Question
No ratings yet
Assignment Question
6 pages
Data Analytics Project Task Description January
No ratings yet
Data Analytics Project Task Description January
2 pages
Annual Report 1
No ratings yet
Annual Report 1
23 pages
Assignment Question
No ratings yet
Assignment Question
6 pages
DM Unit 3
No ratings yet
DM Unit 3
15 pages
Lec 01
No ratings yet
Lec 01
5 pages
Data Analysis Using Python
No ratings yet
Data Analysis Using Python
17 pages
Hemanth SDP
No ratings yet
Hemanth SDP
13 pages
Da Unit-2
No ratings yet
Da Unit-2
23 pages
C1000-177 STU SGC1000177v2
No ratings yet
C1000-177 STU SGC1000177v2
9 pages
Da Full Notes
No ratings yet
Da Full Notes
30 pages
Unit 2 Data Gathering
No ratings yet
Unit 2 Data Gathering
14 pages
Internship Report Data Science
100% (1)
Internship Report Data Science
58 pages
Data Analysis Using Python (1) NAVTTC
No ratings yet
Data Analysis Using Python (1) NAVTTC
17 pages
Satyam Rana 4 Sem Business Analytics
No ratings yet
Satyam Rana 4 Sem Business Analytics
29 pages
Report File (VJ)
No ratings yet
Report File (VJ)
56 pages
Introduction to Data Analytics
No ratings yet
Introduction to Data Analytics
30 pages
Data Analysis & Analytics Guide
No ratings yet
Data Analysis & Analytics Guide
124 pages
MBA 4th Sem MBAIIT1 - SAD - Unit-2 - Notes
No ratings yet
MBA 4th Sem MBAIIT1 - SAD - Unit-2 - Notes
20 pages
How Should Data Preparation Be Done For An Analytics Project
No ratings yet
How Should Data Preparation Be Done For An Analytics Project
30 pages
Unit II Notes
No ratings yet
Unit II Notes
36 pages
UNIT-1: What Is Data Analytics? Why Data Analytics Is Important? What Is The Role of Data Analytics and Ways To Use It?
No ratings yet
UNIT-1: What Is Data Analytics? Why Data Analytics Is Important? What Is The Role of Data Analytics and Ways To Use It?
10 pages
PBS - 3
No ratings yet
PBS - 3
20 pages
Project Report
100% (1)
Project Report
16 pages
Assignment Question
No ratings yet
Assignment Question
6 pages
BCom (BusinessAnalytics) I Sem Pratical - QBank
No ratings yet
BCom (BusinessAnalytics) I Sem Pratical - QBank
3 pages
Unit 2
100% (1)
Unit 2
22 pages
AI Travel Companion Data Analysis
No ratings yet
AI Travel Companion Data Analysis
13 pages
Data Analytics
No ratings yet
Data Analytics
4 pages
Assignment Question
No ratings yet
Assignment Question
6 pages
Updated Notes of APR - 084732
No ratings yet
Updated Notes of APR - 084732
6 pages
Introduction To Data Science Methodology
No ratings yet
Introduction To Data Science Methodology
45 pages
Predictive Modeling
No ratings yet
Predictive Modeling
27 pages
23CSE312-MQP Module 1 Python Sjbit
No ratings yet
23CSE312-MQP Module 1 Python Sjbit
30 pages
7 Data Analytics Projects
No ratings yet
7 Data Analytics Projects
2 pages
Python For Data Analysis
100% (1)
Python For Data Analysis
84 pages
CC7164 Data Mining For Business Intelligence Spring Semester 2019/20
No ratings yet
CC7164 Data Mining For Business Intelligence Spring Semester 2019/20
4 pages
Certified Python Data Analyst Professional - Using Python - CPDAP 128Hrs
No ratings yet
Certified Python Data Analyst Professional - Using Python - CPDAP 128Hrs
22 pages
Sem 6
No ratings yet
Sem 6
12 pages
Data Analytics With Python - Final Module - 21 Jan
No ratings yet
Data Analytics With Python - Final Module - 21 Jan
4 pages
Data Analytics IA-1 IMP
No ratings yet
Data Analytics IA-1 IMP
9 pages
Business Data Mining Week 2
No ratings yet
Business Data Mining Week 2
6 pages
Data Warehouse
No ratings yet
Data Warehouse
10 pages
Unit II (DWDM)
No ratings yet
Unit II (DWDM)
19 pages
22UCS303 DS-Unit II-N
No ratings yet
22UCS303 DS-Unit II-N
71 pages
BADS (KMBA 106) - Qus Bank
No ratings yet
BADS (KMBA 106) - Qus Bank
7 pages
Executive Masterclass ?? ?????????? ?????? ??? ?????? ????????
No ratings yet
Executive Masterclass ?? ?????????? ?????? ??? ?????? ????????
87 pages
Lecture 2 The Data Science Process and Tools For Each Step
No ratings yet
Lecture 2 The Data Science Process and Tools For Each Step
8 pages
Chap.3 Data Preprocessing
No ratings yet
Chap.3 Data Preprocessing
6 pages
Documentation Sample
No ratings yet
Documentation Sample
37 pages
Report Python
No ratings yet
Report Python
30 pages
Approaches in Data Analysis (Slides) (Re-Brand)
No ratings yet
Approaches in Data Analysis (Slides) (Re-Brand)
13 pages
Data Analytics
No ratings yet
Data Analytics
11 pages
Data Analytics
No ratings yet
Data Analytics
9 pages
As You Delve Into The World of Data Analytics
No ratings yet
As You Delve Into The World of Data Analytics
10 pages
School of IT & Business Technologies Graduate Diploma in Data Analytics (Level 7)
No ratings yet
School of IT & Business Technologies Graduate Diploma in Data Analytics (Level 7)
10 pages
OJT-Field Report - Research Project Format 2025
No ratings yet
OJT-Field Report - Research Project Format 2025
9 pages
Lecture 3 - Introduction To NoSQL - Updated
No ratings yet
Lecture 3 - Introduction To NoSQL - Updated
35 pages
Pmca503l Database-Systems TH 1.0 70 Pmca503l
No ratings yet
Pmca503l Database-Systems TH 1.0 70 Pmca503l
2 pages
Application Support Engineer Training
No ratings yet
Application Support Engineer Training
2 pages
File Systems for FSU Students
No ratings yet
File Systems for FSU Students
46 pages
CDOT Student Guide
No ratings yet
CDOT Student Guide
482 pages
Dunham - Data Mining PDF
100% (1)
Dunham - Data Mining PDF
156 pages
BIGuidebook Templates - BI Requirements
No ratings yet
BIGuidebook Templates - BI Requirements
18 pages
SAP ETL Developer Resume Overview
No ratings yet
SAP ETL Developer Resume Overview
6 pages
R and Hadoop Integration Guide
No ratings yet
R and Hadoop Integration Guide
12 pages
Two-Phase Commitment (2PC) Protocol: Prepared by Somenath Sengupta For MCA 3rd Year
No ratings yet
Two-Phase Commitment (2PC) Protocol: Prepared by Somenath Sengupta For MCA 3rd Year
5 pages
Big Data Analytics Seminar Report
No ratings yet
Big Data Analytics Seminar Report
27 pages
SQL
No ratings yet
SQL
501 pages
Positouch DBF Files 2
No ratings yet
Positouch DBF Files 2
98 pages
Data Handling Excel
No ratings yet
Data Handling Excel
2 pages
TD3 2
No ratings yet
TD3 2
2 pages
Dbms Mid-II QP 3sets
No ratings yet
Dbms Mid-II QP 3sets
6 pages
Assignment DS KCS301 Unit 1
No ratings yet
Assignment DS KCS301 Unit 1
1 page
MARIAN 6.1 Database Changes Summary
No ratings yet
MARIAN 6.1 Database Changes Summary
78 pages
Test 02 Review: Data Modeling Concepts
No ratings yet
Test 02 Review: Data Modeling Concepts
8 pages
Access 2016 Open Houses Project Guide
No ratings yet
Access 2016 Open Houses Project Guide
2 pages
Deadlock Prevention in DBMS: Techniques
No ratings yet
Deadlock Prevention in DBMS: Techniques
10 pages
AzqaSaleemKhan (SP22 RCS 003) FPGrowth
No ratings yet
AzqaSaleemKhan (SP22 RCS 003) FPGrowth
19 pages
Final 2 PLSQL
No ratings yet
Final 2 PLSQL
16 pages
IMS - Brighter Blue Trainings
No ratings yet
IMS - Brighter Blue Trainings
6 pages
DBMS Classification Guide
No ratings yet
DBMS Classification Guide
9 pages
Hive Tutorial for Data Analysts
No ratings yet
Hive Tutorial for Data Analysts
11 pages
SEO Made Simple - A Comprehensive Guidebook
No ratings yet
SEO Made Simple - A Comprehensive Guidebook
63 pages
Displaying The SAP Directories
No ratings yet
Displaying The SAP Directories
8 pages
HCSA-Presales-Storage V3.0 Training Material
No ratings yet
HCSA-Presales-Storage V3.0 Training Material
102 pages
OneDrive Auto Upload Log Analysis
No ratings yet
OneDrive Auto Upload Log Analysis
27 pages

Programming of Data Analysis Report

Uploaded by

Programming of Data Analysis Report

Uploaded by

Programming of Data Analytics Assessment

Student Name: Ali Hamza

Student ID: 24042786

Course Name: Programming of Data Analytics

Course ID: CC7182

Submission Date: 04-07-2025

CC7182 – Programming of Data Analytics Assessment Report 1

CC7182 – Programming of Data Analytics Assessment Report 2

PROGRAMMING OF DATA ANALYTICS ASSESSMENT REPORT.........................................................1

CC7182 – Programming of Data Analytics Assessment Report 3

CC7182 – Programming of Data Analytics Assessment Report 4

2.2 Handling Missing and Noisy Data

2.3 Encoding Categorical Variables

2.4 Visualization for Data Understanding

CC7182 – Programming of Data Analytics Assessment Report 5

3.1 Data Acquisition

# Load the dataset

3.2 Initial Data Exploration

3.2.2 Visualization of Distributions

#Selecting all the numeric columns from the dataset

CC7182 – Programming of Data Analytics Assessment Report 6

3.3 Missing Data Analysis

#Counting number of null values in each column

CC7182 – Programming of Data Analytics Assessment Report 7

# 'COMMENTS' columns contain unstructured free-text data, that is not a

3.5 Final Dataset Verification

 Numeric and categorical columns were successfully separated.

 Metadata, including statistical summaries, was generated.

 Histograms and bar charts visually confirmed data distributions.

CC7182 – Programming of Data Analytics Assessment Report 8

4.2 Missing Data Detection and Reporting

#Counting number of null values in each column

4.3 Metadata Extraction for Numeric Columns

CC7182 – Programming of Data Analytics Assessment Report 9

# Printing the MetaData

Attribute Name Data Type Max \

Min Mean Std Dev \

CC7182 – Programming of Data Analytics Assessment Report 10

4.4 Distribution Visualization

CC7182 – Programming of Data Analytics Assessment Report 11

CC7182 – Programming of Data Analytics Assessment Report 15

 Verifying missing value handling

5.2 Missing Value Verification

5.3 Outlier Detection

CC7182 – Programming of Data Analytics Assessment Report 20

for col in numeric_cols:

5.5 Distribution and Consistency Check

A visual check was performed to analyse the distribution of important variables:

 Education Level Counts:

CC7182 – Programming of Data Analytics Assessment Report 21

5.6 Summary Table

Testing Area Status

CC7182 – Programming of Data Analytics Assessment Report 22

CC7182 – Programming of Data Analytics Assessment Report 23

(Use Harvard or APA style.)

CC7182 – Programming of Data Analytics Assessment Report 24

A. Complete Code Snippets

CC7182 – Programming of Data Analytics Assessment Report 25

You might also like