IML Program 2

The document outlines a data processing program using Python's pandas and scikit-learn libraries. It demonstrates attribute selection, handling missing values through imputation, discretization of continuous variables, and elimination of outliers using the IQR method. The program processes a sample dataset containing age and income information, ultimately producing a cleaned and transformed dataset.

Uploaded by

logitech9966

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views3 pages

IML Program 2

Uploaded by

logitech9966

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

PROGRAM:

import pandas as pd
import numpy as np
from [Link] import SimpleImputer
from [Link] import KBinsDiscretizer
# Sample dataset
data = {
'Age': [25, 30, 35, [Link], 40, 50, 60, 22, [Link], 28],
'Income': [50000, 60000, 80000, 90000, [Link], 120000, 140000, 65000, 70000, 50000],
'Gender': ['M', 'F', 'M', 'F', 'M', 'M', 'F', 'M', 'M', 'F'],
'Score': [88, 92, 95, 88, 75, 84, 80, 91, 89, 70]
}
# Create a DataFrame
df = [Link](data)
print("Original Data:")
print(df)
# a. Attribute Selection (Selecting only relevant features)
# For simplicity, let's assume we are interested in 'Age' and 'Income' only
df_selected = df[['Age', 'Income']]
print("\nSelected Attributes:")
print(df_selected)
# b. Handling Missing Values
# Impute missing values using the mean strategy for numerical columns
imputer = SimpleImputer(strategy='mean')
# We can use 'median' or 'most_frequent' as well
df_selected_imputed = [Link](imputer.fit_transform(df_selected), columns=df_selected.columns)
print("\nData after Handling Missing Values:")
print(df_selected_imputed)

# c. Discretization (Binning continuous variables like 'Age' and 'Income')

# We will use KBinsDiscretizer to convert continuous variables into discrete bins
discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
df_discretized = [Link](discretizer.fit_transform(df_selected_imputed),
columns=df_selected_imputed.columns)
print("\nData after Discretization:")
print(df_discretized)

# d. Elimination of Outliers
# We'll use the IQR method to detect and remove outliers for the 'Age' and 'Income' columns
# Calculate IQR
Q1 = df_selected_imputed.quantile(0.25)
Q3 = df_selected_imputed.quantile(0.75)
IQR = Q3 - Q1
# Define outlier conditions
outlier_condition = ((df_selected_imputed < (Q1 - 1.5 * IQR)) | (df_selected_imputed > (Q3 + 1.5 * IQR)))
# Remove rows with outliers
df_no_outliers = df_selected_imputed[~outlier_condition.any(axis=1)]
print("\nData after Eliminating Outliers:")
print(df_no_outliers)
OUTPUT:

Original Data:
Age Income Gender Score
0 25.0 50000 M 88
1 30.0 60000 F 92
2 35.0 80000 M 95
3 NaN 90000 F 88
4 40.0 NaN M 75
5 50.0 120000 M 84
6 60.0 140000 F 80
7 22.0 65000 M 91
8 NaN 70000 M 89
9 28.0 50000 F 70

Selected Attributes:
Age Income
0 25.0 50000
1 30.0 60000
2 35.0 80000
3 NaN 90000
4 40.0 NaN
5 50.0 120000
6 60.0 140000
7 22.0 65000
8 NaN 70000
9 28.0 50000

Data after Handling Missing Values:

Age Income
0 25.0 50000.0
1 30.0 60000.0
2 35.0 80000.0
3 35.6 90000.0
4 40.0 83571.4
5 50.0 120000.0
6 60.0 140000.0
7 22.0 65000.0
8 35.6 70000.0
9 28.0 50000.0

Data after Discretization:

Age Income
0 0 0
1 1 0
2 2 1
3 1 1
4 2 1
5 2 2
6 2 2
7 0 1
8 1 1
9 0 0
Data after Eliminating Outliers:
Age Income
0 25.0 50000.0
1 30.0 60000.0
2 35.0 80000.0
3 35.6 90000.0
5 50.0 120000.0
6 60.0 140000.0
7 22.0 65000.0
8 35.6 70000.0
9 28.0 50000.0

ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Edp 3
No ratings yet
Edp 3
16 pages
ML 8 Program
No ratings yet
ML 8 Program
5 pages
Germany Credit Analysis
No ratings yet
Germany Credit Analysis
41 pages
Data - Analytics Lab - Manual JNTUH R22 Regulation
No ratings yet
Data - Analytics Lab - Manual JNTUH R22 Regulation
26 pages
Week 4 LAB
No ratings yet
Week 4 LAB
26 pages
Naan Mudhalvan Assisgnment
No ratings yet
Naan Mudhalvan Assisgnment
6 pages
ML Ex2
No ratings yet
ML Ex2
7 pages
Project Paarth
No ratings yet
Project Paarth
21 pages
Predictive+Modelling+-+Logistic+Regression+-+Student+Version-New2.3.ipynb - Colaboratory
No ratings yet
Predictive+Modelling+-+Logistic+Regression+-+Student+Version-New2.3.ipynb - Colaboratory
12 pages
Healthcare Insurance Prediction Main
No ratings yet
Healthcare Insurance Prediction Main
74 pages
1st Project
No ratings yet
1st Project
24 pages
Analyzing Customer Data with NumPy
No ratings yet
Analyzing Customer Data with NumPy
9 pages
Exp 343
No ratings yet
Exp 343
18 pages
Aiml
No ratings yet
Aiml
27 pages
DV Mid Internal 1
No ratings yet
DV Mid Internal 1
8 pages
Predictive Analytics Group Assignment
No ratings yet
Predictive Analytics Group Assignment
21 pages
Statistics IMP Questions and Answers
No ratings yet
Statistics IMP Questions and Answers
23 pages
Alishba (S005)
No ratings yet
Alishba (S005)
5 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
DSDBAAssignment2 SUMEET
No ratings yet
DSDBAAssignment2 SUMEET
8 pages
Practical 3
No ratings yet
Practical 3
8 pages
Health Risk Prediction
No ratings yet
Health Risk Prediction
80 pages
Python Assignment-2
No ratings yet
Python Assignment-2
3 pages
SML Lab 1
No ratings yet
SML Lab 1
19 pages
ML
No ratings yet
ML
10 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
Dsbda 3a
No ratings yet
Dsbda 3a
11 pages
DSBDA3 - Jupyter Notebook
No ratings yet
DSBDA3 - Jupyter Notebook
12 pages
LDA Code
No ratings yet
LDA Code
19 pages
Step-by-Step Explanation of Python Data Preprocessing Script
No ratings yet
Step-by-Step Explanation of Python Data Preprocessing Script
9 pages
Data Pre Processing and Cleaning
No ratings yet
Data Pre Processing and Cleaning
56 pages
Outlier Detection and Capping
No ratings yet
Outlier Detection and Capping
7 pages
DS Problem Statements and Codes
No ratings yet
DS Problem Statements and Codes
21 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
8 pages
DataPreparation - Outlier - Treatment ASSIGNMENT 1
100% (1)
DataPreparation - Outlier - Treatment ASSIGNMENT 1
7 pages
Stroke Prediction
No ratings yet
Stroke Prediction
10 pages
Heart Disease Diagnosis Using Machine Learning
No ratings yet
Heart Disease Diagnosis Using Machine Learning
26 pages
Building Logistic Regression Model in Python
No ratings yet
Building Logistic Regression Model in Python
24 pages
Lab2!17!07-2025 - Demonstrate Various Data Pre-Processing Techniques For A Given Dataset.
No ratings yet
Lab2!17!07-2025 - Demonstrate Various Data Pre-Processing Techniques For A Given Dataset.
17 pages
Dsbda Exp4 Part1
No ratings yet
Dsbda Exp4 Part1
39 pages
57 DWM Exp 4
No ratings yet
57 DWM Exp 4
7 pages
Student Notebook HR Analysis
No ratings yet
Student Notebook HR Analysis
11 pages
Observation: Import As Import As Import As Import As
No ratings yet
Observation: Import As Import As Import As Import As
31 pages
Data Preprocessing Techniques in ML
No ratings yet
Data Preprocessing Techniques in ML
12 pages
Data Visualization & Preprocessing Guide
No ratings yet
Data Visualization & Preprocessing Guide
18 pages
Data Analysis for Outlier Detection
100% (1)
Data Analysis for Outlier Detection
28 pages
Data Pre Processing and Cleaning
No ratings yet
Data Pre Processing and Cleaning
23 pages
Lab2 Day8 23BCSA84 AssignmentSolution
No ratings yet
Lab2 Day8 23BCSA84 AssignmentSolution
7 pages
Week1 Code Corrected
No ratings yet
Week1 Code Corrected
2 pages
Practice Questions2
No ratings yet
Practice Questions2
2 pages
Model2.ipynb - Colab
No ratings yet
Model2.ipynb - Colab
11 pages
Program 1
No ratings yet
Program 1
1 page
ML Lab Manual 1-10
No ratings yet
ML Lab Manual 1-10
58 pages
Bank Loan Case Study
No ratings yet
Bank Loan Case Study
71 pages
Visualization 2
No ratings yet
Visualization 2
1 page
DSBDA2
No ratings yet
DSBDA2
6 pages
AI Bits QnA
No ratings yet
AI Bits QnA
2 pages
IML Program 3
No ratings yet
IML Program 3
2 pages
Exp 6
No ratings yet
Exp 6
3 pages
IML Program 1
No ratings yet
IML Program 1
2 pages
Probability Concepts in Business Methods
100% (69)
Probability Concepts in Business Methods
16 pages
Sampling Techniques Seminar Guide
100% (1)
Sampling Techniques Seminar Guide
17 pages
Research Design in Business and Management 2024
100% (1)
Research Design in Business and Management 2024
261 pages
AI For Radiology Oge Marques Instant Download
No ratings yet
AI For Radiology Oge Marques Instant Download
140 pages
Linear Regression
100% (3)
Linear Regression
28 pages
William Et Al. 2025 - Enhancing Cost Reliability in Construction_ the Synergistic Impact of BIM and Lean Principles
No ratings yet
William Et Al. 2025 - Enhancing Cost Reliability in Construction_ the Synergistic Impact of BIM and Lean Principles
12 pages
E1039207009 21119 1218595455594
No ratings yet
E1039207009 21119 1218595455594
23 pages
Quantitative Reasoning -I (1)
No ratings yet
Quantitative Reasoning -I (1)
2 pages
Univariate Time Series
No ratings yet
Univariate Time Series
83 pages
Borderline Personality and The Rorschach
No ratings yet
Borderline Personality and The Rorschach
6 pages
Probability For Dummies Cheat Sheet - For Dummies
No ratings yet
Probability For Dummies Cheat Sheet - For Dummies
3 pages
Introduction To Statistics and Data Analysis 3rd Edition Roxy Peck Download
100% (10)
Introduction To Statistics and Data Analysis 3rd Edition Roxy Peck Download
70 pages
How To Use Minitab 1 Basics
No ratings yet
How To Use Minitab 1 Basics
28 pages
PSHA Mathematical Formulation Guide
No ratings yet
PSHA Mathematical Formulation Guide
13 pages
How Do Career Threatening Injuries Affect The Mental Health of Professional Footballers
No ratings yet
How Do Career Threatening Injuries Affect The Mental Health of Professional Footballers
57 pages
Parameter Vs Statistics Worksheet
0% (2)
Parameter Vs Statistics Worksheet
2 pages
Illegal "Lemons": Price Dispersion in Cocaine and Heroin Markets
No ratings yet
Illegal "Lemons": Price Dispersion in Cocaine and Heroin Markets
25 pages
63 - 2005
100% (2)
63 - 2005
50 pages
M.Sc. Zoology Syllabus 2018-2020
No ratings yet
M.Sc. Zoology Syllabus 2018-2020
25 pages
BCA Syllabus for Semesters V & VI
No ratings yet
BCA Syllabus for Semesters V & VI
28 pages
Ultrasonic Nondestructive Evaluation Engineering and Biological Material Characterization 1st Edition Tribikram Kundu PDF Download
No ratings yet
Ultrasonic Nondestructive Evaluation Engineering and Biological Material Characterization 1st Edition Tribikram Kundu PDF Download
73 pages
Biostatistics For Nursing Students
No ratings yet
Biostatistics For Nursing Students
19 pages
Army Missile Reliability Testing
No ratings yet
Army Missile Reliability Testing
22 pages
Bayes Rule
No ratings yet
Bayes Rule
1 page
Özet Kitapçığı Syf 368-369
No ratings yet
Özet Kitapçığı Syf 368-369
676 pages
The Role of Artificial Intelligence in Transformin
No ratings yet
The Role of Artificial Intelligence in Transformin
8 pages
The Finite Element Method: Fundamentals and Applications in Civil, Hydraulic, Mechanical and Aeronautical Engineering Zhu B. Download
100% (8)
The Finite Element Method: Fundamentals and Applications in Civil, Hydraulic, Mechanical and Aeronautical Engineering Zhu B. Download
151 pages
MPS Form2
No ratings yet
MPS Form2
112 pages
Quantitative Reasoning II
No ratings yet
Quantitative Reasoning II
2 pages