0% found this document useful (0 votes)

13 views22 pages

Record

Uploaded by

sravyaracha1

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views22 pages

Record

Uploaded by

sravyaracha1

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 22

1.

Basic Data Preprocessing

a. Installation of python environment/Anaconda IDE for machine
learning and installing python modules/packages like scikit-learn,
Keras and Tensorflow.
b. Programs involving pandas, numpy and scipy libraries.

a. Installation of python environment/Anaconda IDE for machine learning and

installing python modules/packages like scikit-learn, Keras and Tensorflow.
Program:

Output:
b. Programs involving pandas, numpy and scipy libraries
i. Pandas
Program:
import pandas as pd

# Create sample dataset

data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
'Age': [25, None, 30, 35, 40],
'Gender': ['Female', 'Male', None, 'Male', 'Female'],
'Salary': [50000, 60000, None, 80000, 70000]
}

df = pd.DataFrame(data)

# Fill missing values

df['Age'].fillna(df['Age'].mean(), inplace=True)
df['Salary'].fillna(0, inplace=True)

# Encode categorical data

df['Gender'] = df['Gender'].fillna('Unknown') # Fill missing Gender with 'Unknown'
df['Gender'] = df['Gender'].map({'Female': 0, 'Male': 1, 'Unknown': 2}) # Map Gender values
df['Salary_in_Lakhs'] = df['Salary'] / 100000 # Add new column, convert Salary to lakhs

print("\nPreprocessed Dataset:")
print(df)

Output:
ii. Numpy
Program:
import numpy as np

# Example data with missing values and categorical features

data = np.array([
[25, 5.5, 60, 'male'],
[30, 6.0, 75, 'female'],
[35, 5.9, np.nan, 'male'],
[40, 6.1, 85, 'female'],
[45, 5.8, 95, 'male'],
])

def handle_missing_data(data):
# Convert the data to a float array for processing
data_float = data[:, :-1].astype(float) # Ignore the categorical column

# Replace missing values (np.nan) with the column mean

column_means = np.nanmean(data_float, axis=0)
inds = np.where(np.isnan(data_float))
data_float[inds] = np.take(column_means, inds[1])
return data_float

# Normalize the features (scale them to a range of 0-1)

def normalize_data(data):
min_vals = data.min(axis=0)
max_vals = data.max(axis=0)
return (data - min_vals) / (max_vals - min_vals)

# Encoding categorical data (convert 'male'/'female' to 0/1)

def encode_categorical(data):
gender = data[:, -1] # Extract the last column (gender)
gender_encoded = np.where(gender == 'male', 0, 1)
return gender_encoded

# Data Preprocessing Steps

processed_data = handle_missing_data(data)
normalized_data = normalize_data(processed_data)
encoded_gender = encode_categorical(data)

# Final Processed Data

print("Processed Data (Missing Values Handled):\n", processed_data)
print("\nNormalized Data (Scaled between 0 and 1):\n", normalized_data)
print("\nEncoded Gender Data (0: Male, 1: Female):\n", encoded_gender)
Output:
iii. Scipy
Program:
import numpy as np
from scipy import stats
from scipy.sparse import csr_matrix
from sklearn.preprocessing import LabelEncoder

# Example data with missing values and categorical features

data = np.array([
[25, 5.5, 60, 'male'],
[30, 6.0, 75, 'female'],
[35, 5.9, np.nan, 'male'],
[40, 6.1, 85, 'female'],
[45, 5.8, 95, 'male'],
])

def handle_missing_data(data):
data_float = data[:, :-1].astype(float) # Exclude categorical column
col_means = np.nanmean(data_float, axis=0)

# Replace missing values (np.nan) with the column mean

inds = np.where(np.isnan(data_float))
data_float[inds] = np.take(col_means, inds[1])
return data_float

# Standardize (Z-score normalization) the features

def standardize_data(data):
return stats.zscore(data, axis=0)

# Encoding categorical data (convert 'male'/'female' to 0/1)

def encode_categorical(data):
gender = data[:, -1] # Extract the last column (gender)
label_encoder = LabelEncoder()
gender_encoded = label_encoder.fit_transform(gender)
return gender_encoded

# Data Preprocessing Steps

processed_data = handle_missing_data(data)
standardized_data = standardize_data(processed_data)
encoded_gender = encode_categorical(data)

# Final Processed Data

print("Processed Data (Missing Values Handled):\n", processed_data)
print("\nStandardized Data (Z-score normalization):\n", standardized_data)
print("\nEncoded Gender Data (0: Male, 1: Female):\n", encoded_gender)
Output:
2. Programs for classification
a. Build models using linear regression and logistic regression and apply it
to classify a new instance.
b. Write a program to demonstrate the following classifiers. Use an
appropriate dataset for building the model. Apply the model to classify
a new instance.
i. Decision tree
ii. K-Nearest Neighbour
iii. Naïve Bayes
iv. Support Vector Machine

a. Build models using linear regression and logistic regression and apply it to
classify a new instance.
i. Linear regression
Program:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Load the iris dataset

iris = load_iris()
X = iris.data
y = iris.target

# For linear regression, let's predict the Petal Length (use y == iris.target for another feature)
y_continuous = iris.data[:, 2] # Since petal length is at index 2

X_train, X_test, y_train, y_test = train_test_split(X, y_continuous, test_size=0.2,

random_state=42)

lr = LinearRegression()
lr.fit(X_train, y_train)

y_pred = lr.predict(X_test)

print("Linear Regression (Iris Dataset - Petal Length):")

print("Mean Squared Error:", mean_squared_error(y_test, y_pred))

# Predict for a new instance

new_instance = [[5.1, 3.5, 1.4, 0.2]] # Example feature values
predicted_petal_length = lr.predict(new_instance)
print("Predicted Petal Length for New Instance:", predicted_petal_length)
Output:

ii. Logistic regression

Program:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

iris = load_iris()
X = iris.data
y = iris.target

# Use the original target for Logistic Regression (species classification)

y_classification = iris.target # Species labels (0, 1, 2 for setosa, versicolor, virginica)

X_train, X_test, y_train, y_test = train_test_split(X, y_classification, test_size=0.2,

random_state=42)

log_reg = LogisticRegression(max_iter=200)
log_reg.fit(X_train, y_train)

y_pred_log = log_reg.predict(X_test)

print("\nLogistic Regression (Iris Dataset - Species Classification):")

print("Accuracy:", accuracy_score(y_test, y_pred_log))
print("Classification Report:\n", classification_report(y_test, y_pred_log))

# Predict for a new instance

new_instance = [[5.1, 3.5, 1.4, 0.2]] # Example feature values
predicted_species = log_reg.predict(new_instance)
species = iris.target_names[predicted_species][0]
print("Predicted Species for New Instance:", species)
Output:
b. Write a program to demonstrate the following classifiers. Use an appropriate
dataset for building the model. Apply the model to classify a new instance.
i. Decision Tree
Program:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# Load the wine dataset

wine = load_wine()
X = wine.data
y = wine.target # Target – classes of wine

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)

y_pred_clf = clf.predict(X_test)

print("Decision Tree Classifier (Wine Dataset):")

print("Accuracy:", accuracy_score(y_test, y_pred_clf))
print("Classification Report:\n", classification_report(y_test, y_pred_clf))

# Predict for a new instance

new_instance = [[13.4, 2.5, 2.6, 19.4, 100.0, 2.9, 2.5, 0.3, 1.3, 3.0, 1.0, 2.2, 680]]
dt_prediction = clf.predict(new_instance)
print("Predicted Wine Class with Decision Tree:", wine.target_names[dt_prediction][0])

Output:
ii. K-Nearest Neighbour
Program:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

# Load the Digits dataset

digits = load_digits()
X = digits.data # Features (flattened pixel values)
y = digits.target # Target (digits 0-9)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)

y_pred_clf = clf.predict(X_test)

print("K-Nearest Neighbor Classifier (Digits Dataset):")

print("Accuracy:", accuracy_score(y_test, y_pred_clf))
print("Classification Report:\n", classification_report(y_test, y_pred_clf))

# Predict for a new instance with 64 features (flattened 8x8 pixel values)
new_instance = [[0, 0, 6, 15, 14, 3, 0, 0, 0, 0, 7, 16, 13, 5, 0, 0, 0, 9, 16, 14, 5, 0, 0, 11, 14, 7,
0, 0, 2, 14, 15, 0, 0, 0, 9, 16, 10, 3, 0, 0, 0, 0, 7, 14, 13, 4, 0, 0, 1, 12, 13, 0, 0, 0, 12, 12, 0, 0,
1, 15, 16, 0, 0, 0]]
knn_prediction = clf.predict(new_instance)
print("Predicted Digit with K-Nearest Neighbor:", knn_prediction[0])
Output:
iii. Naïve Bayes
Program:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

# Load the Breast Cancer dataset

cancer = load_breast_cancer()
X = cancer.data # Features (30 features)
y = cancer.target # Target (benign or malignant)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = GaussianNB()
clf.fit(X_train, y_train)

y_pred_clf = clf.predict(X_test)

print("Naïve Bayes Classifier (Breast Cancer Dataset):")

print("Accuracy:", accuracy_score(y_test, y_pred_clf))
print("Classification Report:\n", classification_report(y_test, y_pred_clf))

# Predict for a new instance (30 features)

new_instance = [[15.0, 10.0, 110.0, 0.15, 0.1, 0.08, 0.3, 0.25, 0.7, 0.5, 0.8, 1.2, 0.5, 1.0, 0.6,
0.8, 1.0, 0.3, 1.2, 1.0, 0.4, 0.6, 0.9, 0.5, 0.7, 14.0, 1.2, 0.4, 0.1, 0.3]]
nb_prediction = clf.predict(new_instance)
print("Predicted Class with Naïve Bayes:", "Malignant" if nb_prediction[0] == 1 else
"Benign")

Output:
iv. Support Vector Machine
Program:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

wine = load_wine()
X = wine.data
y = wine.target # Target - classes of wine

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = SVC(kernel='linear', random_state=42)

clf.fit(X_train, y_train)

y_pred_clf = clf.predict(X_test)

print("Support Vector Machine Classifier (Wine Dataset):")

print("Accuracy:", accuracy_score(y_test, y_pred_clf))
print("Classification Report:\n", classification_report(y_test, y_pred_clf))

# Predict for a new instance

new_instance = [[13.4, 2.5, 2.6, 19.4, 100.0, 2.9, 2.5, 0.3, 1.3, 3.0, 1.0, 2.2, 680]]
svm_prediction = clf.predict(new_instance)
print("Predicted Wine Class with SVM:", wine.target_names[svm_prediction][0])

Output:
3. Demonstration of clustering algorithms using
a. K-means
b. Hierarchical algorithms

a. K-means Algorithm
Program:
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

iris = load_iris()
X = iris.data
y = iris.target

# Apply K-means clustering

kmeans = KMeans(n_clusters=3, random_state=42) # We know there are 3 species
kmeans.fit(X)

# Predict the clusters

y_kmeans = kmeans.predict(X)

# Visualizing the clusters

sns.set(style="whitegrid")
plt.figure(figsize=(10, 6))

# Plotting using the first two features for simplicity

plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, cmap='viridis')

centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, marker='x') # centroids
plt.title('K-Means Clustering on Iris Dataset')
plt.xlabel('Sepal Length')
plt.ylabel('Sepal Width')
plt.show()

# Evaluation (comparing with actual labels)

df = pd.DataFrame({'True Label': y, 'Cluster Label': y_kmeans})
print(df.head())
Output:
b. Hierarchical algorithm – Agglomerative Clustering
Program:
from sklearn.cluster import AgglomerativeClustering
import scipy.cluster.hierarchy as sch
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
y = iris.target

# Apply Agglomerative Clustering

agg_clust = AgglomerativeClustering(n_clusters=3, metric='euclidean', linkage='ward')
agg_labels = agg_clust.fit_predict(X)

# Visualizing the Hierarchical Clustering using Dendrogram

plt.figure(figsize=(10, 6))
sch.dendrogram(sch.linkage(X, method='ward'))
plt.title('Hierarchical Clustering Dendrogram')
plt.xlabel('Samples')
plt.ylabel('Distance')
plt.show()

# Evaluating the clustering results

df_agg = pd.DataFrame({'True Label': y, 'Agglomerative Label': agg_labels})
print(df_agg.head())

Output:
4. Demonstrate ensemble techniques like boosting, bagging, and random
forests.

i. Boosting
Program:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

iris = load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Create an AdaBoost classifier with a Decision Tree as the base classifier

adaboost_classifier = AdaBoostClassifier(estimator=DecisionTreeClassifier(max_depth=1),
n_estimators=50, random_state=42)

adaboost_classifier.fit(X_train, y_train)

y_pred_adaboost = adaboost_classifier.predict(X_test)

# Evaluate the model

accuracy_adaboost = accuracy_score(y_test, y_pred_adaboost)
print(f'AdaBoost Classifier Accuracy: {accuracy_adaboost:.2f}')

Output:
ii. Bagging
Program:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Create a Bagging classifier with a Decision Tree as the base classifier

bagging_classifier = BaggingClassifier(estimator=DecisionTreeClassifier(), n_estimators=50,
random_state=42)

bagging_classifier.fit(X_train, y_train)

y_pred = bagging_classifier.predict(X_test)

# Evaluate the model

accuracy = accuracy_score(y_test, y_pred)
print(f'Bagging Classifier Accuracy: {accuracy:.2f}')

Output:
iii. Random Forests
Program:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Create a Random Forest classifier

rf_classifier = RandomForestClassifier(n_estimators=50, random_state=42)

rf_classifier.fit(X_train, y_train)

y_pred_rf = rf_classifier.predict(X_test)

# Evaluate the model

accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f'Random Forest Classifier Accuracy: {accuracy_rf:.2f}')

Output:
5. Build a classifier, compare its performance with an ensemble technique
like random forest.

DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
Iii Aid - ML
No ratings yet
Iii Aid - ML
30 pages
Aml Lab
No ratings yet
Aml Lab
6 pages
AAM PR QB
No ratings yet
AAM PR QB
13 pages
ML File Syllabus
No ratings yet
ML File Syllabus
43 pages
ML Lab Programs For Exam
No ratings yet
ML Lab Programs For Exam
10 pages
Machine Learnine Experiment by Priyanka
No ratings yet
Machine Learnine Experiment by Priyanka
6 pages
VND - Openxmlformats Officedocument - Wordprocessingml.document&rendition 1
No ratings yet
VND - Openxmlformats Officedocument - Wordprocessingml.document&rendition 1
24 pages
AIML Project
No ratings yet
AIML Project
4 pages
Data Mining Lab Manual CSE VII Sem
No ratings yet
Data Mining Lab Manual CSE VII Sem
63 pages
ML Yogesh
No ratings yet
ML Yogesh
23 pages
Remaining ML Program
No ratings yet
Remaining ML Program
12 pages
23BCE7092 ML Lab Assignment
No ratings yet
23BCE7092 ML Lab Assignment
14 pages
Data Mining with Python Lab Guide
No ratings yet
Data Mining with Python Lab Guide
39 pages
ML Lab
No ratings yet
ML Lab
29 pages
ML Lab Works
No ratings yet
ML Lab Works
14 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
No ratings yet
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
38 pages
Practical Machine Learning Code Examples
No ratings yet
Practical Machine Learning Code Examples
33 pages
DM Final
No ratings yet
DM Final
79 pages
Machine Learning Laboratory (BTCS619-18) B.Tech Cse 6Th 2024 EVEN
No ratings yet
Machine Learning Laboratory (BTCS619-18) B.Tech Cse 6Th 2024 EVEN
29 pages
ML Manual
No ratings yet
ML Manual
53 pages
Lab 08 - Data Preprocessing
No ratings yet
Lab 08 - Data Preprocessing
9 pages
21CSC305P ML - Lab Programs 1 - 9
No ratings yet
21CSC305P ML - Lab Programs 1 - 9
36 pages
Machine Learning Practical File MRIEM
No ratings yet
Machine Learning Practical File MRIEM
49 pages
Machine Learning Lab Manual Guide
No ratings yet
Machine Learning Lab Manual Guide
13 pages
Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
27 pages
Project Report
100% (3)
Project Report
36 pages
FYMCA IDSLab A6 Submission
No ratings yet
FYMCA IDSLab A6 Submission
9 pages
Train
No ratings yet
Train
17 pages
ML Lab
No ratings yet
ML Lab
23 pages
DA Programs
No ratings yet
DA Programs
44 pages
Machine Learning Programs
No ratings yet
Machine Learning Programs
10 pages
FIND-S and Decision Tree Algorithms Explained
No ratings yet
FIND-S and Decision Tree Algorithms Explained
24 pages
Aiml Practical
No ratings yet
Aiml Practical
17 pages
Department of Computer Engineering Academic Term: June-Nov 2021
No ratings yet
Department of Computer Engineering Academic Term: June-Nov 2021
6 pages
Pattern Recognition
No ratings yet
Pattern Recognition
26 pages
ML Lab Programs
No ratings yet
ML Lab Programs
9 pages
Machine Learning LAB
No ratings yet
Machine Learning LAB
20 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
9 pages
Machine Learning Data Prep Guide
No ratings yet
Machine Learning Data Prep Guide
17 pages
Project Paarth
No ratings yet
Project Paarth
21 pages
ML LAB Rec
No ratings yet
ML LAB Rec
9 pages
Lab Manual ML
No ratings yet
Lab Manual ML
23 pages
ML Record
No ratings yet
ML Record
14 pages
Dsbda 5
No ratings yet
Dsbda 5
4 pages
EX - NO:3: Algorithm
No ratings yet
EX - NO:3: Algorithm
11 pages
23BCE7199 ML Lab Assignment
No ratings yet
23BCE7199 ML Lab Assignment
15 pages
Data Science Code Implementations
No ratings yet
Data Science Code Implementations
274 pages
Machine Learning
No ratings yet
Machine Learning
27 pages
Da Lab Mannual
No ratings yet
Da Lab Mannual
25 pages
CS178 Winter 2017 Homework 1 Guide
No ratings yet
CS178 Winter 2017 Homework 1 Guide
4 pages
Machine Learning Lab Record: Dr. Sarika Hegde
No ratings yet
Machine Learning Lab Record: Dr. Sarika Hegde
23 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
AI and ML Lab Ex3 To 12
No ratings yet
AI and ML Lab Ex3 To 12
27 pages
Data Science for Engineers Course
No ratings yet
Data Science for Engineers Course
8 pages
Logistic Regression on Iris Dataset
No ratings yet
Logistic Regression on Iris Dataset
39 pages
Unit 1
No ratings yet
Unit 1
39 pages
DAAf
No ratings yet
DAAf
41 pages
Group by Clause
No ratings yet
Group by Clause
7 pages
Software Engineering
No ratings yet
Software Engineering
115 pages
Lecture 8085 1
No ratings yet
Lecture 8085 1
100 pages
Tomato Disease Classification 1 3
No ratings yet
Tomato Disease Classification 1 3
3 pages
AI&ML
No ratings yet
AI&ML
18 pages
Cluster Lecture-1
No ratings yet
Cluster Lecture-1
20 pages
Kunci Jawaban Kalkulus Edisi 9yunusFairVry - Blogspot.com-262-280
No ratings yet
Kunci Jawaban Kalkulus Edisi 9yunusFairVry - Blogspot.com-262-280
19 pages
KNN Is A Very Simple Algorithm Used To Solve Classification Problems. KNN Stands For K-Nearest Neighbors. K Is The Number of Neighbors in KNN
0% (1)
KNN Is A Very Simple Algorithm Used To Solve Classification Problems. KNN Stands For K-Nearest Neighbors. K Is The Number of Neighbors in KNN
9 pages
Data Clustering for Analysts
No ratings yet
Data Clustering for Analysts
8 pages
ISYE 7406 Fall 2023 Syllabus
No ratings yet
ISYE 7406 Fall 2023 Syllabus
10 pages
Cluster Analysis and K-Means Guide
No ratings yet
Cluster Analysis and K-Means Guide
20 pages
MCQ
No ratings yet
MCQ
8 pages
R Clustering for Data Scientists
No ratings yet
R Clustering for Data Scientists
54 pages
MLready
No ratings yet
MLready
3 pages
1
No ratings yet
1
7 pages
Phishing Detection Model Evaluation
No ratings yet
Phishing Detection Model Evaluation
17 pages
Unit 3 Classification - Dr. Vidyut D
No ratings yet
Unit 3 Classification - Dr. Vidyut D
72 pages
Actuarial Life Table Analysis
No ratings yet
Actuarial Life Table Analysis
19 pages
ISMLA Module5
No ratings yet
ISMLA Module5
25 pages
Unit IV Classification DataScience
No ratings yet
Unit IV Classification DataScience
93 pages
MineScape Geostatistics
No ratings yet
MineScape Geostatistics
24 pages
Pattern Recognition Handwritten Notes
No ratings yet
Pattern Recognition Handwritten Notes
64 pages
KNN Numerical Examples and Solutions
100% (2)
KNN Numerical Examples and Solutions
59 pages
Unit-3 ML
No ratings yet
Unit-3 ML
18 pages
Insurance Cost Prediction Study
No ratings yet
Insurance Cost Prediction Study
12 pages
Creating Box Plots 2
No ratings yet
Creating Box Plots 2
2 pages
Mushroom Final Project Report
No ratings yet
Mushroom Final Project Report
79 pages
Scikit-Learn Cheatsheet: Key Functions
No ratings yet
Scikit-Learn Cheatsheet: Key Functions
1 page
COVID-19 Data Analysis in Python
No ratings yet
COVID-19 Data Analysis in Python
20 pages
Confusion Matrix in Machine Learning
No ratings yet
Confusion Matrix in Machine Learning
10 pages
Machine Learning Concepts and Techniques
No ratings yet
Machine Learning Concepts and Techniques
15 pages
Naïve Bayes + Neural Network
No ratings yet
Naïve Bayes + Neural Network
10 pages
Ensembles Models and Decision Tree
No ratings yet
Ensembles Models and Decision Tree
21 pages

Record

Uploaded by

Record

Uploaded by

1.

Basic Data Preprocessing

a. Installation of python environment/Anaconda IDE for machine learning and

# Create sample dataset

# Fill missing values

# Encode categorical data

# Example data with missing values and categorical features

# Replace missing values (np.nan) with the column mean

# Normalize the features (scale them to a range of 0-1)

# Encoding categorical data (convert 'male'/'female' to 0/1)

# Data Preprocessing Steps

# Final Processed Data

# Example data with missing values and categorical features

# Replace missing values (np.nan) with the column mean

# Standardize (Z-score normalization) the features

# Encoding categorical data (convert 'male'/'female' to 0/1)

# Data Preprocessing Steps

# Final Processed Data

# Load the iris dataset

X_train, X_test, y_train, y_test = train_test_split(X, y_continuous, test_size=0.2,

print("Linear Regression (Iris Dataset - Petal Length):")

# Predict for a new instance

ii. Logistic regression

# Use the original target for Logistic Regression (species classification)

X_train, X_test, y_train, y_test = train_test_split(X, y_classification, test_size=0.2,

print("\nLogistic Regression (Iris Dataset - Species Classification):")

# Predict for a new instance

# Load the wine dataset

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Decision Tree Classifier (Wine Dataset):")

# Predict for a new instance

# Load the Digits dataset

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("K-Nearest Neighbor Classifier (Digits Dataset):")

# Load the Breast Cancer dataset

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Naïve Bayes Classifier (Breast Cancer Dataset):")

# Predict for a new instance (30 features)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = SVC(kernel='linear', random_state=42)

print("Support Vector Machine Classifier (Wine Dataset):")

# Predict for a new instance

# Apply K-means clustering

# Predict the clusters

# Visualizing the clusters

# Plotting using the first two features for simplicity

# Evaluation (comparing with actual labels)

# Apply Agglomerative Clustering

# Visualizing the Hierarchical Clustering using Dendrogram

# Evaluating the clustering results

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Create an AdaBoost classifier with a Decision Tree as the base classifier

# Evaluate the model

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Create a Bagging classifier with a Decision Tree as the base classifier

# Evaluate the model

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Create a Random Forest classifier

# Evaluate the model

You might also like