Assignment No 2 - ML

The assignment focuses on classifying emails as spam or not spam using binary classification methods, specifically K-Nearest Neighbors and Support Vector Machine. It utilizes a dataset containing 5172 emails with features representing the frequency of 3000 common words and labels indicating spam status. Students are expected to preprocess the data and analyze the performance of the classification algorithms.

Uploaded by

riroro1517

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views2 pages

Assignment No 2 - ML

Uploaded by

riroro1517

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Group B

Assignment No : 2
Title of the Assignment:Classify the email using the binary classification method. Email
Spam detection has two states:
a) Normal State – Not Spam,
b) Abnormal State – Spam.
Use K-Nearest Neighbors and Support Vector Machine for classification. Analyze their
performance.

Dataset Description:The csv file contains 5172 rows, each row for each email. There are
3002 columns. The first column indicates Email name. The name has been set with numbers
and not recipients' name to protect privacy. The last column has the labels for prediction : 1for
spam, 0 for not spam. The remaining 3000 columns are the 3000 most common words inall the
emails, after excluding the non-alphabetical characters/words. For each row, thecount of
each word(column) in that email(row) is stored in the respective cells. Thus,information
regarding all 5172 emails are stored in a compact dataframe rather than asseparate text
files.

Link:https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv

Objective of the Assignment:

Students should be able to classify email using the binary Classification and implement email
spam detection technique by using K-Nearest Neighbors and Support Vector Machine
algorithm.

Prerequisite:
1. Basic knowledge of Python
2. Concept of K-Nearest Neighbors and Support Vector Machine for classification.

Contents of the Theory:

1. Data Preprocessing
2. Binary Classification
3. K-Nearest Neighbours
4. Support Vector Machine
5. Train, Test and Split Procedure

Data Preprocessing:

Data preprocessing is a process of preparing the raw data and making it suitable for amachine
learning model. It is the rst and crucial step while creating a machine learning model.

When creating a machine learning project, it is not always a case that we come across the clean and
formatted data. And while doing any operation with data, it is mandatory to clean itand put in a formatted
way. So for this, we use data preprocessing task.

Why do we need Data Preprocessing?

A real-world data generally contains noises, missing values, and maybe in an unusable format which
cannot be directly used for machine learning models. Data preprocessing is required tasks for cleaning the
data and making it suitable for a machine learning model which also increases the accuracy and e ciency
of a machine learning model.

It involves below steps:

● Getting the dataset

● Importing libraries

● Importing datasets

● Finding Missing Data

● Encoding Categorical Data

● Splitting dataset into training and test set

● Feature scaling

Code :- https://www.kaggle.com/code/mfaisalqureshi/email-spam-detection-98-accuracy/notebook

ML Pract 2
No ratings yet
ML Pract 2
7 pages
ML PR 2-1
No ratings yet
ML PR 2-1
7 pages
Email Spam Detection Final Presentation-21BSCHH010002
No ratings yet
Email Spam Detection Final Presentation-21BSCHH010002
17 pages
Email Spam Classification Analysis
No ratings yet
Email Spam Classification Analysis
11 pages
Detecting Spam in Emails. Applying NLP and Deep Learning For Spam - by Ramya Vidiyala - Towards Data Science
No ratings yet
Detecting Spam in Emails. Applying NLP and Deep Learning For Spam - by Ramya Vidiyala - Towards Data Science
23 pages
AI Phase4
No ratings yet
AI Phase4
11 pages
ML 2
No ratings yet
ML 2
1 page
ML Classification Techniques
No ratings yet
ML Classification Techniques
4 pages
305 Ba p2 Machine Learning & Cognitive Intelligence Using Python
No ratings yet
305 Ba p2 Machine Learning & Cognitive Intelligence Using Python
14 pages
Unstructured Data Classification
100% (2)
Unstructured Data Classification
83 pages
Detecting Spam in Emails
No ratings yet
Detecting Spam in Emails
12 pages
Ie ML Project (Getting Started)
No ratings yet
Ie ML Project (Getting Started)
3 pages
Arnav MLlab04
No ratings yet
Arnav MLlab04
7 pages
Email
No ratings yet
Email
27 pages
Plagiarism Case Study
No ratings yet
Plagiarism Case Study
28 pages
Spam Detection Final-2
No ratings yet
Spam Detection Final-2
24 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
17 pages
DWDM Pavan Final
No ratings yet
DWDM Pavan Final
10 pages
Email Spam Detection for Engineers
No ratings yet
Email Spam Detection for Engineers
4 pages
Vishal FOML Micro Project Vishal & Milan
No ratings yet
Vishal FOML Micro Project Vishal & Milan
26 pages
B. Flowchart of The Model: Esult
No ratings yet
B. Flowchart of The Model: Esult
3 pages
Week 12
No ratings yet
Week 12
55 pages
Bayesian Inference
No ratings yet
Bayesian Inference
20 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
16 pages
Pruthviraj Micor Foml
No ratings yet
Pruthviraj Micor Foml
26 pages
Zoom
No ratings yet
Zoom
20 pages
Module3 Ids
No ratings yet
Module3 Ids
17 pages
Naive456 Bayes297Classification
No ratings yet
Naive456 Bayes297Classification
21 pages
Ai Project
No ratings yet
Ai Project
8 pages
Neural Network Spam Classifier
No ratings yet
Neural Network Spam Classifier
5 pages
Data Mining Lab Manual 2 2
No ratings yet
Data Mining Lab Manual 2 2
63 pages
Spam Email Detection Documentation
No ratings yet
Spam Email Detection Documentation
3 pages
AIML Unit3
No ratings yet
AIML Unit3
48 pages
Email Spam Classifier Using GaussianNB
No ratings yet
Email Spam Classifier Using GaussianNB
3 pages
Machine Learning Report
No ratings yet
Machine Learning Report
22 pages
Machine Learning Data Preprocessing Guide
No ratings yet
Machine Learning Data Preprocessing Guide
24 pages
ML 4
No ratings yet
ML 4
6 pages
Aiml Assignment
No ratings yet
Aiml Assignment
15 pages
Email Spam Detection PPT Github
No ratings yet
Email Spam Detection PPT Github
11 pages
Data Science Report
No ratings yet
Data Science Report
33 pages
Spam Email Dection
No ratings yet
Spam Email Dection
23 pages
Improving Spam Email Classification Accuracy Using Ensemble Techniques: A Stacking Approach
No ratings yet
Improving Spam Email Classification Accuracy Using Ensemble Techniques: A Stacking Approach
13 pages
Spam Filter - Machine Learning
No ratings yet
Spam Filter - Machine Learning
25 pages
LP III ML Assignment 2
No ratings yet
LP III ML Assignment 2
4 pages
ML Research Final
No ratings yet
ML Research Final
6 pages
Question Bank AIM 2
No ratings yet
Question Bank AIM 2
4 pages
Department of Computer Science and Engineering Lab Manual: 3 Year - 6 Semester
No ratings yet
Department of Computer Science and Engineering Lab Manual: 3 Year - 6 Semester
50 pages
Spam Detection for CS Students
No ratings yet
Spam Detection for CS Students
29 pages
ML Project - Classifying Spam Emails
No ratings yet
ML Project - Classifying Spam Emails
3 pages
Sms Spam Using Machine Learning 4
No ratings yet
Sms Spam Using Machine Learning 4
42 pages
1822 B Deleted
No ratings yet
1822 B Deleted
38 pages
Day11 Machine Learning
No ratings yet
Day11 Machine Learning
37 pages
Data Mining Using Python Lab
100% (1)
Data Mining Using Python Lab
63 pages
Week-6 Lab Print
No ratings yet
Week-6 Lab Print
6 pages
Research Paper Temp
No ratings yet
Research Paper Temp
7 pages
Exp 1.1
No ratings yet
Exp 1.1
17 pages
Machine Learning Crash Course: Part I
No ratings yet
Machine Learning Crash Course: Part I
40 pages
Information Risk Checklist
No ratings yet
Information Risk Checklist
4 pages
Car Ad Project Report for Diploma
No ratings yet
Car Ad Project Report for Diploma
94 pages
Library Collection Manager Guide
No ratings yet
Library Collection Manager Guide
14 pages
Database Management System Chapter 2
No ratings yet
Database Management System Chapter 2
19 pages
Chapter 8
No ratings yet
Chapter 8
26 pages
CourseMaterial-Access Notes
No ratings yet
CourseMaterial-Access Notes
303 pages
Chapter 2 - Testing Throughout of SDLC - Question
No ratings yet
Chapter 2 - Testing Throughout of SDLC - Question
40 pages
Information Systems in Business Management
No ratings yet
Information Systems in Business Management
4 pages
Plant Disease Detection
No ratings yet
Plant Disease Detection
17 pages
NetBackup102 AdminGuide SharePoint
No ratings yet
NetBackup102 AdminGuide SharePoint
114 pages
CAD, Mechatronics
No ratings yet
CAD, Mechatronics
168 pages
Senior Data Engineer Profile Overview
No ratings yet
Senior Data Engineer Profile Overview
2 pages
GIS SME For NATO Core GIS
No ratings yet
GIS SME For NATO Core GIS
2 pages
SAP Change Control and Testing Guide
No ratings yet
SAP Change Control and Testing Guide
2 pages
ITPC206 DBMS Mid Term Exam 2023-24
No ratings yet
ITPC206 DBMS Mid Term Exam 2023-24
1 page
Database Normalization: Mohua Sarkar, PH.D Software Engineer California Pacific Medical Center 415-600-7003
No ratings yet
Database Normalization: Mohua Sarkar, PH.D Software Engineer California Pacific Medical Center 415-600-7003
23 pages
Latest AI-102 Dumps
No ratings yet
Latest AI-102 Dumps
21 pages
2023-CSE24DBF-Assignment1-Part 1 PDF
No ratings yet
2023-CSE24DBF-Assignment1-Part 1 PDF
5 pages
DBMS Notes
No ratings yet
DBMS Notes
4 pages
3 BW4HANA Intro & Architecture
No ratings yet
3 BW4HANA Intro & Architecture
42 pages
Ccw331-Question Bank
No ratings yet
Ccw331-Question Bank
4 pages
CP4094 - MPC - As2
No ratings yet
CP4094 - MPC - As2
3 pages
DB2-PPT-2-DB2 Objects V1.0
100% (1)
DB2-PPT-2-DB2 Objects V1.0
43 pages
NoSQL Database Practical Assignments
No ratings yet
NoSQL Database Practical Assignments
5 pages
7-Day UI/UX Design Roadmap
No ratings yet
7-Day UI/UX Design Roadmap
5 pages
Microsoft Power Bi Dashboards Masterclass - Workshop
No ratings yet
Microsoft Power Bi Dashboards Masterclass - Workshop
2 pages
Program BIWA 2022
No ratings yet
Program BIWA 2022
2 pages
Richard Montgomery HS Online Resources
50% (2)
Richard Montgomery HS Online Resources
3 pages
Database Recovery and Security Overview
No ratings yet
Database Recovery and Security Overview
33 pages
MODEL QUESTION PAPER Dbms
100% (2)
MODEL QUESTION PAPER Dbms
3 pages

Assignment No 2 - ML

Uploaded by

Assignment No 2 - ML

Uploaded by

Group B

Objective of the Assignment:

Contents of the Theory:

Why do we need Data Preprocessing?

It involves below steps:

● Getting the dataset

● Finding Missing Data

● Encoding Categorical Data

● Splitting dataset into training and test set

You might also like