SMS Spam Detection Using Machine Learning

This project develops a machine learning-based SMS spam detection system that classifies messages as 'spam' or 'ham' using models like Multinomial Naive Bayes, Linear SVM, and Random Forest. It utilizes a labeled dataset, applies text preprocessing and TF-IDF vectorization, and evaluates model performance through accuracy and F1-scores. The best-performing model supports real-time predictions and can be integrated into applications for effective spam management.

Uploaded by

Lakshmi Thirupathamma

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views12 pages

SMS Spam Detection Using Machine Learning

Uploaded by

Lakshmi Thirupathamma

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 12

SMS SPAM DETECTION

USING MACHINE LEARNING

APPLIED DATA SCIENCE PROJECT
Abstract
Content:
With the rapid rise in mobile communication, SMS
has become a common mode of interaction.
Unfortunately, it is also a target for spam. This
project presents an intelligent spam detection
system that classifies SMS messages as "spam" or
"ham" using machine learning models.
We applied preprocessing and TF-IDF vectorization
on a labelled dataset and trained three models—
Multinomial Naive Bayes, Linear SVM, and
Random Forest.
Model performance was evaluated using accuracy
and F1-score, with visual comparisons. The
system supports real-time predictions and can be
Introduction
Content:
SMS is a quick and widely used communication
method, but the rise in spam has created
safety and annoyance issues.
This project addresses the problem using
machine learning techniques to build a system
that detects spam messages automatically.
We used real SMS datasets and applied Naive
Bayes, SVM, and Random Forest models.
The system can also visualize model
performance, predict spam probability, and
save/load the trained models.
Project Background
Content:
As spam grows, traditional keyword-based filters are no longer
effective.
Spam messages evolve constantly, making static rules unreliable.
Machine learning provides a dynamic solution that learns from data
and adapts.
This project aims to test and compare different models to find the
most accurate spam classifier.

Problem and Objective

Content:
Problem: SMS spam is increasing, affecting communication and
security.
Objective: To build a machine learning-based system that can
classify SMS messages into spam or ham with high accuracy.
Dataset Description
Content:
•Dataset: spam.csv
•Shape: 5572 rows × 2 columns
•Columns:
•label: "spam" or "ham"
•message: Actual SMS content
Challenges:
•Class imbalance: more ham than spam
•Noisy language, slang, and typos
•Evolving spam patterns
Text Preprocessing
•Cleaned special characters, numbers, and punctuation
•Converted text to lowercase
•Tokenized messages into words
•Removed stopwords
•Applied TF-IDF vectorization for numerical representation

Proposed Solution and Pipeline

Title: End-to-End Pipeline for Spam Detection
Content:
Data Collection and Cleaning
TF-IDF Vectorization
Model Training (Naive Bayes, SVM, Random Forest)
Evaluation using Accuracy, F1-Score,spam f1 score , ham f1
Score Best Model Selection
Real-time Prediction and Visualization
Model Saving and Deployment
Model 1 – Multinomial Naive Bayes
Content:
•Probabilistic classifier based on Bayes’ theorem
•Assumes word independence
•Fast and efficient for text classification
•Outputs class label and prediction probability

Model 2 – Linear SVM

Content:
Finds optimal hyperplane for separation
High accuracy for sparse data
Works well with TF-IDF vectors
Best F1-score among all models
Model 3 – Random Forest Classifier
•Ensemble model with multiple decision trees
•Reduces overfitting through averaging
•Good for complex data
•Slower than other models, slightly less
effective for SMS data

Model Evaluation Metrics

Accuracy: Correct predictions / Total
messages
Spam F1-Score: Measures how well the
model identifies spam messages
Ham F1-Score: Measures how well the
model identifies ham messages (balance
between ham precision and recall)
F1-Score: Harmonic mean of precision and
recall
Real-Time Spam Prediction
Content:
•New SMS input by the user
•Preprocessed and vectorized like training data
•Prediction made using best-performing model
•Outputs:
• Spam or Ham label
• Probability score (e.g., 85% spam likelihood)

Model Deployment
Content:
Best model and TF-IDF vectorizer saved using
Pickle
Can be reloaded anytime for predictions
Suitable for integration in real-world apps (e.g.,
mobile, web)
Visualizations
Content:
•Bar chart of model performance (accuracy, F1-score)
•Spam probability comparison for a sample message across all
models
•Helps in model selection and understanding model
confidence

Conclusion
Content:
Machine learning models can effectively classify SMS as spam
or ham.
SVM delivered the best performance, followed by Naive
Bayes.
The project showcases how practical and scalable ML
solutions can help combat spam in real-time environments.

Future Work
Content:
Expand dataset (different languages, larger samples)
Thank You
Presented by:
•B. Lakshmi Thirupathamma –
AP22110010472
•K. Sai Nikhitha – AP22110010498
•K. Mohana Samanya –
AP22110010523
•B. Sai Sushanth – AP22110010590

SMS Spam Detection
No ratings yet
SMS Spam Detection
13 pages
SMS Spam Detection Using ML Techniques
No ratings yet
SMS Spam Detection Using ML Techniques
27 pages
SMS Spam Detection Using Machine Learning: An Experimental Study
No ratings yet
SMS Spam Detection Using Machine Learning: An Experimental Study
7 pages
Abh 1
No ratings yet
Abh 1
17 pages
Investigating Evasive Techniques in Sms Spam Filtering A Comparative Analysis of Machine Learning Models Ijariie26436
No ratings yet
Investigating Evasive Techniques in Sms Spam Filtering A Comparative Analysis of Machine Learning Models Ijariie26436
10 pages
Icdici 274 Spam Sms
No ratings yet
Icdici 274 Spam Sms
6 pages
PDFF
No ratings yet
PDFF
15 pages
B 14 Sms Spam Detection ML Ieee Report
No ratings yet
B 14 Sms Spam Detection ML Ieee Report
5 pages
Spam Sms
No ratings yet
Spam Sms
1 page
SMS Spam Detection with Machine Learning
No ratings yet
SMS Spam Detection with Machine Learning
59 pages
Email Spam
No ratings yet
Email Spam
8 pages
Sms Spam Using Machine Learning 4
No ratings yet
Sms Spam Using Machine Learning 4
42 pages
(KAVYA R SHETTY)
No ratings yet
(KAVYA R SHETTY)
21 pages
Intern 2
No ratings yet
Intern 2
26 pages
Solution: March 2018
No ratings yet
Solution: March 2018
8 pages
SMS Spam Detection Project
No ratings yet
SMS Spam Detection Project
2 pages
Spam SMS Filtering Based On Text Features and Supervised Machine Learning Techniques
No ratings yet
Spam SMS Filtering Based On Text Features and Supervised Machine Learning Techniques
19 pages
Spam Detection System 1
No ratings yet
Spam Detection System 1
21 pages
SMS Spam Detection Methods
No ratings yet
SMS Spam Detection Methods
14 pages
SMS Spam Filtering for Academics
No ratings yet
SMS Spam Filtering for Academics
6 pages
Major Project by Ali (Intrainz)
No ratings yet
Major Project by Ali (Intrainz)
25 pages
SMS Spam Detection Presentation
No ratings yet
SMS Spam Detection Presentation
8 pages
Nisha Internship3
No ratings yet
Nisha Internship3
87 pages
Fedspam: Privacy Preserving Sms Spam Prediction
No ratings yet
Fedspam: Privacy Preserving Sms Spam Prediction
12 pages
Aiml Pro
No ratings yet
Aiml Pro
14 pages
Report
No ratings yet
Report
19 pages
Final PPT
No ratings yet
Final PPT
18 pages
Ijsse 14.01 28
No ratings yet
Ijsse 14.01 28
8 pages
SMS Spam Detection with NLP
No ratings yet
SMS Spam Detection with NLP
21 pages
Future Generation Computer Systems: Pradeep Kumar Roy Jyoti Prakash Singh Snehasish Banerjee
No ratings yet
Future Generation Computer Systems: Pradeep Kumar Roy Jyoti Prakash Singh Snehasish Banerjee
10 pages
Sms Spaming Detection Using NLP Techniques
No ratings yet
Sms Spaming Detection Using NLP Techniques
9 pages
Fjet 12 11 4
No ratings yet
Fjet 12 11 4
13 pages
Functional Document
No ratings yet
Functional Document
3 pages
Spam Message Classification: RTRP Review-1
No ratings yet
Spam Message Classification: RTRP Review-1
12 pages
Project Report Template AICTE Internship 2025
No ratings yet
Project Report Template AICTE Internship 2025
20 pages
Spam Detection with Python
No ratings yet
Spam Detection with Python
26 pages
Black Yellow Modern Minimalist Elegant Presentation
No ratings yet
Black Yellow Modern Minimalist Elegant Presentation
29 pages
SMS Spam Detection - Project Template
No ratings yet
SMS Spam Detection - Project Template
7 pages
Opll
No ratings yet
Opll
20 pages
SMS Spam Detection Using Transformer Model
No ratings yet
SMS Spam Detection Using Transformer Model
5 pages
A Spam Transformer Model For SMS Spam Detection
100% (1)
A Spam Transformer Model For SMS Spam Detection
11 pages
Minor Project Doc - Vivek
No ratings yet
Minor Project Doc - Vivek
39 pages
Spam Detection Thesis
100% (3)
Spam Detection Thesis
6 pages
Data Mining Final Group13
No ratings yet
Data Mining Final Group13
13 pages
Batch 6
No ratings yet
Batch 6
6 pages
Ai Project
No ratings yet
Ai Project
8 pages
Document 1
No ratings yet
Document 1
1 page
Spam SMS (Or) Email Detection and Classification Using Machine Learning
No ratings yet
Spam SMS (Or) Email Detection and Classification Using Machine Learning
5 pages
Format Termpaper
No ratings yet
Format Termpaper
9 pages
ML Spam Detection for Developers
No ratings yet
ML Spam Detection for Developers
51 pages
Spam
No ratings yet
Spam
12 pages
Vishal FOML Micro Project Vishal & Milan
No ratings yet
Vishal FOML Micro Project Vishal & Milan
26 pages
SMS Spam Detection for Developers
No ratings yet
SMS Spam Detection for Developers
9 pages
IJNRD2403165
No ratings yet
IJNRD2403165
5 pages
Sms Spam Term Paper
No ratings yet
Sms Spam Term Paper
10 pages
Email Classification with Machine Learning
No ratings yet
Email Classification with Machine Learning
22 pages
RTRP Batch 10
No ratings yet
RTRP Batch 10
20 pages
Development of Content-Based SMS Classification Application by Using Word2Vec-based Feature Extraction
No ratings yet
Development of Content-Based SMS Classification Application by Using Word2Vec-based Feature Extraction
10 pages
Mercedes-Maybach GLS 600 4MATIC First Class Night Series MUXH22F6
No ratings yet
Mercedes-Maybach GLS 600 4MATIC First Class Night Series MUXH22F6
5 pages
Data 10 K-123
No ratings yet
Data 10 K-123
444 pages
Multi-Objective Optimization of Injection Molding Process Parameters For Short Cycle Time and Warpage Reduction Using Conformal Cooling Channel
No ratings yet
Multi-Objective Optimization of Injection Molding Process Parameters For Short Cycle Time and Warpage Reduction Using Conformal Cooling Channel
10 pages
Sense Making
100% (2)
Sense Making
233 pages
Disassembly Procedure
No ratings yet
Disassembly Procedure
17 pages
Describe A Photo
100% (8)
Describe A Photo
2 pages
Adalaide: Arshony Simiyu
No ratings yet
Adalaide: Arshony Simiyu
1 page
Evangeline Wambui CV
No ratings yet
Evangeline Wambui CV
13 pages
eSRS Guide
No ratings yet
eSRS Guide
3 pages
Ritu
100% (1)
Ritu
33 pages
Leveraging Consumer Behavior and Psychology in The Digital Economy 1st Edition by Norazah Mohd Suki 9781799830443 1799830446
100% (16)
Leveraging Consumer Behavior and Psychology in The Digital Economy 1st Edition by Norazah Mohd Suki 9781799830443 1799830446
87 pages
Used Cars and Real Estate Listings
No ratings yet
Used Cars and Real Estate Listings
2 pages
Mar305-0 Tech Data CXV
No ratings yet
Mar305-0 Tech Data CXV
8 pages
No Speed Limit Three Essays On Accelerationism Forerunners Ideas First Steven Shaviro 2015 University of Minnesota Press PDF
No ratings yet
No Speed Limit Three Essays On Accelerationism Forerunners Ideas First Steven Shaviro 2015 University of Minnesota Press PDF
33 pages
Petition for Relief: Dagupan Case Analysis
100% (1)
Petition for Relief: Dagupan Case Analysis
4 pages
XCBCV
No ratings yet
XCBCV
17 pages
Lecture Four Origines of The British People3 Thenormans and The Middle Ages
No ratings yet
Lecture Four Origines of The British People3 Thenormans and The Middle Ages
3 pages
Hydraulic Brake Booster Dissasembly LC200
100% (1)
Hydraulic Brake Booster Dissasembly LC200
10 pages
PTFE Hose Assembly Specification
No ratings yet
PTFE Hose Assembly Specification
22 pages
Activity Definition and Sequencing Worksheet 1.2
No ratings yet
Activity Definition and Sequencing Worksheet 1.2
3 pages
Chapter 10 Audit Reports
No ratings yet
Chapter 10 Audit Reports
7 pages
Mhhsrp33bcba0a D3B4 4928062025172237300
No ratings yet
Mhhsrp33bcba0a D3B4 4928062025172237300
1 page
Action Research Proposal (Pupil Incentive Program)
No ratings yet
Action Research Proposal (Pupil Incentive Program)
6 pages
TAK StrategicPlan 2024
No ratings yet
TAK StrategicPlan 2024
35 pages
MySQL Functions
No ratings yet
MySQL Functions
28 pages
Plant Watering System
No ratings yet
Plant Watering System
5 pages
School Client Feedback Survey Form
No ratings yet
School Client Feedback Survey Form
6 pages
PTV Installation Manual
No ratings yet
PTV Installation Manual
84 pages
Unit 7 Termination and Dismissal
No ratings yet
Unit 7 Termination and Dismissal
36 pages
Active Heating and Cooling
0% (1)
Active Heating and Cooling
16 pages

SMS Spam Detection Using Machine Learning

Uploaded by

SMS Spam Detection Using Machine Learning

Uploaded by

SMS SPAM DETECTION

USING MACHINE LEARNING

Problem and Objective

Proposed Solution and Pipeline

Model 2 – Linear SVM

Model Evaluation Metrics

You might also like