100% found this document useful (1 vote)

40 views8 pages

Fraud Detection Using Machine Learning

This document outlines a project on fraud detection using machine learning, focusing on analyzing transaction patterns to predict fraudulent activities in real-time. It describes the objectives, tools used, dataset details, data analysis, feature engineering, model training with logistic regression, and the development of a Streamlit web application for predictions. The project demonstrates the complete cycle from data analysis to deployment, with future scope for real-time detection and advanced algorithms.

Uploaded by

Anwesha Jana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

40 views8 pages

Fraud Detection Using Machine Learning

Uploaded by

Anwesha Jana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 8

FRAUD DETECTION USING

MACHINE LEARNING

NAME: ANWESHA JANA

BRANCH: CE32
ROLL_NO: 33

1|Page
🧠 1. Introduction
In today’s digital world, online financial transactions have increased drastically, leading to a
parallel rise in fraudulent activities. Detecting these frauds in real time has become a critical
challenge for banks and payment systems.
This project, “Fraud Detection using Machine Language”, aims to analyze transaction
patterns and build a machine learning model that can automatically predict whether a
transaction is fraudulent (1) or legitimate (0) based on several input features.

🎯 2. Objective
The main objective of this project is to:
 Analyze financial transaction data and identify behavioral patterns.
 Train a machine learning model that can distinguish between normal and fraudulent
transactions.
 Build a user-friendly Streamlit web app that uses the trained model to predict fraud
for new inputs.

🧰 3. Software & Tools Used

Tool / Library Purpose

Programming language used for analysis and model

Python 3
development

Jupyter Notebook Used for interactive coding and data analysis

Streamlit For building the web application interface

Pandas Data loading and manipulation

NumPy Numerical operations and array handling

Matplotlib & Seaborn Visualization libraries for plotting graphs and insights

Scikit-learn Machine learning library for model building and evaluation

Joblib Saving and loading trained models for reuse

2|Page
🔍 4. Dataset Description
 Source: Kaggle Fraud Detection Dataset
Kaggle – Fraud Detection Dataset
 File Name: AIML Dataset.csv
 Total Records: Varies (~6 million in full dataset)
 Target Column: isFraud (1 = Fraudulent, 0 = Legitimate)
Key Features:

Column Description

Time step (unit of time when transaction

step
occurred)

Type of transaction (TRANSFER, CASH_OUT,

type
PAYMENT, etc.)

amount Transaction amount

nameOrig Sender’s name

oldbalanceOrg Sender’s balance before transaction

newbalanceOrig Sender’s balance after transaction

nameDest Receiver’s name

oldbalanceDest Receiver’s balance before transaction

newbalanceDest Receiver’s balance after transaction

isFraud Target label (1 = Fraud, 0 = Not fraud)

isFlaggedFraud Flag for suspicious transactions

📊 5. Data Analysis (EDA)

3|Page
Performed using Pandas, Matplotlib, and Seaborn.
Main Insights:
 The dataset is highly imbalanced — only a small percentage of transactions are
fraudulent.
 Fraud mainly occurs in TRANSFER and CASH_OUT transaction types.
 Fraudulent transactions often have a zero balance after transfer (suspicious pattern).
 Logarithmic transformation was used on the amount column for better visualization.
Key Visualizations:
 Bar chart of transaction types.
 Histogram of transaction amounts (log scale).
 Boxplot showing amount distribution in fraud vs non-fraud cases.
 Correlation heatmap showing relationships between numeric features.
 Line chart showing number of frauds over time.

⚙️6. Feature Engineering

New derived columns were created:
 balanceDiffOrig = oldbalanceOrg - newbalanceOrig
 balanceDiffDest = newbalanceDest - oldbalanceDest
These help the model understand money movement patterns for both sender and receiver.
Unnecessary columns like step, nameOrig, nameDest, and isFlaggedFraud were removed to
simplify the dataset.

🤖 7. Machine Learning Model

4|Page
Algorithm Used: Logistic Regression
 Logistic Regression was chosen because it is:
o Simple and fast to train.
o Effective for binary classification problems.
o Provides interpretable coefficients (relationship strength).
Preprocessing Pipeline:
Used ColumnTransformer and Pipeline to:
 Standardize numeric features using StandardScaler.
 Encode categorical variable type using OneHotEncoder.
 Balance class weights (class_weight="balanced") due to data imbalance.
Model Training Steps:
1. Split data into training and testing sets using train_test_split.
2. Build preprocessing + classifier pipeline.
3. Train model using .fit(X_train, y_train).
4. Predict using .predict(X_test).
Evaluation Metrics:
 Confusion Matrix
 Classification Report (Precision, Recall, F1-score)
 Accuracy Score
The model achieved good recall and precision for detecting fraud given the class imbalance.
Model Saving:
import joblib
joblib.dump(pipeline, "fraud_detection_pipeline.pkl")

This saved the trained model for reuse in the Streamlit app.

💾 8. Application Development (Streamlit App)

5|Page
File: fraud_detection.py
A simple user interface was built using Streamlit for real-time fraud prediction.
Steps:
1. Load the trained model using joblib.load().
2. Accept user input values such as:
o Transaction Type
o Amount
o Old/New Sender Balance
o Old/New Receiver Balance
3. On clicking Predict, create a DataFrame from input values.
4. Pass the DataFrame to model.predict().
5. Display the prediction result using st.success() or st.error() messages.
Run Command:
python -m streamlit run fraud_detection.py

🧩 9. Workflow Diagram

6|Page
┌──────────────────────────┐
│ Dataset (CSV File) │
└───────────┬─────────────┘
│
▼
📊 Data Cleaning & EDA
- Analyze features
- Visualize patterns
- Handle missing values
│
▼
⚙️Feature Engineering
- Create new columns
- Drop irrelevant data
│
▼
🤖 Model Training
- Logistic Regression
- Preprocessing Pipeline
│
▼
🧪 Evaluation
- Accuracy, F1-score, Confusion Matrix
│
▼
💾 Save Model (.pkl)
- Using Joblib
│
▼
💻 Streamlit App
- Load model
- Take user inputs
- Predict fraud or not

📈 10. Results
 Fraud transactions are extremely rare compared to non-fraud ones.

7|Page
 The trained model successfully identifies high-risk transactions.
 Streamlit interface allows quick and interactive predictions.

✅ 11. Conclusion
This project demonstrates how machine learning can be used to detect fraudulent financial
transactions efficiently.
It showcases the complete cycle:
 From data analysis and visualization
 To model training and evaluation
 To deployment in a working web application.
The model can be further improved using advanced algorithms (Random Forest, XGBoost)
and real-time streaming data integration.

🔮 12. Future Scope

 Implement real-time fraud detection using APIs.
 Use deep learning models like LSTM for sequential transaction data.
 Build dashboards for transaction monitoring and alerts.

📚 13. References
 Kaggle Dataset: https://www.kaggle.com/datasets/amanalisiddiqui/fraud-detection-
dataset
 Scikit-learn Documentation: https://scikit-learn.org/
 Streamlit Documentation: https://docs.streamlit.io/
 Python Official Docs: https://docs.python.org/3/

8|Page

Credit Card Fraud Detection (Data Analyst)
No ratings yet
Credit Card Fraud Detection (Data Analyst)
22 pages
Fraud Analytics 2022
No ratings yet
Fraud Analytics 2022
11 pages
Credit Card Fraud Detection System Using CNN
No ratings yet
Credit Card Fraud Detection System Using CNN
7 pages
Fraud Detection in Banking Payments Using Machine Learning
No ratings yet
Fraud Detection in Banking Payments Using Machine Learning
13 pages
Credit Card Fraud Detection Proposal
No ratings yet
Credit Card Fraud Detection Proposal
2 pages
Madhan 1
No ratings yet
Madhan 1
90 pages
Credit Card Fraud Detection Study
No ratings yet
Credit Card Fraud Detection Study
19 pages
Credit Card Fraud Detection Using Adaboost and Majority Voting
100% (1)
Credit Card Fraud Detection Using Adaboost and Majority Voting
4 pages
Credit Card Fraud Detection Report
100% (1)
Credit Card Fraud Detection Report
17 pages
Project File On Cognifyz
100% (1)
Project File On Cognifyz
45 pages
Uses of Predictive Analytics
No ratings yet
Uses of Predictive Analytics
4 pages
Credit Card Fraud Deteciton Using SVM
No ratings yet
Credit Card Fraud Deteciton Using SVM
19 pages
Deep Neural Networks Explained
No ratings yet
Deep Neural Networks Explained
12 pages
Credit Card Fraud Detection
No ratings yet
Credit Card Fraud Detection
13 pages
Mca 3 Sem Artificial Intelligence Kca301 2023
No ratings yet
Mca 3 Sem Artificial Intelligence Kca301 2023
2 pages
Machine Learning Lab: Regression Analysis
No ratings yet
Machine Learning Lab: Regression Analysis
15 pages
Machine Learning Assignment Overview
No ratings yet
Machine Learning Assignment Overview
5 pages
Fraud Detection Model Analysis
100% (1)
Fraud Detection Model Analysis
14 pages
Mba ZG553 Ec-3r First Sem 2024-2025
100% (1)
Mba ZG553 Ec-3r First Sem 2024-2025
4 pages
Fraud Detection in Financial Transaction
No ratings yet
Fraud Detection in Financial Transaction
5 pages
Fake News Detection Using ML
No ratings yet
Fake News Detection Using ML
18 pages
Bpy - Py - 25109-E-Commerce Fraud Detection Based On Machine Learning Techniques Systematic Literature Review
No ratings yet
Bpy - Py - 25109-E-Commerce Fraud Detection Based On Machine Learning Techniques Systematic Literature Review
107 pages
Vision-Face Recognition Attendance Monitoring System For Surveillance Using Deep Learning Technology and Computer Vision
No ratings yet
Vision-Face Recognition Attendance Monitoring System For Surveillance Using Deep Learning Technology and Computer Vision
5 pages
Cyber Security (R20a6202)
100% (1)
Cyber Security (R20a6202)
79 pages
20 Machine Learning Projects For Beginners
No ratings yet
20 Machine Learning Projects For Beginners
22 pages
10 Standout Coding Projects
No ratings yet
10 Standout Coding Projects
61 pages
Deep Learning Algorithms
No ratings yet
Deep Learning Algorithms
19 pages
Fraud Detection in Python Chapter4
No ratings yet
Fraud Detection in Python Chapter4
33 pages
Doi: 10.5281/zenodo.7922883: ISSN: 1004-9037
No ratings yet
Doi: 10.5281/zenodo.7922883: ISSN: 1004-9037
18 pages
Data Mining in Creditcard
No ratings yet
Data Mining in Creditcard
5 pages
End-to-End Machine Learning Project (Bootcamp)
No ratings yet
End-to-End Machine Learning Project (Bootcamp)
415 pages
Machine Learning in Mechanical Engineering
No ratings yet
Machine Learning in Mechanical Engineering
20 pages
Comparative Analysis of Fraud Detection Techniques
No ratings yet
Comparative Analysis of Fraud Detection Techniques
23 pages
Fake News Detection System Report
No ratings yet
Fake News Detection System Report
79 pages
Student Academic Performance Prediction Under Various Machine Learning Classification Algorithms
No ratings yet
Student Academic Performance Prediction Under Various Machine Learning Classification Algorithms
19 pages
AI-Powered Fraud Detection in Accounting
No ratings yet
AI-Powered Fraud Detection in Accounting
22 pages
Bank Fraud Prediction
No ratings yet
Bank Fraud Prediction
16 pages
Fraud Detection Model for Motor Claims
No ratings yet
Fraud Detection Model for Motor Claims
13 pages
Fake News Detection with ML
No ratings yet
Fake News Detection with ML
20 pages
A Convolutional Neural Network Model For Credit Card Fraud Detection
No ratings yet
A Convolutional Neural Network Model For Credit Card Fraud Detection
5 pages
App SRM Unit 5 Notes
No ratings yet
App SRM Unit 5 Notes
35 pages
Data Structures in Finance Analytics
No ratings yet
Data Structures in Finance Analytics
159 pages
PPT1
No ratings yet
PPT1
93 pages
Pattern Recognition in AI
No ratings yet
Pattern Recognition in AI
3 pages
Introduction To ML P2
No ratings yet
Introduction To ML P2
30 pages
MCS 224 em 2023
100% (1)
MCS 224 em 2023
14 pages
Data Wrangling (Data Preprocessing) : Practical Assessment 1
No ratings yet
Data Wrangling (Data Preprocessing) : Practical Assessment 1
5 pages
Fake News Detection via Logistic Regression
No ratings yet
Fake News Detection via Logistic Regression
50 pages
CFFD Documentation
No ratings yet
CFFD Documentation
91 pages
FRA Cheat Sheet Week1
No ratings yet
FRA Cheat Sheet Week1
2 pages
Fake News Detection via Evolutionary Model
No ratings yet
Fake News Detection via Evolutionary Model
19 pages
Data Science in Finance
No ratings yet
Data Science in Finance
9 pages
AIMLCZG521 - Conversational AI
No ratings yet
AIMLCZG521 - Conversational AI
488 pages
CIT (Web, Software Mobile Application Development)
0% (1)
CIT (Web, Software Mobile Application Development)
34 pages
Machine Learning in Phishing Detection
No ratings yet
Machine Learning in Phishing Detection
21 pages
Neural Networks & Gradient Descent
No ratings yet
Neural Networks & Gradient Descent
77 pages
Sree Vahini: Codetect Financial Fraud Detection With Anomaly Feature Detection
No ratings yet
Sree Vahini: Codetect Financial Fraud Detection With Anomaly Feature Detection
26 pages
Yahya Thesis - Draft
100% (1)
Yahya Thesis - Draft
58 pages
Experiment 3 (CS)
No ratings yet
Experiment 3 (CS)
2 pages
Quiz Result 02
No ratings yet
Quiz Result 02
4 pages
NEP-CE-3rd Year Scheme and Syllabus
No ratings yet
NEP-CE-3rd Year Scheme and Syllabus
44 pages
Assignment 1
No ratings yet
Assignment 1
12 pages
Ai - Experiment 2
No ratings yet
Ai - Experiment 2
4 pages
Experiment 8-9 (Ai) PDF
No ratings yet
Experiment 8-9 (Ai) PDF
3 pages
Fraud Detection Journal Anwesha Jana
100% (1)
Fraud Detection Journal Anwesha Jana
3 pages
OS Report
No ratings yet
OS Report
18 pages
Bank Management System Using Java
No ratings yet
Bank Management System Using Java
19 pages
VGTC Dissertation Award
100% (2)
VGTC Dissertation Award
6 pages
Doing Data Science in R An Introduction For Social Scientists - 1st Edition High-Resolution PDF Download
100% (13)
Doing Data Science in R An Introduction For Social Scientists - 1st Edition High-Resolution PDF Download
14 pages
Data Analysis With Microsoft Power Bi - Ebook PDF PDF Download
100% (1)
Data Analysis With Microsoft Power Bi - Ebook PDF PDF Download
84 pages
PatSeer Pro X
No ratings yet
PatSeer Pro X
21 pages
2 English 9 q2 Week 3
100% (1)
2 English 9 q2 Week 3
20 pages
Avinash Yadav Resum
No ratings yet
Avinash Yadav Resum
2 pages
10 - 21PE8CO51-Data Science in IoT
No ratings yet
10 - 21PE8CO51-Data Science in IoT
2 pages
Group Activity Report
No ratings yet
Group Activity Report
12 pages
TDWI Requirements Gathering Preview - v1
No ratings yet
TDWI Requirements Gathering Preview - v1
47 pages
Sma Exp 4
No ratings yet
Sma Exp 4
3 pages
Flood Prediction Analysis
No ratings yet
Flood Prediction Analysis
42 pages
Data Science - Notes
No ratings yet
Data Science - Notes
68 pages
Class12 Geography Project Detailed
No ratings yet
Class12 Geography Project Detailed
2 pages
Abigail Hall Resume
No ratings yet
Abigail Hall Resume
1 page
Netflix Data Analysis Vashisht
No ratings yet
Netflix Data Analysis Vashisht
29 pages
Siddhardha RP
No ratings yet
Siddhardha RP
5 pages
Call Center Dashboard Notes
No ratings yet
Call Center Dashboard Notes
12 pages
MTM123
No ratings yet
MTM123
30 pages
Software Visualization Techniques and Tools
No ratings yet
Software Visualization Techniques and Tools
4 pages
Software Engineering Dissertation Report
100% (2)
Software Engineering Dissertation Report
8 pages
B.Tech Internship Portfolio
No ratings yet
B.Tech Internship Portfolio
56 pages
DataCamp Curriculum Cheat Sheet For Every Skill Level
No ratings yet
DataCamp Curriculum Cheat Sheet For Every Skill Level
27 pages
Data Analytics Course Guide
No ratings yet
Data Analytics Course Guide
14 pages
Data Culture Playbook - Tableau
No ratings yet
Data Culture Playbook - Tableau
16 pages
Datarepresentation and Excel
No ratings yet
Datarepresentation and Excel
11 pages
2024.07.26 - DRC Data & Information Manager - FINAL
No ratings yet
2024.07.26 - DRC Data & Information Manager - FINAL
4 pages
Naukri NandhiniK (2y 0m)
No ratings yet
Naukri NandhiniK (2y 0m)
1 page
11 Laboratory Exercise 1
No ratings yet
11 Laboratory Exercise 1
2 pages
Imarticus DS & A
No ratings yet
Imarticus DS & A
18 pages
Group Assignment 2
No ratings yet
Group Assignment 2
2 pages

Fraud Detection Using Machine Learning

Uploaded by

Fraud Detection Using Machine Learning

Uploaded by

FRAUD DETECTION USING

NAME: ANWESHA JANA

🧰 3. Software & Tools Used

Programming language used for analysis and model

Jupyter Notebook Used for interactive coding and data analysis

Streamlit For building the web application interface

Pandas Data loading and manipulation

NumPy Numerical operations and array handling

Scikit-learn Machine learning library for model building and evaluation

Joblib Saving and loading trained models for reuse

Time step (unit of time when transaction

Type of transaction (TRANSFER, CASH_OUT,

amount Transaction amount

nameOrig Sender’s name

oldbalanceOrg Sender’s balance before transaction

newbalanceOrig Sender’s balance after transaction

nameDest Receiver’s name

oldbalanceDest Receiver’s balance before transaction

newbalanceDest Receiver’s balance after transaction

isFraud Target label (1 = Fraud, 0 = Not fraud)

isFlaggedFraud Flag for suspicious transactions

📊 5. Data Analysis (EDA)

⚙️6. Feature Engineering

🤖 7. Machine Learning Model

💾 8. Application Development (Streamlit App)

🔮 12. Future Scope

You might also like