0% found this document useful (0 votes)

58 views33 pages

Fraud Detection Algorithms in Python

This document discusses using unsupervised learning techniques like clustering algorithms to perform fraud detection when labeled data is unavailable. It describes how to use k-means clustering and identify normal versus abnormal behavior by segmenting customers into groups and flagging transactions far from the cluster centroids as potentially fraudulent. The document also introduces other clustering methods like DBSCAN and discusses validating potential fraud cases with domain experts.

Uploaded by

Fgpeqw

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

58 views33 pages

Fraud Detection Algorithms in Python

Uploaded by

Fgpeqw

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Normal versus
abnormal behaviour

Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

Fraud detection without labels

Using unsupervised learning to distinguish normal from abnormal
behaviour
Abnormal behaviour by deﬁnition is not always fraudulent
Challenging because diﬃcult to validate
But...realistic because very often you don't have reliable labels
DataCamp Fraud Detection in Python

What is normal behaviour?

Thoroughly describe your data: plot histograms, check for outliers,
investigate correlations and talk to the fraud analyst
Are there any known historic cases of fraud? What typiﬁes those
cases?
Normal behaviour of one type of client may not be normal for another
Check patterns within subgroups of data: is your data homogenous?
DataCamp Fraud Detection in Python

Customer segmentation: normal behaviour within

segments
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Refresher on clustering
methods

Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

Clustering: trying to detect patterns in data

DataCamp Fraud Detection in Python

K-means clustering: using the distance to cluster centroids

DataCamp Fraud Detection in Python

K-means clustering: using the distance to cluster centroids

DataCamp Fraud Detection in Python

K-means clustering: using the distance to cluster centroids

DataCamp Fraud Detection in Python
DataCamp Fraud Detection in Python
DataCamp Fraud Detection in Python
DataCamp Fraud Detection in Python

K-means clustering in Python

# Import the packages
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans

# Transform and scale your data

X = np.array(df).astype(np.float)

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Define the k-means model and fit to the data

kmeans = KMeans(n_clusters=6, random_state=42).fit(X_scaled)
DataCamp Fraud Detection in Python

The right amount of clusters

Checking the number of clusters:

Silhouette method
Elbow curve
clust = range(1, 10)
kmeans = [KMeans(n_clusters=i) for i in clust]

score = [kmeans[i].fit(X_scaled).score(X_scaled) for i in range(len(kmeans)

plt.plot(clust,score)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()
DataCamp Fraud Detection in Python

The Elbow Curve

DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Assigning fraud versus

non-fraud cases

Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

Starting with clustered data

DataCamp Fraud Detection in Python

Assign the cluster centroids

DataCamp Fraud Detection in Python

Deﬁne distances from the cluster centroid

DataCamp Fraud Detection in Python

Flag fraud for those furthest away from cluster centroid

DataCamp Fraud Detection in Python

Flagging fraud based on distance to centroid

# Run the kmeans model on scaled data
kmeans = KMeans(n_clusters=6, random_state=42,n_jobs=-1).fit(X_scaled)

# Get the cluster number for each datapoint

X_clusters = kmeans.predict(X_scaled)

# Save the cluster centroids

X_clusters_centers = kmeans.cluster_centers_

# Calculate the distance to the cluster centroid for each point

dist = [np.linalg.norm(x-y) for x,y in zip(X_scaled,
X_clusters_centers[X_clusters])]

# Create predictions based on distance

km_y_pred = np.array(dist)
km_y_pred[dist>=np.percentile(dist, 93)] = 1
km_y_pred[dist<np.percentile(dist, 93)] = 0
DataCamp Fraud Detection in Python

Validating your model results

Check with the fraud analyst
Investigate and describe cases that are ﬂagged in more detail
Compare to past known cases of fraud
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Other clustering fraud

detection methods

Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

There are many diﬀerent clustering methods

DataCamp Fraud Detection in Python

And diﬀerent ways of ﬂagging fraud: using smallest

clusters
DataCamp Fraud Detection in Python

In reality it looks more like this

DataCamp Fraud Detection in Python

DBScan versus K-means

No need to predeﬁne amount of clusters
Adjust maximum distance between points within clusters
Assign minimum amount of samples in clusters
Better performance on weirdly shaped data
But..higher computational costs
DataCamp Fraud Detection in Python

Implementing DBscan
from sklearn.cluster import DBSCAN
db = DBSCAN(eps=0.5, min_samples=10, n_jobs=-1).fit(X_scaled)

# Get the cluster labels (aka numbers)

pred_labels = db.labels_

# Count the total number of clusters

n_clusters_ = len(set(pred_labels)) - (1 if -1 in pred_labels else 0)

# Print model results

print('Estimated number of clusters: %d' % n_clusters_)

Estimated number of clusters: 31

DataCamp Fraud Detection in Python

Checking the size of the clusters

# Print model results
print("Silhouette Coefficient: %0.3f"
% metrics.silhouette_score(X_scaled, pred_labels))

Silhouette Coefficient: 0.359

# Get sample counts in each cluster

counts = np.bincount(pred_labels[pred_labels>=0])
print (counts)

[ 763 496 840 355 1086 676 63 306 560 134 28 18 262 128 332
22 22 13 31 38 36 28 14 12 30 10 11 10 21 10
5]
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!

Chapter 3
No ratings yet
Chapter 3
33 pages
Fraud Detection Course: Python Techniques
No ratings yet
Fraud Detection Course: Python Techniques
25 pages
Fraud Detection with Python Techniques
No ratings yet
Fraud Detection with Python Techniques
30 pages
Chapter 1
No ratings yet
Chapter 1
25 pages
04 03 Behavior Cluster Credit Card
No ratings yet
04 03 Behavior Cluster Credit Card
24 pages
Fraud Detection in Python Chapter4
No ratings yet
Fraud Detection in Python Chapter4
33 pages
IDS26 Clustering and Classification
No ratings yet
IDS26 Clustering and Classification
30 pages
Unit 4-Unsupervised Learning-K Means and Hierarchical Clustering
No ratings yet
Unit 4-Unsupervised Learning-K Means and Hierarchical Clustering
48 pages
Anomaly Detection and Curve Fitting
No ratings yet
Anomaly Detection and Curve Fitting
72 pages
ML Clustering2
No ratings yet
ML Clustering2
11 pages
Fraud Detection for ML Engineers
No ratings yet
Fraud Detection for ML Engineers
15 pages
DSE Lab Assignment - Writeup - 7
No ratings yet
DSE Lab Assignment - Writeup - 7
4 pages
Detecting Patterns With Unsupervised Learning
No ratings yet
Detecting Patterns With Unsupervised Learning
21 pages
DBNex Deep Belief Network and Explainable AI Based Financial Fraud Detection
No ratings yet
DBNex Deep Belief Network and Explainable AI Based Financial Fraud Detection
10 pages
Module 3.4 Classification Models, Case Study
No ratings yet
Module 3.4 Classification Models, Case Study
12 pages
Chapter 2
No ratings yet
Chapter 2
85 pages
Untitled
No ratings yet
Untitled
14 pages
Slides Concepts
No ratings yet
Slides Concepts
55 pages
K-Means Clustering in Machine Learning
No ratings yet
K-Means Clustering in Machine Learning
12 pages
DBNex Deep Belief Network and Explainable AI Based Financial Fraud Detection
No ratings yet
DBNex Deep Belief Network and Explainable AI Based Financial Fraud Detection
10 pages
Clustering
No ratings yet
Clustering
43 pages
Anomaly Detection
No ratings yet
Anomaly Detection
7 pages
Deeplearning - Ai Deeplearning - Ai
No ratings yet
Deeplearning - Ai Deeplearning - Ai
169 pages
Deeplearning - Ai Deeplearning - Ai
No ratings yet
Deeplearning - Ai Deeplearning - Ai
59 pages
CC Unit IV
No ratings yet
CC Unit IV
30 pages
Supervised vs Unsupervised Learning
No ratings yet
Supervised vs Unsupervised Learning
85 pages
K Means Clustering - Experiment 12
No ratings yet
K Means Clustering - Experiment 12
3 pages
Aam Unit 4 QB With Answer
No ratings yet
Aam Unit 4 QB With Answer
11 pages
Imbalanced Classes in ML: 10 Techniques
No ratings yet
Imbalanced Classes in ML: 10 Techniques
10 pages
Credit Card Fraud Detection Using Machine Learning
No ratings yet
Credit Card Fraud Detection Using Machine Learning
8 pages
Statistic Inference Unit 2 Notes
No ratings yet
Statistic Inference Unit 2 Notes
34 pages
Anomaly Detection: World-Leading Research With Real-World Impact!
No ratings yet
Anomaly Detection: World-Leading Research With Real-World Impact!
72 pages
Deep Learning for Fraud Detection
No ratings yet
Deep Learning for Fraud Detection
5 pages
Fraud Detection for Auditors
No ratings yet
Fraud Detection for Auditors
52 pages
Anomaly Detection: Jing Gao
No ratings yet
Anomaly Detection: Jing Gao
51 pages
Presentation 1
No ratings yet
Presentation 1
22 pages
Eml 10 250825
No ratings yet
Eml 10 250825
91 pages
Py - Clustering Credit Card Fraud - Actuaries' Analytical Cookbook
No ratings yet
Py - Clustering Credit Card Fraud - Actuaries' Analytical Cookbook
58 pages
Lec 2
No ratings yet
Lec 2
11 pages
Live Classroom 2
No ratings yet
Live Classroom 2
40 pages
20 ENG 016 Assignment 8
No ratings yet
20 ENG 016 Assignment 8
4 pages
K-Means Clustering Guide
No ratings yet
K-Means Clustering Guide
26 pages
Disaster
No ratings yet
Disaster
20 pages
Credit Card Fraud Analysis Ashutosh
No ratings yet
Credit Card Fraud Analysis Ashutosh
3 pages
Python Clustering Techniques Explained
No ratings yet
Python Clustering Techniques Explained
12 pages
Part C
No ratings yet
Part C
15 pages
Practical Data Analysis Cookbook - Sample Chapter
100% (1)
Practical Data Analysis Cookbook - Sample Chapter
31 pages
Outlier Analysis in Data Mining
No ratings yet
Outlier Analysis in Data Mining
21 pages
Banknote Forgery Detection via K-Means
No ratings yet
Banknote Forgery Detection via K-Means
3 pages
Advanced Machine Learning Experiments
No ratings yet
Advanced Machine Learning Experiments
15 pages
Chapter 4
No ratings yet
Chapter 4
34 pages
Presentation Slides
No ratings yet
Presentation Slides
16 pages
Ec 2645704571
No ratings yet
Ec 2645704571
2 pages
Machine Learning for Bank Fraud Detection
No ratings yet
Machine Learning for Bank Fraud Detection
17 pages
K-Means Clustering for Data Analysts
No ratings yet
K-Means Clustering for Data Analysts
25 pages
Data Visualization with Matplotlib
No ratings yet
Data Visualization with Matplotlib
35 pages
Python Functions for Audio Transcription
No ratings yet
Python Functions for Audio Transcription
46 pages
Audio Processing in Python Guide
No ratings yet
Audio Processing in Python Guide
17 pages
Spoken Language Processing in Python Chapter3
No ratings yet
Spoken Language Processing in Python Chapter3
26 pages
Seaborn Categorical Plot Guide
100% (1)
Seaborn Categorical Plot Guide
32 pages
Chapter3 PDF
No ratings yet
Chapter3 PDF
36 pages
Relational Plots and Subplots in Seaborn
No ratings yet
Relational Plots and Subplots in Seaborn
38 pages
Python SpeechRecognition Guide
No ratings yet
Python SpeechRecognition Guide
23 pages
Time-Series Visualization with Matplotlib
No ratings yet
Time-Series Visualization with Matplotlib
27 pages
Data Visualization with Matplotlib
No ratings yet
Data Visualization with Matplotlib
30 pages
Seaborn Data Visualization Guide
No ratings yet
Seaborn Data Visualization Guide
26 pages
Customize Seaborn Plot Styles and Colors
No ratings yet
Customize Seaborn Plot Styles and Colors
54 pages
Designing ML Workflows in Python
No ratings yet
Designing ML Workflows in Python
42 pages
Customer Segmentation in Python Chapter4
No ratings yet
Customer Segmentation in Python Chapter4
37 pages
Chapter1 PDF
No ratings yet
Chapter1 PDF
37 pages
Designing Machine Learning Workflows in Python Chapter4
No ratings yet
Designing Machine Learning Workflows in Python Chapter4
38 pages
Customer Segmentation in Python Chapter3
No ratings yet
Customer Segmentation in Python Chapter3
25 pages
Credit Risk Modeling for Data Scientists
100% (1)
Credit Risk Modeling for Data Scientists
35 pages
ML Workflows for Cybersecurity
No ratings yet
ML Workflows for Cybersecurity
39 pages
RFM Customer Segmentation in Python
No ratings yet
RFM Customer Segmentation in Python
33 pages
Cleaning Data With PySpark Chapter4
No ratings yet
Cleaning Data With PySpark Chapter4
23 pages
Designing Machine Learning Workflows in Python Chapter1
No ratings yet
Designing Machine Learning Workflows in Python Chapter1
32 pages
Building Chatbots in Python Chapter4
No ratings yet
Building Chatbots in Python Chapter4
20 pages
Credit Risk Modeling in Python Chapter3
No ratings yet
Credit Risk Modeling in Python Chapter3
35 pages
PySpark Caching and Performance Tips
No ratings yet
PySpark Caching and Performance Tips
25 pages
Credit Risk Modeling in Python Chapter2
100% (1)
Credit Risk Modeling in Python Chapter2
36 pages
IoT Data Analysis with Python
No ratings yet
IoT Data Analysis with Python
34 pages
PySpark DataFrame Operations Guide
100% (1)
PySpark DataFrame Operations Guide
25 pages
PySpark Data Cleaning Guide
0% (1)
PySpark Data Cleaning Guide
20 pages
Building Chatbots in Python Chapter2 PDF
No ratings yet
Building Chatbots in Python Chapter2 PDF
41 pages
Project
60% (5)
Project
74 pages
Group Assignment 3
No ratings yet
Group Assignment 3
5 pages
Tests?: What Is A Two-Tailed Test?
No ratings yet
Tests?: What Is A Two-Tailed Test?
5 pages
Conversational Analytics Project
No ratings yet
Conversational Analytics Project
3 pages
Ebook 9 Steps It Audit Readiness
100% (1)
Ebook 9 Steps It Audit Readiness
28 pages
Feranmi's CV
No ratings yet
Feranmi's CV
3 pages
Week 8 R Assignment
No ratings yet
Week 8 R Assignment
17 pages
Data Analyst Profile: SQL & Visualization Expert
No ratings yet
Data Analyst Profile: SQL & Visualization Expert
1 page
Measures of Variation in Data Analysis
100% (1)
Measures of Variation in Data Analysis
3 pages
Data Visualization and Storytelling With Tableau 1st Edition Mamta Mittal New Release 2025
No ratings yet
Data Visualization and Storytelling With Tableau 1st Edition Mamta Mittal New Release 2025
67 pages
Women in Income Activities: Borena Study
No ratings yet
Women in Income Activities: Borena Study
24 pages
Machine Learning Course Overview
No ratings yet
Machine Learning Course Overview
3 pages
Jaiwanthi 22 Mid 0344
No ratings yet
Jaiwanthi 22 Mid 0344
8 pages
Syllabus CSE 7th Sem
No ratings yet
Syllabus CSE 7th Sem
3 pages
Research Methodology: Class Note BSW - II - Dr. Narendra Thagunnna
No ratings yet
Research Methodology: Class Note BSW - II - Dr. Narendra Thagunnna
9 pages
Solutions To End-of-Section and Chapter Review Problems 517
No ratings yet
Solutions To End-of-Section and Chapter Review Problems 517
39 pages
ANOVA and Post Hoc Analysis Results
No ratings yet
ANOVA and Post Hoc Analysis Results
3 pages
CA Foundation Stats 1 Old
No ratings yet
CA Foundation Stats 1 Old
31 pages
Deep Learning for Candidate Prediction
No ratings yet
Deep Learning for Candidate Prediction
25 pages
R2023 PG DS Curriculum and Syllabus 2024
No ratings yet
R2023 PG DS Curriculum and Syllabus 2024
52 pages
Qualitative Data Analysis Methods Guide
No ratings yet
Qualitative Data Analysis Methods Guide
5 pages
Ricardo Vargas Pmbok Flow 6ed Color En-A0
83% (6)
Ricardo Vargas Pmbok Flow 6ed Color En-A0
1 page
Chapter 02 Forecasting
No ratings yet
Chapter 02 Forecasting
49 pages
ChatGPT Ebook 5th Edition FINAL
No ratings yet
ChatGPT Ebook 5th Edition FINAL
53 pages
Beginner's Guide to Data Analytics
No ratings yet
Beginner's Guide to Data Analytics
13 pages
Lect 3
No ratings yet
Lect 3
55 pages
ML Mod 4 Part 1
No ratings yet
ML Mod 4 Part 1
99 pages
Cross-Validation of Component Models: A Critical Look at Current Methods
No ratings yet
Cross-Validation of Component Models: A Critical Look at Current Methods
12 pages
Eriksson and Kovalainen PDF
No ratings yet
Eriksson and Kovalainen PDF
15 pages
AD3411
No ratings yet
AD3411
28 pages

Fraud Detection Algorithms in Python

Uploaded by

Fraud Detection Algorithms in Python

Uploaded by

DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Fraud detection without labels

What is normal behaviour?

Customer segmentation: normal behaviour within

FRAUD DETECTION IN PYTHON

FRAUD DETECTION IN PYTHON

Clustering: trying to detect patterns in data

K-means clustering: using the distance to cluster centroids

K-means clustering: using the distance to cluster centroids

K-means clustering: using the distance to cluster centroids

K-means clustering in Python

# Transform and scale your data

# Define the k-means model and fit to the data

The right amount of clusters

Checking the number of clusters:

score = [kmeans[i].fit(X_scaled).score(X_scaled) for i in range(len(kmeans)

The Elbow Curve

FRAUD DETECTION IN PYTHON

FRAUD DETECTION IN PYTHON

Assigning fraud versus

Starting with clustered data

Assign the cluster centroids

Deﬁne distances from the cluster centroid

Flag fraud for those furthest away from cluster centroid

Flagging fraud based on distance to centroid

# Get the cluster number for each datapoint

# Save the cluster centroids

# Calculate the distance to the cluster centroid for each point

# Create predictions based on distance

Validating your model results

FRAUD DETECTION IN PYTHON

FRAUD DETECTION IN PYTHON

Other clustering fraud

There are many diﬀerent clustering methods

And diﬀerent ways of ﬂagging fraud: using smallest

In reality it looks more like this

DBScan versus K-means

# Get the cluster labels (aka numbers)

# Count the total number of clusters

# Print model results

Estimated number of clusters: 31

Checking the size of the clusters

Silhouette Coefficient: 0.359

# Get sample counts in each cluster

FRAUD DETECTION IN PYTHON

You might also like