0% found this document useful (0 votes)

43 views7 pages

Predictive Analytics Lab Project

The project aims to develop a machine-learning model to predict loan defaults using the German Credit dataset, focusing on preprocessing, feature engineering, and model evaluation metrics. Key objectives include cleaning data, training classifiers, handling class imbalance, and deploying the model. The final output includes performance metrics such as accuracy and ROC-AUC, along with visualizations like confusion matrices and feature importance plots.

Uploaded by

Maha reddy ANANYA reddy

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

43 views7 pages

Predictive Analytics Lab Project

Uploaded by

Maha reddy ANANYA reddy

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 7

PREDICTIVE ANALYTICS LAB PROJECT

AIM :
To build a machine-learning model that predicts whether a loan
applicant will default (binary classification), and to evaluate the model using
standard metrics (accuracy, precision, recall, F1, AUC-ROC). Also
demonstrate preprocessing, feature engineering, imbalance handling, model
explanation, and a simple deployment demo.

OBJECTIVES:
1. Acquire and explore a real credit dataset.
2. Clean and preprocess the data: missing values, encoding categorical
variables, scaling numeric features.
3. Engineer and select predictive features (e.g., income ratios, credit
history flags).
4. Train several classifiers (Logistic Regression, Random Forest, XGBoost)
and compare performance.
5. Handle class imbalance (SMOTE, class weighting) and evaluate effects.
6. Use model explainability tools (SHAP or feature importances) to
interpret decisions.
7. Package the model for deployment (Flask API or simple pickle + demo
notebook).

Description / Dataset :
German Credit (UCI Statlog) — small, classic dataset (1,000 instances, 20
attributes) for “good/bad” credit risk classification. Good for quick
experiments and interpretability work.

Typical features (varies by dataset):

 Age, Sex, Job type, Housing status

 Credit amount, Duration (months), Purpose of loan

 History of credit, Existing credits at bank, Number of dependents

 Target: credit_risk (Good/Bad or 0/1)

(Full variable descriptions are on the dataset pages.)
PROGRAM:
# credit_risk_with_visuals.py

# Requirements: pandas, numpy, scikit-learn, imbalanced-learn, xgboost,

shap, matplotlib, seaborn, joblib

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler, OneHotEncoder

from sklearn.compose import ColumnTransformer

from sklearn.pipeline import Pipeline

from sklearn.impute import SimpleImputer

from sklearn.metrics import classification_report, roc_auc_score,

confusion_matrix, roc_curve

from imblearn.over_sampling import SMOTE

from imblearn.pipeline import Pipeline as ImbPipeline

from xgboost import XGBClassifier

import joblib

# 1) Load dataset

df = pd.read_csv("german_credit_data.csv") # replace with your dataset

# 2) Target distribution visualization

plt.figure(figsize=(6,4))

sns.countplot(x='target', data=df, palette="Set2")

plt.title("Target Distribution (Good vs Bad Credit)")

plt.xlabel("Credit Risk")

plt.ylabel("Count")

plt.savefig("target_distribution.png")

plt.close()

# 3) Define features/target

y = df['target'] # 0 = good, 1 = bad (check dataset encoding)

X = df.drop(columns=['target', 'ID'], errors='ignore')

# 4) Split data

X_train, X_test, y_train, y_test = train_test_split(

X, y, test_size=0.2, random_state=42, stratify=y

# 5) Preprocessing

num_cols = X.select_dtypes(include=['int64','float64']).columns.tolist()

cat_cols = X.select_dtypes(include=['object','category']).columns.tolist()

num_pipeline = Pipeline([

('imputer', SimpleImputer(strategy='median')),

('scaler', StandardScaler())
])

cat_pipeline = Pipeline([

('imputer', SimpleImputer(strategy='most_frequent')),

('onehot', OneHotEncoder(handle_unknown='ignore', sparse=False))

])

preprocessor = ColumnTransformer([

('num', num_pipeline, num_cols),

('cat', cat_pipeline, cat_cols)

])

# 6) Model pipeline with SMOTE

clf = XGBClassifier(use_label_encoder=False, eval_metric='logloss',

random_state=42)

pipe = ImbPipeline([

('preproc', preprocessor),

('smote', SMOTE(random_state=42)),

('clf', clf)

])

# 7) Train

pipe.fit(X_train, y_train)

# 8) Predictions

y_pred = pipe.predict(X_test)

y_proba = pipe.predict_proba(X_test)[:,1]
print(classification_report(y_test, y_pred))

print("ROC-AUC:", roc_auc_score(y_test, y_proba))

# 9) Confusion matrix heatmap

cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(5,4))

sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",

xticklabels=["Good","Bad"], yticklabels=["Good","Bad"])

plt.title("Confusion Matrix")

plt.xlabel("Predicted")

plt.ylabel("Actual")

plt.savefig("confusion_matrix.png")

plt.close()

# 10) ROC Curve

fpr, tpr, thresholds = roc_curve(y_test, y_proba)

plt.figure(figsize=(6,5))

plt.plot(fpr, tpr, label=f"AUC = {roc_auc_score(y_test, y_proba):.2f}")

plt.plot([0,1],[0,1],'k--')

plt.xlabel("False Positive Rate")

plt.ylabel("True Positive Rate")

plt.title("ROC Curve")

plt.legend(loc="lower right")

plt.savefig("roc_curve.png")

plt.close()
# 11) Feature importance (from XGBoost)

model = pipe.named_steps['clf']

importance = model.feature_importances_

# Feature names after preprocessing

preproc = pipe.named_steps['preproc']

ohe_cols = []

if cat_cols:

ohe = preproc.named_transformers_['cat'].named_steps['onehot']

ohe_cols = ohe.get_feature_names_out(cat_cols)

feature_names = list(num_cols) + list(ohe_cols)

# Plot top 10 important features

sorted_idx = np.argsort(importance)[-10:]

plt.figure(figsize=(8,6))

plt.barh(np.array(feature_names)[sorted_idx], importance[sorted_idx],
color="green")

plt.title("Top 10 Feature Importances (XGBoost)")

plt.xlabel("Importance Score")

plt.savefig("feature_importance.png")

plt.close()

# 12) Save trained model

joblib.dump(pipe, "credit_risk_model.pkl")
OUTPUT:

(1000, 21) # shape of dataset (example)

Target distribution:

0 700

1 300

Classification report:

precision recall f1-score support

0 0.78 0.85 0.81 140

1 0.66 0.52 0.58 60

Accuracy: 0.75

ROC-AUC: 0.81

Kritika Sejwal 24MCI10023 ML Lab Project Report
No ratings yet
Kritika Sejwal 24MCI10023 ML Lab Project Report
10 pages
Step by Step Data Processing For ML Project
No ratings yet
Step by Step Data Processing For ML Project
16 pages
Project 2
No ratings yet
Project 2
5 pages
Case Study Stock Market Prediciton
No ratings yet
Case Study Stock Market Prediciton
10 pages
Iii Aid - ML
No ratings yet
Iii Aid - ML
30 pages
Classification
No ratings yet
Classification
3 pages
Employee Salary Prediction
No ratings yet
Employee Salary Prediction
27 pages
Tau Class Lab Report Template 1
No ratings yet
Tau Class Lab Report Template 1
3 pages
Python Code For Loan Default Prediction
No ratings yet
Python Code For Loan Default Prediction
4 pages
Project Report
No ratings yet
Project Report
19 pages
05 E RandomForest LoanData
No ratings yet
05 E RandomForest LoanData
8 pages
Final Project Making Predictions From Data-Course 2: October 6, 2020
No ratings yet
Final Project Making Predictions From Data-Course 2: October 6, 2020
20 pages
ML Assignment
No ratings yet
ML Assignment
34 pages
ML 1-10
No ratings yet
ML 1-10
53 pages
AI
No ratings yet
AI
16 pages
Machine Learning Paper BD
No ratings yet
Machine Learning Paper BD
16 pages
Predicting Term Deposit Subscriptions
No ratings yet
Predicting Term Deposit Subscriptions
19 pages
Banking Marketing Target Prediction
No ratings yet
Banking Marketing Target Prediction
13 pages
Sneha Shrivastava (Employee Salary Prediction)
No ratings yet
Sneha Shrivastava (Employee Salary Prediction)
17 pages
Predicting Term Deposit Subscriptions
No ratings yet
Predicting Term Deposit Subscriptions
19 pages
Progress Report 2
No ratings yet
Progress Report 2
10 pages
Mini Project
No ratings yet
Mini Project
9 pages
Loan Status Prediction
No ratings yet
Loan Status Prediction
23 pages
Da Lab Mannual
No ratings yet
Da Lab Mannual
25 pages
Quadexp IDS Project
No ratings yet
Quadexp IDS Project
22 pages
Final-12-Lab Programs
No ratings yet
Final-12-Lab Programs
30 pages
Machine Learning Credit Rating Model
No ratings yet
Machine Learning Credit Rating Model
12 pages
Credit Card Default Prediction
No ratings yet
Credit Card Default Prediction
33 pages
Project Report On Credit Risk Analysis Using Random Forest
No ratings yet
Project Report On Credit Risk Analysis Using Random Forest
8 pages
Credit Card Default Prediction PRESENTATION
No ratings yet
Credit Card Default Prediction PRESENTATION
12 pages
Credit Risk Modeling in Python Chapter3
No ratings yet
Credit Risk Modeling in Python Chapter3
35 pages
Group 5 Dseb64a Report
No ratings yet
Group 5 Dseb64a Report
10 pages
Advanced Machine Learning Course Guide
No ratings yet
Advanced Machine Learning Course Guide
36 pages
Capstone Project Ree
No ratings yet
Capstone Project Ree
6 pages
1 - Understanding - The - Problem - and - The - Data - Ipynb - Colaboratory
No ratings yet
1 - Understanding - The - Problem - and - The - Data - Ipynb - Colaboratory
9 pages
Predict The Probability of Financial Distress
No ratings yet
Predict The Probability of Financial Distress
13 pages
MLfull
No ratings yet
MLfull
29 pages
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
10 pages
Final Report
No ratings yet
Final Report
17 pages
Deep Learning for Credit Risk Assessment
No ratings yet
Deep Learning for Credit Risk Assessment
13 pages
Iml MP
No ratings yet
Iml MP
16 pages
MLT 1 - 7 Kanish
No ratings yet
MLT 1 - 7 Kanish
24 pages
Loan Prediction for Banks
No ratings yet
Loan Prediction for Banks
3 pages
Major Project
No ratings yet
Major Project
17 pages
Ai It HW MST Prac
No ratings yet
Ai It HW MST Prac
14 pages
23BCE7092 ML Lab Assignment
No ratings yet
23BCE7092 ML Lab Assignment
14 pages
Credit Score Project Report
No ratings yet
Credit Score Project Report
12 pages
Machine Learning Loan
No ratings yet
Machine Learning Loan
61 pages
MLP Regressor with Sklearn on Wine Data
No ratings yet
MLP Regressor with Sklearn on Wine Data
10 pages
Random Forest
100% (1)
Random Forest
11 pages
Maths
No ratings yet
Maths
21 pages
Finance and Risk Analytics Project Sai Vinayak Sanam PDF
No ratings yet
Finance and Risk Analytics Project Sai Vinayak Sanam PDF
99 pages
Shobit Sharma (2124399) ML Lab File PDF
No ratings yet
Shobit Sharma (2124399) ML Lab File PDF
19 pages
Credit Risk Prediction with ML Models
No ratings yet
Credit Risk Prediction with ML Models
5 pages
Fall Semester 2020-21 AI With Python ECE-4031
No ratings yet
Fall Semester 2020-21 AI With Python ECE-4031
5 pages
87 NURS FPX 6112 Assessment 3
No ratings yet
87 NURS FPX 6112 Assessment 3
3 pages
Children's Arithmetic Research
100% (1)
Children's Arithmetic Research
5 pages
ISO Consulting & Training Services
No ratings yet
ISO Consulting & Training Services
7 pages
1 DVS Prinsiples & Practice of Marine Diesel Engines 85 (Turbo)
100% (1)
1 DVS Prinsiples & Practice of Marine Diesel Engines 85 (Turbo)
85 pages
Welding Filler Metals Guide
No ratings yet
Welding Filler Metals Guide
28 pages
Velocity and WC Chart PDF
No ratings yet
Velocity and WC Chart PDF
2 pages
Demarcus Mckinstry
No ratings yet
Demarcus Mckinstry
2 pages
Inclinometer
No ratings yet
Inclinometer
45 pages
Sample Exit EXAM Perpared by Abel M
75% (4)
Sample Exit EXAM Perpared by Abel M
6 pages
Smart Garbage System
No ratings yet
Smart Garbage System
4 pages
S-70I Variable Direct Operating Cost Project Status: Conklin and Dedecker (C&D) Update June 10, 2017
No ratings yet
S-70I Variable Direct Operating Cost Project Status: Conklin and Dedecker (C&D) Update June 10, 2017
15 pages
Settlements and Damage Caused by Construction Induced Vibrat
No ratings yet
Settlements and Damage Caused by Construction Induced Vibrat
17 pages
ITSM Structure and Roles
No ratings yet
ITSM Structure and Roles
12 pages
Current Affairs Compendium - October 2024: Follow Us On: Telegram, Instagram
No ratings yet
Current Affairs Compendium - October 2024: Follow Us On: Telegram, Instagram
137 pages
2808-Article Text-11401-1-10-20240713
No ratings yet
2808-Article Text-11401-1-10-20240713
9 pages
Quarter 3 Ppt1
No ratings yet
Quarter 3 Ppt1
30 pages
2-CLIMATE1 - Greenhouse Gas Removal Solutions
No ratings yet
2-CLIMATE1 - Greenhouse Gas Removal Solutions
6 pages
ECG Monitoring System Using Arduino and
No ratings yet
ECG Monitoring System Using Arduino and
4 pages
Plaidoirie en Francais-1.Fr - en
No ratings yet
Plaidoirie en Francais-1.Fr - en
67 pages
Oo Programming in Python PDF
No ratings yet
Oo Programming in Python PDF
684 pages
Methods Textbook
100% (4)
Methods Textbook
851 pages
Technical Data Sheet: Century Paper & Board Mills Limited
No ratings yet
Technical Data Sheet: Century Paper & Board Mills Limited
1 page
The UCR Time Series Archive
No ratings yet
The UCR Time Series Archive
12 pages
Beyond The Syllabus
No ratings yet
Beyond The Syllabus
16 pages
期末專題1
No ratings yet
期末專題1
14 pages
FLR1600
No ratings yet
FLR1600
3 pages
Blombos Cave: Early Human Behavior
No ratings yet
Blombos Cave: Early Human Behavior
6 pages
Power BI Architecture
100% (2)
Power BI Architecture
47 pages
Phys Exp 4
No ratings yet
Phys Exp 4
3 pages
Your Clean Language Questions Answered
100% (1)
Your Clean Language Questions Answered
58 pages

Predictive Analytics Lab Project

Uploaded by

Predictive Analytics Lab Project

Uploaded by

PREDICTIVE ANALYTICS LAB PROJECT

Typical features (varies by dataset):

 Age, Sex, Job type, Housing status

 Credit amount, Duration (months), Purpose of loan

 History of credit, Existing credits at bank, Number of dependents

 Target: credit_risk (Good/Bad or 0/1)

# Requirements: pandas, numpy, scikit-learn, imbalanced-learn, xgboost,

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler, OneHotEncoder

from sklearn.compose import ColumnTransformer

from sklearn.pipeline import Pipeline

from sklearn.impute import SimpleImputer

from sklearn.metrics import classification_report, roc_auc_score,

from imblearn.over_sampling import SMOTE

from imblearn.pipeline import Pipeline as ImbPipeline

from xgboost import XGBClassifier

df = pd.read_csv("german_credit_data.csv") # replace with your dataset

sns.countplot(x='target', data=df, palette="Set2")

plt.title("Target Distribution (Good vs Bad Credit)")

y = df['target'] # 0 = good, 1 = bad (check dataset encoding)

X = df.drop(columns=['target', 'ID'], errors='ignore')

X_train, X_test, y_train, y_test = train_test_split(

X, y, test_size=0.2, random_state=42, stratify=y

('onehot', OneHotEncoder(handle_unknown='ignore', sparse=False))

('num', num_pipeline, num_cols),

('cat', cat_pipeline, cat_cols)

# 6) Model pipeline with SMOTE

clf = XGBClassifier(use_label_encoder=False, eval_metric='logloss',

print("ROC-AUC:", roc_auc_score(y_test, y_proba))

# 9) Confusion matrix heatmap

sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",

# 10) ROC Curve

fpr, tpr, thresholds = roc_curve(y_test, y_proba)

plt.plot(fpr, tpr, label=f"AUC = {roc_auc_score(y_test, y_proba):.2f}")

plt.xlabel("False Positive Rate")

plt.ylabel("True Positive Rate")

# Feature names after preprocessing

feature_names = list(num_cols) + list(ohe_cols)

# Plot top 10 important features

plt.title("Top 10 Feature Importances (XGBoost)")

# 12) Save trained model

(1000, 21) # shape of dataset (example)

precision recall f1-score support

0 0.78 0.85 0.81 140

1 0.66 0.52 0.58 60

You might also like