0% found this document useful (0 votes)

8 views4 pages

CODE

The document outlines a machine learning workflow for disease classification using various models including Decision Tree, Random Forest, SVM, and Naive Bayes. It includes data preprocessing steps such as label encoding and oversampling to address class imbalance, followed by model training and evaluation using cross-validation and performance metrics like accuracy, precision, recall, and ROC-AUC. Visualizations such as confusion matrices and bar charts for model comparison are also included to present the results.

Uploaded by

12C8- Khánh Nhi-25

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views4 pages

CODE

Uploaded by

12C8- Khánh Nhi-25

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

import numpy as np

import pandas as pd
from scipy.stats import mode
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix,classification_report,
roc_curve, auc
from imblearn.over_sampling import RandomOverSampler
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import StratifiedKFold

data = pd.read_csv('/content/improved_disease_dataset.csv')
encoder = LabelEncoder()
data["disease"] = encoder.fit_transform(data["disease"])

X = data.iloc[:, :-1]
y = data.iloc[:, -1]

plt.figure(figsize=(18, 8))
sns.countplot(x=y)
plt.title("Disease Class Distribution Before Resampling")
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()

ros = RandomOverSampler(random_state=42)
X_resampled, y_resampled = ros.fit_resample(X, y)

print("Resampled Class Distribution:\n", pd.Series(y_resampled).value_counts())

if 'gender' in X_resampled.columns:
le = LabelEncoder()
X_resampled['gender'] = le.fit_transform(X_resampled['gender'])

X_resampled = X_resampled.fillna(0)

if len(y_resampled.shape) > 1:
y_resampled = y_resampled.values.ravel()

models = {
"Decision Tree": DecisionTreeClassifier(),
"Random Forest": RandomForestClassifier()
}

cv_scoring = 'accuracy' # you can also use 'f1_weighted', 'roc_auc_ovr' for multi-
class
stratified_kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

for model_name, model in models.items():

try:
scores = cross_val_score(
model,
X_resampled,
y_resampled,
cv=stratified_kfold,
scoring=cv_scoring,
n_jobs=-1,
error_score='raise'
)
print("=" * 50)
print(f"Model: {model_name}")
print(f"Scores: {scores}")
print(f"Mean Accuracy: {scores.mean():.4f}")
except Exception as e:
print("=" * 50)
print(f"Model: {model_name} failed with error:")
print(e)

svm_model = SVC()
svm_model.fit(X_resampled, y_resampled)
svm_preds = svm_model.predict(X_resampled)

cf_matrix_svm = confusion_matrix(y_resampled, svm_preds)

plt.figure(figsize=(12, 8))
sns.heatmap(cf_matrix_svm, annot=True, fmt="d")
plt.title("Confusion Matrix for SVM Classifier")
plt.show()

print(f"SVM Accuracy: {accuracy_score(y_resampled, svm_preds) * 100:.2f}%")

nb_model = GaussianNB()
nb_model.fit(X_resampled, y_resampled)
nb_preds = nb_model.predict(X_resampled)

cf_matrix_nb = confusion_matrix(y_resampled, nb_preds)

plt.figure(figsize=(12, 8))
sns.heatmap(cf_matrix_nb, annot=True, fmt="d")
plt.title("Confusion Matrix for Naive Bayes Classifier")
plt.show()

print(f"Naive Bayes Accuracy: {accuracy_score(y_resampled, nb_preds) * 100:.2f}%")

rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_resampled, y_resampled)
rf_preds = rf_model.predict(X_resampled)

cf_matrix_rf = confusion_matrix(y_resampled, rf_preds)

plt.figure(figsize=(12, 8))
sns.heatmap(cf_matrix_rf, annot=True, fmt="d")
plt.title("Confusion Matrix for Random Forest Classifier")
plt.show()

print(f"Random Forest Accuracy: {accuracy_score(y_resampled, rf_preds) * 100:.2f}

%")

from statistics import mode

final_preds = [mode([i, j, k]) for i, j, k in zip(svm_preds, nb_preds, rf_preds)]

cf_matrix_combined = confusion_matrix(y_resampled, final_preds)

plt.figure(figsize=(12, 8))
sns.heatmap(cf_matrix_combined, annot=True, fmt="d")
plt.title("Confusion Matrix for Combined Model")
plt.show()

print(f"Combined Model Accuracy: {accuracy_score(y_resampled, final_preds) *

100:.2f}%")

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled,

test_size=0.2, stratify=y_resampled, random_state=42)

models = {
"Decision Tree": DecisionTreeClassifier(),
"Random Forest": RandomForestClassifier(),
"Naive Bayes": GaussianNB(),
"SVM": SVC(probability=True)
}

# Nhị phân hóa label cho ROC-AUC đa lớp

lb = LabelBinarizer()
y_test_bin = lb.fit_transform(y_test)

# Kết quả của từng mô hình

results = {}

for model_name, model in models.items():

print("=" * 50)
print(f"Model: {model_name}")

# Huấn luyện mô hình

model.fit(X_train, y_train)
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test) if hasattr(model, "predict_proba") else
None

# Tính các metrics

acc = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred, average='weighted', zero_division=0)
rec = recall_score(y_test, y_pred, average='weighted', zero_division=0)
f1 = f1_score(y_test, y_pred, average='weighted', zero_division=0)

if y_prob is not None and y_test_bin.shape[1] > 1:

auc = roc_auc_score(y_test_bin, y_prob, multi_class='ovr')
else:
auc = None

# The indentation of this line was incorrect and has been fixed
results[model_name] = {
"Accuracy": acc,
"Precision": prec,
"Recall": rec,
"F1-score": f1,
"ROC-AUC": auc if auc is not None else 0
}
# In kết quả
print(f"Accuracy: {acc:.4f}")
print(f"Precision: {prec:.4f}")
print(f"Recall: {rec:.4f}")
print(f"F1-score: {f1:.4f}")
if auc:
print(f"ROC-AUC: {auc:.4f}")

metrics = ["Accuracy", "Precision", "Recall", "F1-score", "ROC-AUC"]

model_names = list(results.keys())

# Tạo mảng dữ liệu

bar_width = 0.15
x = np.arange(len(metrics))
fig, ax = plt.subplots(figsize=(12, 6))

# Vẽ các thanh cho từng mô hình

for i, model in enumerate(model_names):
scores = [results[model][metric] for metric in metrics]
bar = ax.bar(x + i * bar_width, scores, width=bar_width, label=model)
for rect in bar:
height = rect.get_height()
ax.text(rect.get_x() + rect.get_width() / 2., height + 0.005,
f'{height:.2f}', ha='center', va='bottom', fontsize=8)

# Tuỳ chỉnh trục và nhãn

ax.set_xlabel('Metrics', fontsize=12)
ax.set_ylabel('Scores', fontsize=12)
ax.set_title('So sánh các mô hình theo các chỉ số đánh giá', fontsize=14)
ax.set_xticks(x + bar_width * 1.5)
ax.set_xticklabels(metrics)
ax.legend()
plt.ylim(0, 1.1)
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

Assign 4 8057
No ratings yet
Assign 4 8057
7 pages
Telecom Churn Proj
No ratings yet
Telecom Churn Proj
4 pages
Bacdeaf 23032025 115708 Split 1
No ratings yet
Bacdeaf 23032025 115708 Split 1
37 pages
Code ExerciseModelSelection
100% (1)
Code ExerciseModelSelection
19 pages
Assig 5 Mining
No ratings yet
Assig 5 Mining
5 pages
Medical Data ML
No ratings yet
Medical Data ML
6 pages
SVM K NN MLP With Sklearn Jupyter NoteBo
No ratings yet
SVM K NN MLP With Sklearn Jupyter NoteBo
22 pages
Appendix - Complete Code Implementation
No ratings yet
Appendix - Complete Code Implementation
8 pages
IRis
No ratings yet
IRis
19 pages
Aiml 5-8
No ratings yet
Aiml 5-8
19 pages
AIML Project
No ratings yet
AIML Project
4 pages
05 E RandomForest LoanData
No ratings yet
05 E RandomForest LoanData
8 pages
MLfull
No ratings yet
MLfull
29 pages
Slip
No ratings yet
Slip
5 pages
NF Assighment4
No ratings yet
NF Assighment4
5 pages
Project
No ratings yet
Project
16 pages
Random Forest Classifier on Banking Dataset
No ratings yet
Random Forest Classifier on Banking Dataset
7 pages
BT3 03
No ratings yet
BT3 03
4 pages
#Print ("/n",gain) : Len Len
No ratings yet
#Print ("/n",gain) : Len Len
3 pages
NguyenTrungThinh BT3.3
No ratings yet
NguyenTrungThinh BT3.3
5 pages
BTVN5 Code
No ratings yet
BTVN5 Code
2 pages
DWDM Lab 3
No ratings yet
DWDM Lab 3
10 pages
Binary Classifier Evaluation Guide
No ratings yet
Binary Classifier Evaluation Guide
12 pages
Synopsis 6 Extra
No ratings yet
Synopsis 6 Extra
5 pages
Car Evaluation Data Analysis & Random Forest Model
No ratings yet
Car Evaluation Data Analysis & Random Forest Model
12 pages
BTVN4 Code
No ratings yet
BTVN4 Code
3 pages
Code Examples in Space
No ratings yet
Code Examples in Space
13 pages
ML Functions
No ratings yet
ML Functions
12 pages
Setup: This Notebook Contains All The Sample Code and Solutions To The Exercises in Chapter 7
No ratings yet
Setup: This Notebook Contains All The Sample Code and Solutions To The Exercises in Chapter 7
23 pages
Machine Learning Lab Assignment 1
No ratings yet
Machine Learning Lab Assignment 1
23 pages
Model Evaluation Techniques
No ratings yet
Model Evaluation Techniques
5 pages
23BCE7092 ML Lab Assignment
No ratings yet
23BCE7092 ML Lab Assignment
14 pages
1
No ratings yet
1
13 pages
All in One
No ratings yet
All in One
13 pages
Random Forest
No ratings yet
Random Forest
8 pages
Decision Tree, Random Forest
No ratings yet
Decision Tree, Random Forest
37 pages
Major Project
No ratings yet
Major Project
9 pages
Ex 6, EX 7 AIML
No ratings yet
Ex 6, EX 7 AIML
9 pages
Assgn 06 ML - Ipynb - Colab
No ratings yet
Assgn 06 ML - Ipynb - Colab
5 pages
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Khoa Học Tự Nhiên Khoa Công Nghệ Thông Tin Bộ Môn Công Nghệ Tri Thức
No ratings yet
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Khoa Học Tự Nhiên Khoa Công Nghệ Thông Tin Bộ Môn Công Nghệ Tri Thức
9 pages
AI ML - Cycle 2 Programs
No ratings yet
AI ML - Cycle 2 Programs
15 pages
ML PDF
No ratings yet
ML PDF
30 pages
ML 4 SVM
No ratings yet
ML 4 SVM
3 pages
23BCE7199 ML Lab Assignment
No ratings yet
23BCE7199 ML Lab Assignment
15 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
Linearregression SVM
No ratings yet
Linearregression SVM
3 pages
Practical 1
No ratings yet
Practical 1
2 pages
Import As Import As From Import From Import From Import From Import
No ratings yet
Import As Import As From Import From Import From Import From Import
4 pages
Support Vector Machines for Solar Data
No ratings yet
Support Vector Machines for Solar Data
4 pages
Disease Prediction with Machine Learning
No ratings yet
Disease Prediction with Machine Learning
573 pages
Detect Fake Social Media Profiles with SVM
No ratings yet
Detect Fake Social Media Profiles with SVM
8 pages
AML Lab
No ratings yet
AML Lab
14 pages
Setup: This Notebook Contains All The Sample Code and Solutions To The Exercises in Chapter 5
No ratings yet
Setup: This Notebook Contains All The Sample Code and Solutions To The Exercises in Chapter 5
27 pages
Classification Review
No ratings yet
Classification Review
8 pages
Prathamesh KRAI
No ratings yet
Prathamesh KRAI
38 pages
Rev Insurance Business Report
No ratings yet
Rev Insurance Business Report
4 pages
AML Code For m2
No ratings yet
AML Code For m2
7 pages
Deep Learning - Lecture 4 - CNNs
No ratings yet
Deep Learning - Lecture 4 - CNNs
53 pages
ANN 3 - Perceptron
100% (1)
ANN 3 - Perceptron
56 pages
CNN & Deep Learning Quiz - MCQs
No ratings yet
CNN & Deep Learning Quiz - MCQs
8 pages
LLM Assignment
No ratings yet
LLM Assignment
44 pages
Mid Sem Makeup Questions
No ratings yet
Mid Sem Makeup Questions
6 pages
Ensemble Classifiers Overview
No ratings yet
Ensemble Classifiers Overview
37 pages
Unit5 PPT
No ratings yet
Unit5 PPT
12 pages
Neural Networks for IT Students
No ratings yet
Neural Networks for IT Students
13 pages
Clustering Techniques Overview
No ratings yet
Clustering Techniques Overview
29 pages
DL Cif 2023
No ratings yet
DL Cif 2023
3 pages
3D CNN +LTSM
No ratings yet
3D CNN +LTSM
2 pages
RNNs: Applications and Training Guide
No ratings yet
RNNs: Applications and Training Guide
36 pages
100 Days of DEep Learning
No ratings yet
100 Days of DEep Learning
5 pages
BackPropagation Through Time
No ratings yet
BackPropagation Through Time
6 pages
Sequence Modeling with Neural Networks
No ratings yet
Sequence Modeling with Neural Networks
75 pages
Splnproc1703 PDF
No ratings yet
Splnproc1703 PDF
16 pages
Predicting Rapid Impact Compaction - Case Study
No ratings yet
Predicting Rapid Impact Compaction - Case Study
36 pages
ML Roadmap Day by Day
No ratings yet
ML Roadmap Day by Day
2 pages
CS 229 - Deep Learning Cheatsheet
No ratings yet
CS 229 - Deep Learning Cheatsheet
6 pages
ANN and CNN Explained With Diagrams
No ratings yet
ANN and CNN Explained With Diagrams
3 pages
RNNs & LSTMs for Tech Enthusiasts
No ratings yet
RNNs & LSTMs for Tech Enthusiasts
9 pages
Machine Learning Road Map
No ratings yet
Machine Learning Road Map
5 pages
Hierarchical Clustering Explained
No ratings yet
Hierarchical Clustering Explained
14 pages
05 NN
No ratings yet
05 NN
151 pages
Cross Domain Sentiment Analysis
No ratings yet
Cross Domain Sentiment Analysis
17 pages
Understanding Clustering in Self-Organizing Networks
No ratings yet
Understanding Clustering in Self-Organizing Networks
9 pages
4 Implementing A GPT Model From Scratch To Generate Text - Build A Large Language Model (From Scratch)
No ratings yet
4 Implementing A GPT Model From Scratch To Generate Text - Build A Large Language Model (From Scratch)
52 pages
A Review On Advances in Sentiment Analysis A Deep Learning Approach Using Transformer Based Models
No ratings yet
A Review On Advances in Sentiment Analysis A Deep Learning Approach Using Transformer Based Models
5 pages
Deep Learning with PyTorch Course
No ratings yet
Deep Learning with PyTorch Course
9 pages
HSI PPT
No ratings yet
HSI PPT
25 pages