0% found this document useful (0 votes)

44 views8 pages

Appendix - Complete Code Implementation

This appendix contains complete Python code implementations for classification, regression, and clustering tasks using healthcare datasets, organized by task. It includes necessary libraries, model training, evaluation metrics, and visualization functions. The document provides a comprehensive guide to reproduce results and execute a complete machine learning pipeline for healthcare data analysis.

Uploaded by

austinyutw

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

44 views8 pages

Appendix - Complete Code Implementation

Uploaded by

austinyutw

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Appendix: Complete Code Implementation

This appendix contains all the Python code implementations used in the comparative analysis of
classification, regression, and clustering on healthcare datasets. The code is organized by task
and includes complete implementations with proper imports, data preprocessing, model training,
evaluation, and visualization functions.

A.1 Required Libraries and Imports

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer, load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.svm import SVC, SVR
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.metrics import (accuracy_score, precision_score, recall_score,
mean_absolute_error, mean_squared_error,
silhouette_score, davies_bouldin_score,
confusion_matrix, roc_curve, auc)
from sklearn.decomposition import PCA
import seaborn as sns

A.2 Classification Task: Breast Cancer Diagnosis

A.2.1 Basic Classification Implementation

from sklearn.linear_model import LogisticRegression

from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

# Load breast cancer dataset (features X, labels y)

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y,
test_size=0.3,
random_state=0)

# Initialize models
logreg = LogisticRegression(max_iter=10000)
rf_clf = RandomForestClassifier(n_estimators=100, random_state=0)
svm_clf = SVC(kernel='rbf', probability=True, random_state=0)

# Train models
logreg.fit(X_train, y_train)
rf_clf.fit(X_train, y_train)
svm_clf.fit(X_train, y_train)

A.2.2 Complete Classification Implementation with Evaluation

# Load dataset
breast_cancer = load_breast_cancer()
X_bc, y_bc = breast_cancer.data, breast_cancer.target

# Train-test split with stratification

X_train_bc, X_test_bc, y_train_bc, y_test_bc = train_test_split(
X_bc, y_bc, test_size=0.3, stratify=y_bc, random_state=0)

# Standardize features
scaler_bc = StandardScaler()
X_train_bc_scaled = scaler_bc.fit_transform(X_train_bc)
X_test_bc_scaled = scaler_bc.transform(X_test_bc)

# Initialize and train classification models

models_clf = {
'Logistic Regression': LogisticRegression(max_iter=10000, random_state=0),
'Random Forest': RandomForestClassifier(n_estimators=100, random_state=0),
'SVM (RBF)': SVC(kernel='rbf', probability=True, random_state=0)
}

# Train models and make predictions

clf_results = {}
for name, model in models_clf.items():
model.fit(X_train_bc_scaled, y_train_bc)
y_pred = model.predict(X_test_bc_scaled)
y_prob = model.predict_proba(X_test_bc_scaled)[:, 1] if hasattr(model, 'predict_proba

clf_results[name] = {
'model': model,
'predictions': y_pred,
'probabilities': y_prob,
'accuracy': accuracy_score(y_test_bc, y_pred),
'precision': precision_score(y_test_bc, y_pred),
'recall': recall_score(y_test_bc, y_pred)
}

# Print classification results

print("=" * 60)
print("CLASSIFICATION RESULTS - BREAST CANCER DIAGNOSIS")
print("=" * 60)
for name, results in clf_results.items():
print(f"{name}:")
print(f" Accuracy: {results['accuracy']:.3f}")
print(f" Precision: {results['precision']:.3f}")
print(f" Recall: {results['recall']:.3f}")
print()
A.3 Regression Task: Diabetes Progression Prediction

A.3.1 Basic Regression Implementation

from sklearn.linear_model import LinearRegression

from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_absolute_error, mean_squared_error

# (Assume X_train, X_test, y_train, y_test are prepared and features scaled)
linreg = LinearRegression().fit(X_train, y_train)
rf_reg = RandomForestRegressor(random_state=0).fit(X_train, y_train)
svr = SVR().fit(X_train, y_train)

# Predict on test set

y_pred_lin = linreg.predict(X_test)
y_pred_rf = rf_reg.predict(X_test)
y_pred_svr = svr.predict(X_test)

# Evaluate errors
print("Linear MAE:", mean_absolute_error(y_test, y_pred_lin))
print("Linear RMSE:", mean_squared_error(y_test, y_pred_lin, squared=False))

A.3.2 Complete Regression Implementation with Evaluation

# Load dataset
diabetes = load_diabetes()
X_db, y_db = diabetes.data, diabetes.target

# Train-test split
X_train_db, X_test_db, y_train_db, y_test_db = train_test_split(
X_db, y_db, test_size=0.2, random_state=0)

# Standardize features
scaler_db = StandardScaler()
X_train_db_scaled = scaler_db.fit_transform(X_train_db)
X_test_db_scaled = scaler_db.transform(X_test_db)

# Initialize and train regression models

models_reg = {
'Linear Regression': LinearRegression(),
'Random Forest Regressor': RandomForestRegressor(n_estimators=100, random_state=0),
'SVR (RBF)': SVR(kernel='rbf')
}

# Train models and make predictions

reg_results = {}
for name, model in models_reg.items():
model.fit(X_train_db_scaled, y_train_db)
y_pred = model.predict(X_test_db_scaled)

reg_results[name] = {
'model': model,
'predictions': y_pred,
'mae': mean_absolute_error(y_test_db, y_pred),
'rmse': mean_squared_error(y_test_db, y_pred, squared=False)
}

# Print regression results

print("=" * 60)
print("REGRESSION RESULTS - DIABETES PROGRESSION")
print("=" * 60)
for name, results in reg_results.items():
print(f"{name}:")
print(f" MAE: {results['mae']:.2f}")
print(f" RMSE: {results['rmse']:.2f}")
print()

A.4 Clustering Task: Unsupervised Patient Stratification

A.4.1 Basic Clustering Implementation

from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN

from sklearn.metrics import silhouette_score, davies_bouldin_score

# Standardize features
X_scaled = StandardScaler().fit_transform(X)
# X from WDBC, labels not used

# Run clustering algorithms

kmeans = KMeans(n_clusters=2, random_state=0).fit(X_scaled)
agg = AgglomerativeClustering(n_clusters=2).fit(X_scaled)
dbscan = DBSCAN(eps=2.0, min_samples=5).fit(X_scaled)

# Get cluster labels

labels_km = kmeans.labels_
labels_ag = agg.labels_
labels_db = dbscan.labels_

# Compute evaluation metrics

print("K-Means Silhouette:", silhouette_score(X_scaled, labels_km))
print("K-Means DBI:", davies_bouldin_score(X_scaled, labels_km))

A.4.2 Complete Clustering Implementation with Evaluation

# Use breast cancer data without labels for clustering

X_cluster = StandardScaler().fit_transform(X_bc)

# Initialize clustering models

models_cluster = {
'K-Means': KMeans(n_clusters=2, random_state=0),
'Agglomerative': AgglomerativeClustering(n_clusters=2),
'DBSCAN': DBSCAN(eps=2.0, min_samples=5)
}
# Perform clustering and evaluate
cluster_results = {}
for name, model in models_cluster.items():
labels = model.fit_predict(X_cluster)

# Handle case where DBSCAN might produce -1 labels (noise)

if len(np.unique(labels)) > 1 and min(labels) >= 0:
silhouette = silhouette_score(X_cluster, labels)
dbi = davies_bouldin_score(X_cluster, labels)
else:
silhouette = -1 # Invalid clustering
dbi = float('inf')

cluster_results[name] = {
'model': model,
'labels': labels,
'n_clusters': len(np.unique(labels[labels >= 0])),
'silhouette': silhouette,
'dbi': dbi
}

# Print clustering results

print("=" * 60)
print("CLUSTERING RESULTS - UNSUPERVISED PATIENT STRATIFICATION")
print("=" * 60)
for name, results in cluster_results.items():
print(f"{name}:")
print(f" Number of clusters: {results['n_clusters']}")
print(f" Silhouette Score: {results['silhouette']:.3f}")
print(f" Davies-Bouldin Index: {results['dbi']:.3f}")
print()

A.5 Visualization Functions

A.5.1 Classification Visualizations

def plot_confusion_matrix(y_true, y_pred, model_name):

"""Plot confusion matrix for classification results"""
cm = confusion_matrix(y_true, y_pred)
plt.figure(figsize=(6, 4))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title(f'Confusion Matrix - {model_name}')
plt.ylabel('True Label')
plt.xlabel('Predicted Label')
plt.show()

def plot_roc_curves(y_true, models_dict):

"""Plot ROC curves for multiple classification models"""
plt.figure(figsize=(8, 6))
for name, results in models_dict.items():
if results['probabilities'] is not None:
fpr, tpr, _ = roc_curve(y_true, results['probabilities'])
auc_score = auc(fpr, tpr)
plt.plot(fpr, tpr, label=f'{name} (AUC = {auc_score:.3f})')
plt.plot([0, 1], [0, 1], 'k--', label='Random')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curves - Classification Models')
plt.legend()
plt.grid(True)
plt.show()

A.5.2 Regression Visualizations

def plot_regression_predictions(y_true, y_pred, model_name):

"""Plot actual vs predicted values for regression"""
plt.figure(figsize=(8, 6))
plt.scatter(y_true, y_pred, alpha=0.6)
plt.plot([y_true.min(), y_true.max()], [y_true.min(), y_true.max()], 'r--', lw=2)
plt.xlabel('Actual Values')
plt.ylabel('Predicted Values')
plt.title(f'Actual vs Predicted - {model_name}')
plt.show()

A.5.3 Clustering Visualizations

def plot_clustering_pca(X, labels, model_name):

"""Plot clustering results in 2D PCA space"""
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

plt.figure(figsize=(8, 6))
scatter = plt.scatter(X_pca[:, 0], X_pca[:, 1], c=labels, cmap='viridis')
plt.xlabel(f'PC1 ({pca.explained_variance_ratio_[^0]:.1%} variance)')
plt.ylabel(f'PC2 ({pca.explained_variance_ratio_[^1]:.1%} variance)')
plt.title(f'Clustering Results - {model_name}')
plt.colorbar(scatter)
plt.show()

A.6 Complete Integrated Implementation

# =============================================================================
# COMPLETE MACHINE LEARNING PIPELINE FOR HEALTHCARE DATA ANALYSIS
# =============================================================================

def main():
"""
Main function to execute all three machine learning tasks:
1. Classification: Breast Cancer Diagnosis
2. Regression: Diabetes Progression Prediction
3. Clustering: Unsupervised Patient Stratification
"""

print("Starting Healthcare Machine Learning Analysis...")

print("=" * 70)

# Task 1: Classification
print("\nTask 1: Breast Cancer Classification")
print("-" * 40)
classification_task()

# Task 2: Regression
print("\nTask 2: Diabetes Progression Regression")
print("-" * 40)
regression_task()

# Task 3: Clustering
print("\nTask 3: Unsupervised Patient Clustering")
print("-" * 40)
clustering_task()

print("\n" + "=" * 70)

print("Analysis Complete!")

def classification_task():
"""Execute breast cancer classification task"""
# Implementation as shown in A.2.2
# [Complete code from section A.2.2 goes here]
pass

def regression_task():
"""Execute diabetes progression regression task"""
# Implementation as shown in A.3.2
# [Complete code from section A.3.2 goes here]
pass

def clustering_task():
"""Execute unsupervised clustering task"""
# Implementation as shown in A.4.2
# [Complete code from section A.4.2 goes here]
pass

# Example usage of visualization functions

def generate_all_visualizations():
"""Generate all visualizations for the research paper"""
# Example calls (uncomment to use):
# plot_confusion_matrix(y_test_bc, clf_results['Random Forest']['predictions'], 'Rand
# plot_roc_curves(y_test_bc, clf_results)
# plot_regression_predictions(y_test_db, reg_results['Linear Regression']['prediction
# plot_clustering_pca(X_cluster, cluster_results['K-Means']['labels'], 'K-Means')
pass

if __name__ == "__main__":
main()

A.7 Usage Instructions

To run the complete analysis, execute the following steps:
1. Install required packages:

pip install scikit-learn numpy pandas matplotlib seaborn

2. Run individual tasks:

# For classification only

classification_task()

# For regression only

regression_task()

# For clustering only

clustering_task()

3. Generate visualizations:

# Generate all plots and figures

generate_all_visualizations()

4. Run complete pipeline:

# Execute all tasks in sequence

main()

This appendix provides all the necessary code to reproduce the results presented in the main
research paper. The implementations follow scikit-learn best practices and include proper data
preprocessing, model training, evaluation, and visualization components essential for
comprehensive machine learning analysis in healthcare applications.
⁂

Medical Data ML
No ratings yet
Medical Data ML
6 pages
Disease Prediction with Machine Learning
No ratings yet
Disease Prediction with Machine Learning
573 pages
Machine Learning Lab Manual for B.Tech
No ratings yet
Machine Learning Lab Manual for B.Tech
19 pages
Breast Cancer Prediction with RF
No ratings yet
Breast Cancer Prediction with RF
2 pages
ML Regression & Classification Guide
100% (1)
ML Regression & Classification Guide
45 pages
AIML Project
No ratings yet
AIML Project
4 pages
SOLUTION ONLY CODE DWDM - Lab - All
No ratings yet
SOLUTION ONLY CODE DWDM - Lab - All
8 pages
Untitled Document
No ratings yet
Untitled Document
6 pages
Breast Cancer Classification Analysis
No ratings yet
Breast Cancer Classification Analysis
8 pages
Code Examples in Space
No ratings yet
Code Examples in Space
13 pages
All in One
No ratings yet
All in One
13 pages
Bacdeaf 23032025 115708 Split 1
No ratings yet
Bacdeaf 23032025 115708 Split 1
37 pages
Decision Tree and Machine Learning Models
No ratings yet
Decision Tree and Machine Learning Models
40 pages
I Avaliação Parcial - 25.0 PTS - Gabarito
No ratings yet
I Avaliação Parcial - 25.0 PTS - Gabarito
9 pages
Model Evaluation Techniques
No ratings yet
Model Evaluation Techniques
5 pages
Heart Disease Classification with ML
No ratings yet
Heart Disease Classification with ML
10 pages
Python Breast Cancer Prediction Guide
No ratings yet
Python Breast Cancer Prediction Guide
8 pages
Breast Cancer Prediction Analysis
No ratings yet
Breast Cancer Prediction Analysis
18 pages
Code and Output of Cancer Detection Model
No ratings yet
Code and Output of Cancer Detection Model
13 pages
ML PDF
No ratings yet
ML PDF
30 pages
Lab 8
No ratings yet
Lab 8
2 pages
Breast Cancer Classifier Comparison
No ratings yet
Breast Cancer Classifier Comparison
5 pages
Logistic Regression for Diabetes Risk
No ratings yet
Logistic Regression for Diabetes Risk
9 pages
ML Lab
No ratings yet
ML Lab
10 pages
Final ML Programs 075005
No ratings yet
Final ML Programs 075005
15 pages
ML Codes
No ratings yet
ML Codes
9 pages
Perceptron Training and Evaluation Guide
No ratings yet
Perceptron Training and Evaluation Guide
10 pages
Naive Bayes for Machine Learning Analysis
No ratings yet
Naive Bayes for Machine Learning Analysis
12 pages
ML II Lab
No ratings yet
ML II Lab
5 pages
Cancer Disease Prediction Models
No ratings yet
Cancer Disease Prediction Models
6 pages
Python Machine Learning Programs
No ratings yet
Python Machine Learning Programs
25 pages
Machine Learning: Supervised /unsupervised
No ratings yet
Machine Learning: Supervised /unsupervised
33 pages
Titanic Data Analysis with Python
No ratings yet
Titanic Data Analysis with Python
20 pages
Telecom Churn Proj
No ratings yet
Telecom Churn Proj
4 pages
Assign 4 8057
No ratings yet
Assign 4 8057
7 pages
AI ML - Cycle 2 Programs
No ratings yet
AI ML - Cycle 2 Programs
15 pages
NumPy and Pandas Data Analysis Techniques
No ratings yet
NumPy and Pandas Data Analysis Techniques
14 pages
Machine Learning Algorithms in Python
No ratings yet
Machine Learning Algorithms in Python
8 pages
Fisher Iris Classification Analysis
No ratings yet
Fisher Iris Classification Analysis
22 pages
Boo PH 3
No ratings yet
Boo PH 3
11 pages
Breast Cancer Classification Using DTC
No ratings yet
Breast Cancer Classification Using DTC
1 page
Machine Learning Practical Implementations
No ratings yet
Machine Learning Practical Implementations
29 pages
22101A0040 Exp2
No ratings yet
22101A0040 Exp2
7 pages
Python For Data Science IA 1 Programs
No ratings yet
Python For Data Science IA 1 Programs
14 pages
ML Assignment
No ratings yet
ML Assignment
34 pages
Wa0003
No ratings yet
Wa0003
16 pages
Car Evaluation Data Analysis & Random Forest Model
No ratings yet
Car Evaluation Data Analysis & Random Forest Model
12 pages
Diet Data Classification with Python
No ratings yet
Diet Data Classification with Python
35 pages
Python Metrics and Classifiers Guide
No ratings yet
Python Metrics and Classifiers Guide
7 pages
Synopsis 6 Extra
No ratings yet
Synopsis 6 Extra
5 pages
Classification Techniques in Python
No ratings yet
Classification Techniques in Python
30 pages
ML Lab-1
No ratings yet
ML Lab-1
32 pages
Da Lab Mannual
No ratings yet
Da Lab Mannual
25 pages
1
No ratings yet
1
13 pages
ML Manual With Outputs
No ratings yet
ML Manual With Outputs
30 pages
CP4252 Lab Manual
No ratings yet
CP4252 Lab Manual
13 pages
ML Minimized Programs
No ratings yet
ML Minimized Programs
9 pages
Diabetes Prediction with KNN Model
No ratings yet
Diabetes Prediction with KNN Model
4 pages
The Social Challenge of AI
No ratings yet
The Social Challenge of AI
2 pages
Nihms
No ratings yet
Nihms
21 pages
IELTS Reading Assignment 0706
No ratings yet
IELTS Reading Assignment 0706
10 pages
Smart MHI Project
No ratings yet
Smart MHI Project
34 pages
Extra Materials
No ratings yet
Extra Materials
2 pages
Improved VIX Report With Visuals
No ratings yet
Improved VIX Report With Visuals
2 pages
TSMC Stock Pitch TMBA ECM
No ratings yet
TSMC Stock Pitch TMBA ECM
2 pages
Computational Optics - Simulation and Analysis
No ratings yet
Computational Optics - Simulation and Analysis
14 pages
Financial and Strategic Analysis of Facebook's Ins
No ratings yet
Financial and Strategic Analysis of Facebook's Ins
9 pages
2025 SAT Practice 1
No ratings yet
2025 SAT Practice 1
13 pages
The Crisp DM Model The New Blueprint For Data Mining Shearer Colin
No ratings yet
The Crisp DM Model The New Blueprint For Data Mining Shearer Colin
15 pages
Credit Card Fraud Detection Techniques
No ratings yet
Credit Card Fraud Detection Techniques
29 pages
Machine Learning
No ratings yet
Machine Learning
2 pages
18CS72-Big Data and Analytics 3rd Internal QP 7th Semester - Scheme of Evaluation
No ratings yet
18CS72-Big Data and Analytics 3rd Internal QP 7th Semester - Scheme of Evaluation
14 pages
Data Mining - Utrecht University - 0. Intro
No ratings yet
Data Mining - Utrecht University - 0. Intro
53 pages
Data Profiling Vision Felix Naumann
No ratings yet
Data Profiling Vision Felix Naumann
11 pages
Avocet Workflow Tech
No ratings yet
Avocet Workflow Tech
2 pages
Density Based Clustering
No ratings yet
Density Based Clustering
17 pages
DM Unit-1
No ratings yet
DM Unit-1
33 pages
DWDM
No ratings yet
DWDM
2 pages
Presentation On Unsupervised Learning
No ratings yet
Presentation On Unsupervised Learning
3 pages
Why Is Python Becoming The Language of Choice For Data Analysts
No ratings yet
Why Is Python Becoming The Language of Choice For Data Analysts
3 pages
Chapter 1. Introduction To Computer Ethics: 1.1 Scenarios
No ratings yet
Chapter 1. Introduction To Computer Ethics: 1.1 Scenarios
8 pages
The Weather Forecast Using Data Mining Research Based On Cloud Computing
No ratings yet
The Weather Forecast Using Data Mining Research Based On Cloud Computing
7 pages
Amar Sahay - Business Analytics, Volume II - A Data Driven Decision Making Approach For Business-Business Expert Press (2019) PDF
100% (2)
Amar Sahay - Business Analytics, Volume II - A Data Driven Decision Making Approach For Business-Business Expert Press (2019) PDF
405 pages
Understanding Privacy in Cyberspace
No ratings yet
Understanding Privacy in Cyberspace
15 pages
Data Analytics 2marks PDF
100% (1)
Data Analytics 2marks PDF
13 pages
Question: Design A BI System For Fraud Detection .Describe All The Steps From Data Collection To Decision Making Clearly?
No ratings yet
Question: Design A BI System For Fraud Detection .Describe All The Steps From Data Collection To Decision Making Clearly?
2 pages
Data Mining Techniques Overview
No ratings yet
Data Mining Techniques Overview
3 pages
Data Mining Methods and Models 1st Edition Daniel T Larose
No ratings yet
Data Mining Methods and Models 1st Edition Daniel T Larose
387 pages
1) Explain Following Terms: I) Rule
No ratings yet
1) Explain Following Terms: I) Rule
5 pages
Credit Card Segmentation
No ratings yet
Credit Card Segmentation
3 pages
Unit 2 DS
No ratings yet
Unit 2 DS
30 pages
Seminar Report On Artificial Intelligence
69% (13)
Seminar Report On Artificial Intelligence
24 pages
Ace Dsilytc
No ratings yet
Ace Dsilytc
9 pages
Data Analysis and Machine Learning With Kaggle How To Win Competitions On Kaggle and Build A Successful Career in Data Science 1801817472 9781801817479
100% (1)
Data Analysis and Machine Learning With Kaggle How To Win Competitions On Kaggle and Build A Successful Career in Data Science 1801817472 9781801817479
48 pages
Data Mining MCQs Unit1&2
No ratings yet
Data Mining MCQs Unit1&2
11 pages
Data Mining: Techniques and Processes
No ratings yet
Data Mining: Techniques and Processes
64 pages
ML Roadmap Day by Day
No ratings yet
ML Roadmap Day by Day
2 pages
Svmsmote 061430
No ratings yet
Svmsmote 061430
2 pages