0% found this document useful (0 votes)

21 views6 pages

1sttask - Ipynb - Colab

The document outlines a collaborative project involving data preprocessing, class imbalance handling, and model training for COVID-19 test result prediction using various machine learning algorithms. Key steps include loading data, balancing classes with SMOTE, and evaluating models like Random Forest, Gradient Boosting, and Decision Tree based on accuracy and other metrics. The results indicate high accuracy for Random Forest and Gradient Boosting models, though performance on the positive class is notably lower.

Uploaded by

mavep24656

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

21 views6 pages

1sttask - Ipynb - Colab

Uploaded by

mavep24656

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

4/8/25, 7:44 PM 1stTask.

ipynb - Colab

Group Members

1. 21/04905 James Wainaina Githirwa

2. 21/04883 Fabian Ndung'u
3. 21/06700 Peter Kamau
4. 21/04956 Oliver Samwel
5. 21/05462 Purity Njenga
6. 21/05041 Caleb Sirma
7. 21/05119 Bramwel wanyoike
8. ⁠19/02645 Ian Karanja

keyboard_arrow_down Import Libraries

This step imports the necessary libraries for data manipulation, modeling, and visualization.

import pandas as pd
from sklearn.model_selection import train_test_split
from [Link] import RandomForestClassifier, GradientBoostingClassifier
from [Link] import DecisionTreeClassifier
from [Link] import (accuracy_score, classification_report,
confusion_matrix, precision_recall_curve,
PrecisionRecallDisplay)
from imblearn.over_sampling import SMOTE
from [Link] import resample
import seaborn as sns
import [Link] as plt
import warnings

# Suppress FutureWarnings
[Link]("ignore", category=FutureWarning)

keyboard_arrow_down Load and Preprocess Data

This function loads the dataset and performs initial preprocessing, including removing non-predictive columns and handling missing values.

# Load and preprocess data

def load_and_preprocess(filepath):
data = pd.read_csv(filepath)

# Remove non-predictive columns

non_predictive = [
"rapid_flu_results", "rapid_strep_results",
"cxr_findings", "cxr_impression", "cxr_label", "cxr_link",
"batch_date", "test_name", "swab_type"
]
[Link](columns=[col for col in non_predictive if col in [Link]], inplace=True)

# Handle missing values

[Link](subset=["covid19_test_results"], inplace=True)

# Numerical imputation
num_cols = data.select_dtypes(include=['number']).columns
data[num_cols] = data[num_cols].fillna(data[num_cols].mean())

# Categorical imputation
cat_cols = data.select_dtypes(exclude=['number']).[Link]('covid19_test_results')
for col in cat_cols:
data[col] = data[col].fillna(data[col].mode()[0])

return data

keyboard_arrow_down Handle Class Imbalance

This function balances the dataset by down-sampling the majority class (negative cases) to a specified size.

# Handle class imbalance

def balance_dataset(data):
majority = data[data['covid19_test_results'] == 'Negative']
minority = data[data['covid19_test_results'] == 'Positive']

[Link] 1/6
4/8/25, 7:44 PM [Link] - Colab
# Downsample majority
majority_down = resample(majority,
replace=False,
n_samples=5000,
random_state=42)

return [Link]([majority_down, minority], ignore_index=True)

keyboard_arrow_down Main Execution

This section executes the main workflow, including loading, balancing the dataset, and preparing for modeling.

# Main execution
data = load_and_preprocess('[Link]')
balanced_data = balance_dataset(data)

# Preprocess for modeling

X = pd.get_dummies(balanced_data.drop('covid19_test_results', axis=1), drop_first=True)
y = balanced_data['covid19_test_results'].map({'Negative': 0, 'Positive': 1})

keyboard_arrow_down Split Data

This step splits the data into training and testing sets, ensuring stratification based on the target variable.

# Split data before resampling

X_train, X_test, y_train, y_test = train_test_split(
X, y,
test_size=0.3,
stratify=y,
random_state=42
)

keyboard_arrow_down Apply SMOTE

This step applies SMOTE to the training data to balance the classes further.

# Apply SMOTE only to training data

smote = SMOTE(sampling_strategy='auto', random_state=42)
X_res, y_res = smote.fit_resample(X_train, y_train)

print("\nClass distribution after resampling:")

print([Link](y_res).value_counts())

Class distribution after resampling:

covid19_test_results
0 3500
1 3500
Name: count, dtype: int64

keyboard_arrow_down Model Training and Evaluation

This section defines the models, trains them, and evaluates their performance using accuracy, classification reports, confusion matrices, and
precision-recall curves.

# Model training and evaluation

models = {
"Random Forest": RandomForestClassifier(class_weight='balanced', random_state=42),
"Gradient Boosting": GradientBoostingClassifier(random_state=42),
"Decision Tree": DecisionTreeClassifier(class_weight='balanced', random_state=42)
}

for name, model in [Link]():

# Training
[Link](X_res, y_res)

# Prediction
y_pred = [Link](X_test)
y_proba = model.predict_proba(X_test)[:,1] if hasattr(model, "predict_proba") else [0]*len(y_test)

# Evaluation
print(f"\n{name} Evaluation:")

[Link] 2/6
4/8/25, 7:44 PM [Link] - Colab
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred, target_names=['Negative', 'Positive']))

# Confusion Matrix
cm = confusion_matrix(y_test, y_pred)
[Link](figsize=(6,4))
[Link](cm, annot=True, fmt='d', cmap='Blues',
xticklabels=['Predicted Negative', 'Predicted Positive'],
yticklabels=['Actual Negative', 'Actual Positive'])
[Link](f"{name} Confusion Matrix")
[Link]()

# Precision-Recall Curve
precision, recall, _ = precision_recall_curve(y_test, y_proba)
disp = PrecisionRecallDisplay(precision=precision, recall=recall)
[Link]()
[Link](f"{name} Precision-Recall Curve")
[Link]()

# Feature Importance (if available)

if hasattr(model, 'feature_importances_'):
importances = [Link](model.feature_importances_, index=[Link])
top_features = importances.sort_values(ascending=False).head(10)

[Link](figsize=(10,6))
top_features.sort_values().[Link](color='darkgreen')
[Link](f"{name} - Top 10 Features")
[Link]("Importance Score")
plt.tight_layout()
[Link]()

[Link] 3/6
4/8/25, 7:44 PM [Link] - Colab

Random Forest Evaluation:

Accuracy: 0.9714854111405835
precision recall f1-score support

Negative 1.00 0.98 0.99 1500

Positive 0.05 0.25 0.09 8

accuracy 0.97 1508

macro avg 0.52 0.61 0.54 1508
weighted avg 0.99 0.97 0.98 1508

[Link] 4/6
4/8/25, 7:44 PM [Link] - Colab

Gradient Boosting Evaluation:

Accuracy: 0.9602122015915119
precision recall f1-score support

Negative 1.00 0.96 0.98 1500

Positive 0.07 0.50 0.12 8

accuracy 0.96 1508

macro avg 0.53 0.73 0.55 1508
weighted avg 0.99 0.96 0.98 1508

[Link] 5/6
4/8/25, 7:44 PM [Link] - Colab

Decision Tree Evaluation:

Accuracy: 0.9602122015915119
precision recall f1-score support

Negative 1.00 0.96 0.98 1500

Positive 0.02 0.12 0.03 8

accuracy 0.96 1508

macro avg 0.51 0.54 0.51 1508
weighted avg 0.99 0.96 0.97 1508

[Link] 6/6

Summary
No ratings yet
Summary
51 pages
Week10 - Colab
No ratings yet
Week10 - Colab
3 pages
COMPARISON - Jupyter Notebook
No ratings yet
COMPARISON - Jupyter Notebook
5 pages
Data Mining Lab-2
No ratings yet
Data Mining Lab-2
6 pages
Maternal-Risk-Prediction - Ipynb - Colab
No ratings yet
Maternal-Risk-Prediction - Ipynb - Colab
9 pages
ML101 Graded Assignment 2.ipynb - Colab
No ratings yet
ML101 Graded Assignment 2.ipynb - Colab
6 pages
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
8 pages
ML Lab Assessment 4
No ratings yet
ML Lab Assessment 4
4 pages
Ann 2
No ratings yet
Ann 2
8 pages
Python ML Methods Cheatsheet
No ratings yet
Python ML Methods Cheatsheet
6 pages
Q2.ipynb - Colaboratory
No ratings yet
Q2.ipynb - Colaboratory
3 pages
DeepLearningLab2.Ipynb - Colab
No ratings yet
DeepLearningLab2.Ipynb - Colab
7 pages
Logistic Regression vs SVM Analysis
No ratings yet
Logistic Regression vs SVM Analysis
7 pages
Progress of CATBOOST ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of CATBOOST ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
9 pages
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
10 pages
Machine Learning Evaluation Metrics Guide
No ratings yet
Machine Learning Evaluation Metrics Guide
7 pages
TP - Ipynb - Colab
No ratings yet
TP - Ipynb - Colab
6 pages
Diabetes Classification with SMOTE Analysis
100% (1)
Diabetes Classification with SMOTE Analysis
7 pages
Ads Exp 8 Smote
No ratings yet
Ads Exp 8 Smote
8 pages
Employee Commute Prediction
100% (1)
Employee Commute Prediction
41 pages
ML Mini Project
No ratings yet
ML Mini Project
9 pages
Professional Machine Learning
No ratings yet
Professional Machine Learning
67 pages
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
7 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
ML Functions
No ratings yet
ML Functions
12 pages
Machine Learning Final Report
No ratings yet
Machine Learning Final Report
8 pages
ANN Classification with Python & R
No ratings yet
ANN Classification with Python & R
9 pages
Binary Classification
No ratings yet
Binary Classification
2 pages
Lab4 - Jupyter Notebook
No ratings yet
Lab4 - Jupyter Notebook
7 pages
Ml-Exp-2 - Jupyter Notebook
No ratings yet
Ml-Exp-2 - Jupyter Notebook
2 pages
Lab On ML Print-Set-2022
No ratings yet
Lab On ML Print-Set-2022
10 pages
ML Lab6.Ipynb - Colaboratory
100% (1)
ML Lab6.Ipynb - Colaboratory
5 pages
Screenshot 2024-03-19 at 8.41.33 PM
No ratings yet
Screenshot 2024-03-19 at 8.41.33 PM
3 pages
Imbalanced Dataset Customer Churn
No ratings yet
Imbalanced Dataset Customer Churn
9 pages
Stats 101c Final Project
100% (1)
Stats 101c Final Project
16 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
22 pages
ML 5
No ratings yet
ML 5
3 pages
Northbay Summarizes Data Pre-Processing Algorithms
No ratings yet
Northbay Summarizes Data Pre-Processing Algorithms
10 pages
ML Lab 146
No ratings yet
ML Lab 146
50 pages
Model Evaluation Techniques
No ratings yet
Model Evaluation Techniques
5 pages
Linear Regression Lab: Methods & Examples
100% (1)
Linear Regression Lab: Methods & Examples
18 pages
ML 11 Decision Trees
No ratings yet
ML 11 Decision Trees
4 pages
AIML - ECE304 - Assign-2 - Kartikeya - Kandpal - Ajitesh - S.ipynb - Colab
No ratings yet
AIML - ECE304 - Assign-2 - Kartikeya - Kandpal - Ajitesh - S.ipynb - Colab
3 pages
DL Practical PROGRAM
No ratings yet
DL Practical PROGRAM
28 pages
Machine Learning Classification Exam
No ratings yet
Machine Learning Classification Exam
1 page
ML Lab Programs 2
No ratings yet
ML Lab Programs 2
16 pages
LSTM - Jupyter Notebook
No ratings yet
LSTM - Jupyter Notebook
7 pages
Diabetic Classification Using Machine Learning
No ratings yet
Diabetic Classification Using Machine Learning
10 pages
Loadalgarve MLP
No ratings yet
Loadalgarve MLP
7 pages
Deep Learning Assignments
No ratings yet
Deep Learning Assignments
5 pages
Jupyter Lab
No ratings yet
Jupyter Lab
42 pages
Exp 2
No ratings yet
Exp 2
3 pages
Comprehensive Overview of Common ML Techniques
No ratings yet
Comprehensive Overview of Common ML Techniques
7 pages
AI Note
No ratings yet
AI Note
5 pages
Untitled 10
No ratings yet
Untitled 10
6 pages
ML Lab Manual
No ratings yet
ML Lab Manual
17 pages
ML Mini Project
No ratings yet
ML Mini Project
9 pages
Data Preprocessing
No ratings yet
Data Preprocessing
9 pages
Import As Import As Import As Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import
No ratings yet
Import As Import As Import As Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import
8 pages
Kusiak 2010
No ratings yet
Kusiak 2010
9 pages
1 - Comparative - Performance - Analysis - of - Decision - Tree - and - K-Nearest - Neighbors - KNN - Algorithms - For - Malformed - (Triyanna Hanif)
No ratings yet
1 - Comparative - Performance - Analysis - of - Decision - Tree - and - K-Nearest - Neighbors - KNN - Algorithms - For - Malformed - (Triyanna Hanif)
5 pages
Learning From Data - A Short Course
91% (11)
Learning From Data - A Short Course
215 pages
AIML-PART-b & PART-C
No ratings yet
AIML-PART-b & PART-C
42 pages
Airbnb (Air Bed and Breakfast) Listing Analysis TH
No ratings yet
Airbnb (Air Bed and Breakfast) Listing Analysis TH
24 pages
Data Mining
No ratings yet
Data Mining
6 pages
Advances in Nature Inspired Metaheuristic Optimization For 2023 Computer Sci
No ratings yet
Advances in Nature Inspired Metaheuristic Optimization For 2023 Computer Sci
24 pages
A Machine Learning Framework For Automated News Article Title Classification in Albanian
No ratings yet
A Machine Learning Framework For Automated News Article Title Classification in Albanian
6 pages
KNN Regression MCQs and Answers
No ratings yet
KNN Regression MCQs and Answers
8 pages
Classification
No ratings yet
Classification
61 pages
AD601 Deep Learning Unit-2 Notes
No ratings yet
AD601 Deep Learning Unit-2 Notes
14 pages
Unit 5 DM
No ratings yet
Unit 5 DM
11 pages
Deep Learning Regularization Techniques
No ratings yet
Deep Learning Regularization Techniques
56 pages
Unit-2 AI Python
No ratings yet
Unit-2 AI Python
57 pages
Sentiment Analysis in Marketing Research
No ratings yet
Sentiment Analysis in Marketing Research
24 pages
Machine Learning Essentials
No ratings yet
Machine Learning Essentials
17 pages
Python Machine Learning - Machine Learning and Deep Learning With Python Scikit Learn and Tensorflow 2 Third Edition
No ratings yet
Python Machine Learning - Machine Learning and Deep Learning With Python Scikit Learn and Tensorflow 2 Third Edition
4 pages
ML Classifiers & Regression Guide
No ratings yet
ML Classifiers & Regression Guide
46 pages
Computer Vision in Waste Sorting Systems
No ratings yet
Computer Vision in Waste Sorting Systems
15 pages
MLT Week12 Notes
No ratings yet
MLT Week12 Notes
10 pages
Kernel SVM For Image Classification
No ratings yet
Kernel SVM For Image Classification
20 pages
BSc in Computer Science & Engineering
No ratings yet
BSc in Computer Science & Engineering
24 pages
Perceptron Modifications in Neural Networks
No ratings yet
Perceptron Modifications in Neural Networks
11 pages
ML Full Notes
No ratings yet
ML Full Notes
66 pages
Final Report
No ratings yet
Final Report
38 pages
Predicting Personality From Facebook Data
No ratings yet
Predicting Personality From Facebook Data
15 pages
Unit IV ML
No ratings yet
Unit IV ML
10 pages
Week1 UDL CM20315 01 Intro
No ratings yet
Week1 UDL CM20315 01 Intro
49 pages
Tutorials
No ratings yet
Tutorials
75 pages
Final Exam Update Huawei
0% (1)
Final Exam Update Huawei
13 pages