0% found this document useful (0 votes)

69 views4 pages

Untitled5.ipynb - Colab

The document outlines a data preprocessing and modeling workflow for a stroke prediction task using Python libraries such as pandas, scikit-learn, and imbalanced-learn. It includes steps for handling missing values, fixing outliers, encoding categorical variables, standardizing numerical features, and training a logistic regression model. The final model evaluation metrics indicate a strong performance, with an AUC score of approximately 0.89 and an F-beta score of 0.99.

Uploaded by

gacia der

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

69 views4 pages

Untitled5.ipynb - Colab

Uploaded by

gacia der

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

2/24/25, 9:55 PM Untitled5.

ipynb - Colab

import pandas as pd
import numpy as np
import [Link] as plt
import seaborn as sns
import os
from sklearn.model_selection import train_test_split
from [Link] import OneHotEncoder, StandardScaler
from [Link] import SimpleImputer
from sklearn.linear_model import LogisticRegression
from [Link] import fbeta_score, roc_auc_score, classification_report, confusion_matrix
from imblearn.over_sampling import SMOTE

from [Link] import files

uploaded = [Link]()

Choose Files 2 files

[Link](text/csv) - 152301 bytes, last modified: 2/21/2025 - 100% done
[Link](text/csv) - 146010 bytes, last modified: 2/21/2025 - 100% done
Saving [Link] to [Link]
Saving [Link] to [Link]

train_path = "/content/[Link]"
test_path = "/content/[Link]"
import os
print([Link](train_path))
print([Link](test_path))
train_path = "[Link]"
test_path = "[Link]"
train_df = pd.read_csv(train_path)
test_df = pd.read_csv(test_path)

True
True

# 1️⃣ Handling Missing Values

num_features = ["age", "avg_glucose_level", "bmi"]
num_imputer = SimpleImputer(strategy="median")
train_df[num_features] = num_imputer.fit_transform(train_df[num_features])
test_df[num_features] = num_imputer.transform(test_df[num_features])

# Handling categorical missing values separately

cat_features = ["gender", "ever_married", "work_type", "Residence_type", "smoking_status"]
cat_imputer = SimpleImputer(strategy="most_frequent")
train_df[cat_features] = cat_imputer.fit_transform(train_df[cat_features])
test_df[cat_features] = cat_imputer.transform(test_df[cat_features])

# Dropping missing target values (after checking distribution)

train_df = train_df.dropna(subset=["stroke"])

# 2️⃣ Fixing Outlier Issues

# Fixing Unrealistic Age Values (Remove Ages > 120)
train_df = train_df[train_df["age"] <= 120]

def cap_outliers(df, feature, lower_quantile=0.01, upper_quantile=0.99):

lower_cap = df[feature].quantile(lower_quantile)
upper_cap = df[feature].quantile(upper_quantile)
df[feature] = [Link](df[feature], lower_cap, upper_cap)
return df

# Apply capping to BMI separately for train and test

test_df = cap_outliers(test_df, "bmi")
[Link] 1/4
2/24/25, 9:55 PM [Link] - Colab
train_df = cap_outliers(train_df, "bmi")

# Log transform avg_glucose_level separately per set

train_df['avg_glucose_level'] = np.log1p(train_df['avg_glucose_level'])
test_df['avg_glucose_level'] = np.log1p(test_df['avg_glucose_level'])

# 3️⃣ Handling "Unknown" in smoking_status

train_df['smoking_status_unknown'] = train_df['smoking_status'].eq('Unknown').astype(int) if 'smoking_status' in train
test_df['smoking_status_unknown'] = test_df['smoking_status'].eq('Unknown').astype(int) if 'smoking_status' in test_df
train_df.drop(columns=["smoking_status"], errors='ignore', inplace=True)
test_df.drop(columns=["smoking_status"], errors='ignore', inplace=True)

# 3️⃣ Handling "Unknown" in smoking_status

# Update cat_features after dropping smoking_status

cat_features = ["gender", "ever_married", "work_type", "Residence_type"] # Removed smoking_status

# 4️⃣ Encoding Categorical Variables

encoder = OneHotEncoder(drop='first', sparse_output=False, handle_unknown='ignore')
encoded_train = [Link](encoder.fit_transform(train_df[cat_features]), columns=encoder.get_feature_names_out())
encoded_test = [Link]([Link](test_df[cat_features]), columns=encoder.get_feature_names_out())

# Transform test data

encoded_test = [Link]([Link](test_df[cat_features]))
encoded_test.columns = encoder.get_feature_names_out(cat_features) # Get column names

# Reset index
encoded_train.reset_index(drop=True, inplace=True)
encoded_test.reset_index(drop=True, inplace=True)

# 5️⃣ Standardizing Numerical Features

scaler = StandardScaler()
scaled_train = [Link](scaler.fit_transform(train_df[num_features]), columns=num_features)
scaled_test = [Link]([Link](test_df[num_features]), columns=num_features)

# 6️⃣ Combining Processed Features

X_train_final = [Link]([scaled_train, encoded_train, train_df[["hypertension", "heart_disease", "smoking_status_unk
X_test_final = [Link]([scaled_test, encoded_test, test_df[["hypertension", "heart_disease", "smoking_status_unknown

# Handle potential NaN values in 'stroke' column before conversion

y_train_final = train_df["stroke"].map({'Yes': 1, 'No': 0}).fillna(0).astype(int) # Fill NaN with -1 or another suitab

# 7️⃣ Handling Class Imbalance Using SMOTE

smote = SMOTE(random_state=42, k_neighbors=min(5, y_train_final[y_train_final != -1].value_counts().min() - 1))
# Set k_neighbors to the minimum between 5 and the number of samples in the smallest class(excluding -1 if present), m
X_train_balanced, y_train_balanced = smote.fit_resample(X_train_final, y_train_final)

# 8️⃣ Train-Test Split (Only Once!)

X_train, X_val, y_train, y_val = train_test_split(X_train_balanced, y_train_balanced, test_size=0.2, random_state=42,

# 9️⃣ Train Logistic Regression Model

model = LogisticRegression(class_weight='balanced', max_iter=1000)
[Link](X_train, y_train)

[Link] 2/4
2/24/25, 9:55 PM [Link] - Colab

▾ LogisticRegression i ?

LogisticRegression(class_weight='balanced', max_iter=1000)

# Predictions
y_pred = [Link](X_val)
y_probs = model.predict_proba(X_val)[:, 1]

# Evaluation Metrics
auc_score = roc_auc_score(y_val, y_probs)
f_beta = fbeta_score(y_val, y_pred, beta=10)
class_report = classification_report(y_val, y_pred)
conf_matrix = confusion_matrix(y_val, y_pred)

# Display Metrics
print(f"AUC Score: {auc_score}")
print(f"F-beta Score (β=10): {f_beta}")
print("Classification Report:")
print(class_report)
print("Confusion Matrix:")
print(conf_matrix)

AUC Score: 0.8933009746138141

F-beta Score (β=10): 0.9974195801482286
Classification Report:
precision recall f1-score support

0 1.00 0.74 0.85 510

1 0.79 1.00 0.88 509

accuracy 0.87 1019

macro avg 0.90 0.87 0.87 1019
weighted avg 0.90 0.87 0.87 1019

Confusion Matrix:
[[377 133]
[ 0 509]]

# 1️⃣0️⃣ Prepare Test Data for Submission

test_probs = model.predict_proba(X_test_final)[:, 1]
test_preds = [Link](X_test_final)

# Save Processed Data

train_df.to_csv("train_cleaned.csv", index=False)
test_df.to_csv("test_cleaned.csv", index=False)
submission_df = [Link]({"id": test_df["id"], "stroke": test_preds})
submission_df.to_csv("[Link]", index=False)

print("Preprocessing and training complete! 🚀")

Preprocessing and training complete! 🚀

[Link] 3/4
2/24/25, 9:55 PM [Link] - Colab

[Link] 4/4

Neural Networks
No ratings yet
Neural Networks
3 pages
Lab5 - My1stAiModel - Activity - Carl David C. Barrameda - Ipynb - Colab
No ratings yet
Lab5 - My1stAiModel - Activity - Carl David C. Barrameda - Ipynb - Colab
3 pages
Untitled Document
No ratings yet
Untitled Document
2 pages
S3 Data Processing and Classification
No ratings yet
S3 Data Processing and Classification
25 pages
Assignment 1 (B)
No ratings yet
Assignment 1 (B)
3 pages
Data Preprocessing for ML with Python
No ratings yet
Data Preprocessing for ML with Python
2 pages
Linear Merged Pagenumber
No ratings yet
Linear Merged Pagenumber
48 pages
Lab Manual - MachineLearningLaboratory-DR - Vaishnavi
No ratings yet
Lab Manual - MachineLearningLaboratory-DR - Vaishnavi
71 pages
Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
27 pages
DataWare Housing Asg01 Shaheer Zia Qazi-47-2
No ratings yet
DataWare Housing Asg01 Shaheer Zia Qazi-47-2
9 pages
Da Lab Mannual
No ratings yet
Da Lab Mannual
25 pages
AI&ML
No ratings yet
AI&ML
9 pages
Prediction - Ipynb - Colab
No ratings yet
Prediction - Ipynb - Colab
7 pages
Komal ML Assg1
No ratings yet
Komal ML Assg1
9 pages
23BCE7199 ML Lab Assignment
No ratings yet
23BCE7199 ML Lab Assignment
15 pages
Student Abandonment Classification in Brazil
No ratings yet
Student Abandonment Classification in Brazil
59 pages
Ai Code
No ratings yet
Ai Code
2 pages
Python 1
No ratings yet
Python 1
3 pages
Practical 4
No ratings yet
Practical 4
2 pages
DA Programs
No ratings yet
DA Programs
44 pages
Model2.ipynb - Colab
No ratings yet
Model2.ipynb - Colab
11 pages
AI Phase3
No ratings yet
AI Phase3
2 pages
P 7
No ratings yet
P 7
5 pages
Logistic Pima Indians - Ipynb - Colaboratory
No ratings yet
Logistic Pima Indians - Ipynb - Colaboratory
4 pages
22101A0040 Exp2
No ratings yet
22101A0040 Exp2
7 pages
Data Wrangling and Imputation Techniques
100% (1)
Data Wrangling and Imputation Techniques
41 pages
ML 6 7 8
No ratings yet
ML 6 7 8
10 pages
ML 4
No ratings yet
ML 4
2 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
Entrenamiento de Procesamiento de Datos
No ratings yet
Entrenamiento de Procesamiento de Datos
5 pages
Srushti ML Assign1
No ratings yet
Srushti ML Assign1
9 pages
Atul MLT Exp 4-11
No ratings yet
Atul MLT Exp 4-11
17 pages
ML - Lab - Ex 2
No ratings yet
ML - Lab - Ex 2
4 pages
ML PDF
No ratings yet
ML PDF
30 pages
Machine Learning Model Building
No ratings yet
Machine Learning Model Building
6 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
2 pages
Employee Retention Analysis & Prediction
No ratings yet
Employee Retention Analysis & Prediction
9 pages
57 - AI2 - Practical 7
No ratings yet
57 - AI2 - Practical 7
2 pages
Fibulae Neighbors Analysis
No ratings yet
Fibulae Neighbors Analysis
7 pages
ML All Projectpdf Removed
No ratings yet
ML All Projectpdf Removed
41 pages
DS Food
No ratings yet
DS Food
18 pages
Iii Aid - ML
No ratings yet
Iii Aid - ML
30 pages
Machine Learning
100% (2)
Machine Learning
136 pages
Final-12-Lab Programs
No ratings yet
Final-12-Lab Programs
30 pages
Stroke Prediction
No ratings yet
Stroke Prediction
10 pages
Supervised Classi & Regression
No ratings yet
Supervised Classi & Regression
5 pages
Personalized Cancer Diagnosis
No ratings yet
Personalized Cancer Diagnosis
100 pages
Machine Learning Lab Analysis
No ratings yet
Machine Learning Lab Analysis
15 pages
ML Exp 7
No ratings yet
ML Exp 7
3 pages
Assignment 5 - SourceCode - Ipynb - Colab
No ratings yet
Assignment 5 - SourceCode - Ipynb - Colab
4 pages
ML (1 5)
No ratings yet
ML (1 5)
6 pages
AI ML - Cycle 2 Programs
No ratings yet
AI ML - Cycle 2 Programs
15 pages
Census Income Data Analysis Guide
No ratings yet
Census Income Data Analysis Guide
22 pages
FIND-S and Decision Tree Algorithms Explained
No ratings yet
FIND-S and Decision Tree Algorithms Explained
24 pages
Lab2 Day8 23BCSA84 AssignmentSolution
No ratings yet
Lab2 Day8 23BCSA84 AssignmentSolution
7 pages
Data Analytics
No ratings yet
Data Analytics
10 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
Diabeties SVM
No ratings yet
Diabeties SVM
2 pages
Lect 06 Feature Engineering and Selection
No ratings yet
Lect 06 Feature Engineering and Selection
41 pages
ML Science
No ratings yet
ML Science
6 pages
Lect 05 Preprocessing Text
No ratings yet
Lect 05 Preprocessing Text
25 pages
MSBA315 Syllabus 2025
No ratings yet
MSBA315 Syllabus 2025
6 pages
MSBA315 Project Description
No ratings yet
MSBA315 Project Description
1 page
Session-Guide-Microsoft Teams
No ratings yet
Session-Guide-Microsoft Teams
4 pages
OEE Calculation and Six Losses Explained
100% (4)
OEE Calculation and Six Losses Explained
3 pages
Anna University ECE Regulations 2019
No ratings yet
Anna University ECE Regulations 2019
166 pages
Asterisk Documentation
50% (2)
Asterisk Documentation
34 pages
Hawkeye 2.4-EA-SP3 Release Notes
No ratings yet
Hawkeye 2.4-EA-SP3 Release Notes
14 pages
W0039 DINSTARGSM CDMAVoIPGatewayConfigurationGuide
No ratings yet
W0039 DINSTARGSM CDMAVoIPGatewayConfigurationGuide
7 pages
Auditing in CIS Environments
No ratings yet
Auditing in CIS Environments
27 pages
Evidence Gathering for Security Incidents
No ratings yet
Evidence Gathering for Security Incidents
42 pages
Relational Database Essentials
No ratings yet
Relational Database Essentials
22 pages
PeopleSoft Expertise for Pharma
No ratings yet
PeopleSoft Expertise for Pharma
9 pages
Funcoes
No ratings yet
Funcoes
41 pages
Basic Electronics Course Overview
No ratings yet
Basic Electronics Course Overview
3 pages
PVTC Technical Requirements: About The Installation Scenarios
No ratings yet
PVTC Technical Requirements: About The Installation Scenarios
11 pages
Chapter Five - PHP
No ratings yet
Chapter Five - PHP
114 pages
Ch8R1 Understanding Requirements
No ratings yet
Ch8R1 Understanding Requirements
19 pages
Harsh Practical File
No ratings yet
Harsh Practical File
54 pages
Serah Terima Pekerjaan
No ratings yet
Serah Terima Pekerjaan
3 pages
TFT-LCD Module: Liquid Crystal Displays Group
No ratings yet
TFT-LCD Module: Liquid Crystal Displays Group
26 pages
STP 80 NF 10
No ratings yet
STP 80 NF 10
14 pages
Converged Infrastructure Vs Hyperconverged Infrastructure
No ratings yet
Converged Infrastructure Vs Hyperconverged Infrastructure
4 pages
Placement of BPIT
No ratings yet
Placement of BPIT
10 pages
HP2-H27: HP Desktop & Notebook Service
No ratings yet
HP2-H27: HP Desktop & Notebook Service
5 pages
Practical Manual
No ratings yet
Practical Manual
38 pages
Design of Two Switch Buck Boost Converter
No ratings yet
Design of Two Switch Buck Boost Converter
16 pages
DevOps с Laravel 3. Kubernetes
No ratings yet
DevOps с Laravel 3. Kubernetes
92 pages
Module 4-Planning Projects
100% (1)
Module 4-Planning Projects
19 pages
Introduction to Distributed Databases
No ratings yet
Introduction to Distributed Databases
37 pages
CP Notes CHPTR 1
No ratings yet
CP Notes CHPTR 1
27 pages
Economics Thesis Green Variant
No ratings yet
Economics Thesis Green Variant
38 pages
Parameter Setting Keep Voice Traffic in 3G Network Huawei
No ratings yet
Parameter Setting Keep Voice Traffic in 3G Network Huawei
2 pages

Untitled5.ipynb - Colab

Uploaded by

Untitled5.ipynb - Colab

Uploaded by

2/24/25, 9:55 PM Untitled5.

from [Link] import files

Choose Files 2 files

# 1️⃣ Handling Missing Values

# Handling categorical missing values separately

# Dropping missing target values (after checking distribution)

# 2️⃣ Fixing Outlier Issues

def cap_outliers(df, feature, lower_quantile=0.01, upper_quantile=0.99):

# Apply capping to BMI separately for train and test

# Log transform avg_glucose_level separately per set

# 3️⃣ Handling "Unknown" in smoking_status

# 3️⃣ Handling "Unknown" in smoking_status

# Update cat_features after dropping smoking_status

# 4️⃣ Encoding Categorical Variables

# Transform test data

# 5️⃣ Standardizing Numerical Features

# 6️⃣ Combining Processed Features

# Handle potential NaN values in 'stroke' column before conversion

# 7️⃣ Handling Class Imbalance Using SMOTE

# 8️⃣ Train-Test Split (Only Once!)

# 9️⃣ Train Logistic Regression Model

AUC Score: 0.8933009746138141

0 1.00 0.74 0.85 510

accuracy 0.87 1019

# 1️⃣0️⃣ Prepare Test Data for Submission

# Save Processed Data

print("Preprocessing and training complete! 🚀")

You might also like