0% found this document useful (0 votes)

10 views5 pages

Code

The document outlines a project on water quality analysis using R, including data reading, pre-processing, and model fitting using logistic regression and random forest. It highlights the steps taken to handle missing values, split the dataset, and evaluate model performance through confusion matrices. Additionally, it notes the need for improvements in the report structure, including an introduction and conclusion, as well as a more comprehensive explanation of the code.

Uploaded by

tai.truonghuu1203

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views5 pages

Code

Uploaded by

tai.truonghuu1203

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Probability and Statistics

INSTALL NECESSARY LIBRARIES

#Recalling necessary libraries
install.packages("ggplot2")
library(ggplot2)
library(caret)

DATA READING & PRE-PROCESSING

#Read data
water_quality=read.csv("C:/Probability and
Statistics/Project/water_potability.csv")
head(water_quality)

#Categorize potability data as factor

water_quality$Potability <- as.factor(water_quality$Potability)

#Data summary
table(water_quality$Potability)

#Counting missing values

colSums(is.na(water_quality))

#Replace missing values

water_quality$ph[is.na(water_quality$ph)] <-
mean(water_quality$ph,na.rm=TRUE)
water_quality$Sulfate[is.na(water_quality$Sulfate)] <-
mean(water_quality$Sulfate,na.rm=T)
water_quality$Trihalomethanes[is.na(water_quality$Trihalomethanes
)] <- mean(water_quality$Trihalomethanes,na.rm=T)
#Replace missing values
pH
ph_np<-mean(water_quality[water_quality$Potability == 0,
"ph"],na.rm=T)
ph_p<-mean(water_quality[water_quality$Potability == 1,
"ph"],na.rm=T)
water_quality[water_quality$Potability == 0 &
is.na(water_quality$ph), "ph"] <- ph_np
water_quality[water_quality$Potability == 1 &
is.na(water_quality$ph), "ph"] <- ph_p

Sulfate_np<-mean(water_quality[water_quality$Potability == 0,
"Sulfate"],na.rm=T)
Sulfate_p<-mean(water_quality[water_quality$Potability == 1,
"Sulfate"],na.rm=T)
water_quality[water_quality$Potability == 0 &
is.na(water_quality$Sulfate), "Sulfate"] <- Sulfate_np
water_quality[water_quality$Potability == 1 &
is.na(water_quality$Sulfate), "Sulfate"] <- Sulfate_p

Trihalomethanes_np<-mean(water_quality[water_quality$Potability
== 0, "Trihalomethanes"],na.rm=T)
Trihalomethanes_p<-mean(water_quality[water_quality$Potability
== 1, "Trihalomethanes"],na.rm=T)
water_quality[water_quality$Potability == 0 &
is.na(water_quality$Trihalomethanes), "Trihalomethanes"] <-
Trihalomethanes_np
water_quality[water_quality$Potability == 1 &
is.na(water_quality$Trihalomethanes), "Trihalomethanes"] <-
Trihalomethanes_p
shuffled_water_quality <-
water_quality[sample(nrow(water_quality)), ]
# Set a seed for reproducibility
set.seed(232)

# Split
dt <- sort(sample(nrow(water_quality),nrow(water_quality)*0.8))
train <- water_quality[dt,]
test <- water_quality[-dt,]

# Fit a logistic regression model

log_model <- glm(Potability ~ ., data = train, family = "binomial")

# Display the summary of the model

summary(log_model)

# Use the model to predict probabilities on the testing set

predicted_probability <- predict(log_model, newdata = test, type =
"response")

# Convert probabilities to binary predictions (0 or 1)

predicted_labels <- ifelse(predicted_probability > 0.5, 1, 0)
# Assuming your actual labels are in the "Potability" column of the
testing set
actual_labels <- test$Potability

# Create a confusion matrix to evaluate model performance

confusion_matrix <- table(Actual = actual_labels, Predicted =
predicted_labels)

# Calculate accuracy, 95% CI, no-information rate, and p-value

model_performance <- confusionMatrix(data=
as.factor(predicted_labels), reference = as.factor(actual_labels))

# Display the model performance summary

print(model_performance)

#Import Random Forest library

install.packages("randomForest")
library(randomForest)

#Use Random Forest

randomforest_model <- randomForest(Potability ~ ph + Conductivity
+ Trihalomethanes + Hardness + Solids + Chloramines + Sulfate +
Turbidity + Organic_carbon, data = train)

#Print the model

print(randomforest_model)

#Test the model

predicted_randomforest <- predict(randomforest_model, newdata =
test)
confusion_matrix2 <- table(predicted_randomforest, test$Potability)
print(confusion_matrix2)

#Print the model performance

model_performance_randomforest <- confusionMatrix(data =
as.factor(predicted_randomforest), reference =
as.factor(test$Potability))
print(model_performance_randomforest)

Đánh giá tổng quan:

- Còn thiếu phần 1 Introduction, Kết luận
- Các chương chưa được trình bày theo dạng báo cáo mà chỉ là giải
thích code: Thiếu nhận xét, đánh giá, kết luận

Nhiệm vụ:
- Hoàn thành nội dung theo dạng báo cáo
- Hoàn thành file Giải thích code
- Lưu ý số trang tối đa

CODER
No ratings yet
CODER
18 pages
Code Analysis
No ratings yet
Code Analysis
6 pages
Water - Qualit (2) - JupyterLab
No ratings yet
Water - Qualit (2) - JupyterLab
10 pages
Water Quality Analysis Report
No ratings yet
Water Quality Analysis Report
36 pages
Water Quality Data Analysis
No ratings yet
Water Quality Data Analysis
30 pages
Water Potability PPT
No ratings yet
Water Potability PPT
12 pages
phần code r tới câu f của phần 4
No ratings yet
phần code r tới câu f của phần 4
9 pages
Water Quality Analyser Team 29714-1
No ratings yet
Water Quality Analyser Team 29714-1
12 pages
Aditi Project
No ratings yet
Aditi Project
12 pages
Water Potablity Detection
No ratings yet
Water Potablity Detection
29 pages
Presentation Final Thesis Surobhi Deb
No ratings yet
Presentation Final Thesis Surobhi Deb
18 pages
Capstoneppt Waterpotabilityprediction 241025130941 5d99fced
No ratings yet
Capstoneppt Waterpotabilityprediction 241025130941 5d99fced
12 pages
Coding An
No ratings yet
Coding An
19 pages
E&U P3.Ipynb - Colab
No ratings yet
E&U P3.Ipynb - Colab
7 pages
Water Quality Prediction Presentation
No ratings yet
Water Quality Prediction Presentation
13 pages
Final Report
No ratings yet
Final Report
29 pages
Random Forest & XGBoost for Water Potability
No ratings yet
Random Forest & XGBoost for Water Potability
6 pages
Water - Resources - Business - Plan - by - Slidesgo (1) .PPTX - Read-Only
No ratings yet
Water - Resources - Business - Plan - by - Slidesgo (1) .PPTX - Read-Only
13 pages
Code
No ratings yet
Code
25 pages
IMPLEMENTATION
No ratings yet
IMPLEMENTATION
6 pages
23mda025 Keerthana S
No ratings yet
23mda025 Keerthana S
17 pages
PRJ
No ratings yet
PRJ
17 pages
Case Study Template 2.pptx-2
No ratings yet
Case Study Template 2.pptx-2
8 pages
Lab 1 - Python - Excel
No ratings yet
Lab 1 - Python - Excel
14 pages
DAC Phase5
No ratings yet
DAC Phase5
12 pages
Water Quality Analysis and Prediction
No ratings yet
Water Quality Analysis and Prediction
26 pages
Code R
No ratings yet
Code R
3 pages
Ensemble Learning R Code
No ratings yet
Ensemble Learning R Code
4 pages
Logistic Regression for Red Wine Quality
100% (1)
Logistic Regression for Red Wine Quality
10 pages
Wine Quality Prediction Using Machine Learning
No ratings yet
Wine Quality Prediction Using Machine Learning
10 pages
RANDOM FOREST (Binary Classification)
No ratings yet
RANDOM FOREST (Binary Classification)
5 pages
Waterquality
No ratings yet
Waterquality
4 pages
R Class 10
No ratings yet
R Class 10
7 pages
14-May - Jupyter Notebook
No ratings yet
14-May - Jupyter Notebook
15 pages
Quality Prediction Checkpoint
No ratings yet
Quality Prediction Checkpoint
14 pages
Sample Format Project Report
No ratings yet
Sample Format Project Report
3 pages
Data Cleaning
No ratings yet
Data Cleaning
4 pages
DA PRA WEEK 13 (Random Forest) - 054551
No ratings yet
DA PRA WEEK 13 (Random Forest) - 054551
12 pages
Before 7
No ratings yet
Before 7
17 pages
XSTK Final
No ratings yet
XSTK Final
34 pages
Kaggle Course Notes
No ratings yet
Kaggle Course Notes
87 pages
Water Quality Data Analysis
No ratings yet
Water Quality Data Analysis
4 pages
Wine
No ratings yet
Wine
15 pages
Learning Concepts Hackers Realm
No ratings yet
Learning Concepts Hackers Realm
78 pages
Statistical Tools For Analyzing Water Quality Data
No ratings yet
Statistical Tools For Analyzing Water Quality Data
27 pages
Presentation 1
No ratings yet
Presentation 1
24 pages
English Boss
No ratings yet
English Boss
4 pages
Checkfinal 123
No ratings yet
Checkfinal 123
18 pages
Water Quality EDA & Classification
No ratings yet
Water Quality EDA & Classification
9 pages
Efficient Water Quality Analysis and Prediction
No ratings yet
Efficient Water Quality Analysis and Prediction
34 pages
Customer Behavior Analysis in R
No ratings yet
Customer Behavior Analysis in R
30 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
5 pages
MLP Slides Merged
No ratings yet
MLP Slides Merged
480 pages
Lecture 1.1 - Basic Concepts
No ratings yet
Lecture 1.1 - Basic Concepts
32 pages
Unit 6 CONVECTION DRYING
No ratings yet
Unit 6 CONVECTION DRYING
11 pages
CH2043 - 0 - Course Overview
No ratings yet
CH2043 - 0 - Course Overview
18 pages
QTTB
No ratings yet
QTTB
8 pages
CC08 04 Chemical Engineering
No ratings yet
CC08 04 Chemical Engineering
35 pages
XSTK
No ratings yet
XSTK
8 pages
Draft - Report TKHT
No ratings yet
Draft - Report TKHT
29 pages
1 s2.0 S1750583611001319 Main
No ratings yet
1 s2.0 S1750583611001319 Main
14 pages
Final Examples 2025
No ratings yet
Final Examples 2025
6 pages
Wireshark Guide
No ratings yet
Wireshark Guide
11 pages
JutePest-YOLO A Deep Learning Network For Jute Pest Identification and Detection
No ratings yet
JutePest-YOLO A Deep Learning Network For Jute Pest Identification and Detection
19 pages
KaliKamli Application
No ratings yet
KaliKamli Application
5 pages
Lect 5 Data Structure
No ratings yet
Lect 5 Data Structure
7 pages
Relational Database Essentials
No ratings yet
Relational Database Essentials
22 pages
Business Impact of Code Quality
No ratings yet
Business Impact of Code Quality
14 pages
FX2N Communication Switching For Single Serial Port
No ratings yet
FX2N Communication Switching For Single Serial Port
3 pages
Catalyst One Quick Reference Guide en
No ratings yet
Catalyst One Quick Reference Guide en
1 page
Script For PP
No ratings yet
Script For PP
3 pages
Book 13 Texto PDF
50% (2)
Book 13 Texto PDF
206 pages
Pressure Sensor Design Guide
No ratings yet
Pressure Sensor Design Guide
97 pages
SPF SDX Profile2
No ratings yet
SPF SDX Profile2
3 pages
Plena LBB1935-20
No ratings yet
Plena LBB1935-20
26 pages
Basic Computer Components Guide
No ratings yet
Basic Computer Components Guide
10 pages
K21Academy 3 Doc Oracle Cloud Apps DBA Must Read - Output
No ratings yet
K21Academy 3 Doc Oracle Cloud Apps DBA Must Read - Output
6 pages
Real-Time and Embedded Guide
100% (3)
Real-Time and Embedded Guide
177 pages
Pass User'S Guide: PASS 2000 Power Analysis and Sample Size For Windows
No ratings yet
Pass User'S Guide: PASS 2000 Power Analysis and Sample Size For Windows
7 pages
W0039 DINSTARGSM CDMAVoIPGatewayConfigurationGuide
No ratings yet
W0039 DINSTARGSM CDMAVoIPGatewayConfigurationGuide
7 pages
Core Series s5 - SM
No ratings yet
Core Series s5 - SM
232 pages
Complete Bundle Understanding Motor Controls 3rd Edition Herman
No ratings yet
Complete Bundle Understanding Motor Controls 3rd Edition Herman
411 pages
VLOG
No ratings yet
VLOG
15 pages
Mixed Method Research
No ratings yet
Mixed Method Research
15 pages
SAFT Functionality For Portugal
No ratings yet
SAFT Functionality For Portugal
66 pages
CS8 GRPC
No ratings yet
CS8 GRPC
25 pages
3 Year Anime Filmmaking Skill Roadmap
No ratings yet
3 Year Anime Filmmaking Skill Roadmap
3 pages
Excel DAVERAGE Function Guide
No ratings yet
Excel DAVERAGE Function Guide
395 pages
Samsung IFR LED Display Specs
No ratings yet
Samsung IFR LED Display Specs
18 pages
Manual Versana Active
100% (1)
Manual Versana Active
463 pages
AI-Driven Business Model Review
No ratings yet
AI-Driven Business Model Review
18 pages
Noncomputability and The Busy Beaver Problem: Bryant A. Julstrom
No ratings yet
Noncomputability and The Busy Beaver Problem: Bryant A. Julstrom
36 pages

Code

Uploaded by

Code

Uploaded by

Probability and Statistics

INSTALL NECESSARY LIBRARIES

DATA READING & PRE-PROCESSING

#Categorize potability data as factor

#Counting missing values

#Replace missing values

# Fit a logistic regression model

# Display the summary of the model

# Use the model to predict probabilities on the testing set

# Convert probabilities to binary predictions (0 or 1)

# Create a confusion matrix to evaluate model performance

# Calculate accuracy, 95% CI, no-information rate, and p-value

# Display the model performance summary

#Import Random Forest library

#Use Random Forest

#Print the model

#Test the model

#Print the model performance

Đánh giá tổng quan:

You might also like