Open navigation menu

Scribd

0% found this document useful (0 votes)

31 views6 pages

Code Structure

The document outlines a Python script for a machine learning pipeline using linear regression, including data loading, preprocessing, model training, evaluation, and prediction. It emphasizes strict validation, logging, and leakage-proof practices throughout the process. The main function orchestrates the workflow, handling exceptions and providing metrics and visualizations.

Uploaded by

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

31 views6 pages

Code Structure

The document outlines a Python script for a machine learning pipeline using linear regression, including data loading, preprocessing, model training, evaluation, and prediction. It emphasizes strict validation, logging, and leakage-proof practices throughout the process. The main function orchestrates the workflow, handling exceptions and providing metrics and visualizations.

Uploaded by

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

import pandas as pd

import numpy as np

from sklearn.model_selection import train_test_split

from [Link] import MinMaxScaler

from sklearn.linear_model import LinearRegression

from [Link] import r2_score, mean_squared_error, mean_absolute_error

from [Link] import make_pipeline

import [Link] as plt

import seaborn as sns

import logging

from typing import Tuple, Dict

from datetime import datetime

# Configure logging

[Link](level=[Link], format='%(levelname)s: %(message)s')

# --------------------------------------

# Module 1: Data Loading (Strict Validation)

# --------------------------------------

def load_data(file_path: str, target_column: str) -> [Link]:

"""Load Excel file with strict numerical validation"""

try:

df = pd.read_excel(file_path)

# Enforce numerical-only requirement

if not all([Link](lambda x: [Link](x, [Link]))):

raise ValueError("All columns must be numerical")

if target_column not in [Link]:

raise ValueError(f"Target column '{target_column}' not found")

[Link](f"Data loaded: {[Link][0]} rows, {[Link][1]} cols")

return df

except FileNotFoundError:
[Link]("Excel file not found")

raise

# --------------------------------------

# Module 2: Preprocessing (Explicit Row Removal)

# --------------------------------------

def preprocess_data(df: [Link]) -> [Link]:

"""Remove missing rows with logging"""

initial_rows = [Link][0]

df_clean = [Link]().drop_duplicates()

removed = initial_rows - df_clean.shape[0]

[Link](f"Removed {removed} rows ({removed/initial_rows:.1%})")

return df_clean

# --------------------------------------

# Module 3: Feature Scaling (Leakage-Proof)

# --------------------------------------

def create_scaler(X_train: [Link]) -> MinMaxScaler:

"""Create scaler fitted ONLY on training data"""

scaler = MinMaxScaler().fit(X_train)

[Link]("Scaler fitted on training data")

return scaler

# --------------------------------------

# Module 4: Data Splitting (Reproducible)

# --------------------------------------

def split_data(X: [Link], y: [Link], test_size: float=0.2,

random_state: int=42) -> Tuple:

"""Strict numerical split with seed"""

return train_test_split(

X, y,
test_size=test_size,

random_state=random_state

# --------------------------------------

# Module 5: Model Training (With Pipeline)

# --------------------------------------

def train_model(X_train: [Link], y_train: [Link]) -> LinearRegression:

"""Linear regression with integrated scaling"""

model = make_pipeline(

MinMaxScaler(),

LinearRegression()

).fit(X_train, y_train)

[Link]("Model trained")

return model

# --------------------------------------

# Module 6: Evaluation (With Baseline)

# --------------------------------------

def evaluate_model(model: LinearRegression, X_test: [Link],

y_test: [Link]) -> Dict[str, float]:

"""Metrics with naive baseline comparison"""

# Baseline (mean prediction)

baseline_pred = np.full_like(y_test, y_test.mean())

# Model predictions

y_pred = [Link](X_test)

return {

"R2": r2_score(y_test, y_pred),

"Baseline R2": r2_score(y_test, baseline_pred),

"RMSE": [Link](mean_squared_error(y_test, y_pred)),

"Baseline RMSE": [Link](mean_squared_error(y_test, baseline_pred)),

"MAE": mean_absolute_error(y_test, y_pred)

# --------------------------------------

# Module 7: Prediction (Input Validation)

# --------------------------------------

def predict_input(model: LinearRegression, feature_names: list,

X_train: [Link]) -> None:

"""Validate numerical inputs against training ranges"""

try:

inputs = []

for feat in feature_names:

val = float(input(f"Enter {feat}: "))

# Validate against known ranges

min_val = X_train[feat].min()

max_val = X_train[feat].max()

if not (min_val <= val <= max_val):

[Link](f"{feat} value outside training range")

[Link](val)

prediction = [Link]([Link]([inputs]))[0]

print(f"Prediction: {prediction:.4f}")

except ValueError:

print("Invalid numerical input")

# --------------------------------------

# Module 8: Visualization (Timestamped)

# --------------------------------------

def plot_results(y_true: [Link], y_pred: [Link]) -> None:

"""Actual vs Predicted plot with timestamp"""

timestamp = [Link]().strftime("%Y%m%d_%H%M%S")

[Link](figsize=(8,5))

[Link](x=y_true, y=y_pred)

[Link]([y_true.min(), y_true.max()], [y_true.min(), y_true.max()], 'r--')

[Link](f"results_{timestamp}.png"))

[Link]("Plot saved")

# --------------------------------------

# Main Pipeline (Leakage-Proof Order)

# --------------------------------------

def main(file_path: str, target_column: str) -> None:

try:

# 1. Load with validation

df = load_data(file_path, target_column)

# 2. Clean data

df_clean = preprocess_data(df)

# 3. Split first!

X = df_clean.drop(target_column, axis=1)

y = df_clean[target_column]

X_train, X_test, y_train, y_test = split_data(X, y)

# 4. Train model (with internal scaling)

model = train_model(X_train, y_train)

# 5. Evaluate

metrics = evaluate_model(model, X_test, y_test)

print("Metrics:", metrics)
# 6. Visualize

plot_results(y_test, [Link](X_test))

# 7. Prediction mode

predict_input(model, [Link](), X_train)

except Exception as e:

[Link](f"Fatal error: {str(e)}")

if __name__ == "__main__":

main("reactor_data.xlsx", "target_column")

You might also like

Codes
No ratings yet
Codes
5 pages
ML Lab Manual
No ratings yet
ML Lab Manual
17 pages
Supervised Learning For Data Science...
No ratings yet
Supervised Learning For Data Science...
14 pages
ML Lab
No ratings yet
ML Lab
29 pages
Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
27 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
10 pages
Machine Learning Lab Manual 2021-22
No ratings yet
Machine Learning Lab Manual 2021-22
23 pages
ML File External File
No ratings yet
ML File External File
25 pages
Week 3
No ratings yet
Week 3
10 pages
Mltee t5 Assignment Pseudo Code
No ratings yet
Mltee t5 Assignment Pseudo Code
10 pages
MLLAB
No ratings yet
MLLAB
10 pages
ML Remaining
No ratings yet
ML Remaining
17 pages
Sahil ML
No ratings yet
Sahil ML
21 pages
ML
No ratings yet
ML
17 pages
Ai 28-01-25
No ratings yet
Ai 28-01-25
18 pages
ML Record Print
No ratings yet
ML Record Print
20 pages
Lab Report 8
No ratings yet
Lab Report 8
11 pages
Machine Learning Model Guide
No ratings yet
Machine Learning Model Guide
27 pages
Car Mock - ML Ans
No ratings yet
Car Mock - ML Ans
6 pages
Exp1 DL
No ratings yet
Exp1 DL
6 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
Da Lab Mannual
No ratings yet
Da Lab Mannual
25 pages
AI
No ratings yet
AI
16 pages
Boston Housing Linear Regression Plot
No ratings yet
Boston Housing Linear Regression Plot
2 pages
AI and ML Lab Ex3 To 12
No ratings yet
AI and ML Lab Ex3 To 12
27 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Python Linear Regression Guide
No ratings yet
Python Linear Regression Guide
23 pages
Forecast Test Approach1
No ratings yet
Forecast Test Approach1
3 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Salary Prediction - Ipynb
No ratings yet
Salary Prediction - Ipynb
3 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
22 pages
Ritesh Mangla ML PracticalFile
No ratings yet
Ritesh Mangla ML PracticalFile
55 pages
Lstm-Load-Forecasting:6 - All - Features - Ipynb at Master Dafrie:lstm-Load-Forecasting GitHub
No ratings yet
Lstm-Load-Forecasting:6 - All - Features - Ipynb at Master Dafrie:lstm-Load-Forecasting GitHub
5 pages
MLA Lab Record (2024)
No ratings yet
MLA Lab Record (2024)
47 pages
Da Rec
No ratings yet
Da Rec
29 pages
Asset Data Analysis
No ratings yet
Asset Data Analysis
47 pages
Linear Regression - Cheatsheet
No ratings yet
Linear Regression - Cheatsheet
8 pages
Lesson 3
No ratings yet
Lesson 3
5 pages
Da 012307
No ratings yet
Da 012307
8 pages
Linear
No ratings yet
Linear
2 pages
Assignment 9
No ratings yet
Assignment 9
8 pages
Document 4
No ratings yet
Document 4
3 pages
Predictive Modeling with R and Python
No ratings yet
Predictive Modeling with R and Python
2 pages
16BCB0126 VL2018195002535 Pe003
No ratings yet
16BCB0126 VL2018195002535 Pe003
40 pages
ML5&6&7&8&9&10
No ratings yet
ML5&6&7&8&9&10
35 pages
Deep Learning
No ratings yet
Deep Learning
25 pages
CCC
No ratings yet
CCC
25 pages
Class Xii PDF For Practical
No ratings yet
Class Xii PDF For Practical
24 pages
To Improve The Performance of Models Predicting Ba
No ratings yet
To Improve The Performance of Models Predicting Ba
6 pages
Shobit Sharma (2124399) ML Lab File PDF
No ratings yet
Shobit Sharma (2124399) ML Lab File PDF
19 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
DMA Flask
No ratings yet
DMA Flask
14 pages
Experiment No.8
No ratings yet
Experiment No.8
5 pages
Import As: Pandas PD DF PD - Read - CSV DF - Head
No ratings yet
Import As: Pandas PD DF PD - Read - CSV DF - Head
91 pages
ML Record
No ratings yet
ML Record
14 pages
DL Lab
No ratings yet
DL Lab
14 pages
Abdul Hanan Resume
No ratings yet
Abdul Hanan Resume
3 pages
Bank Management System V B
No ratings yet
Bank Management System V B
52 pages
HANA CDS View
100% (1)
HANA CDS View
21 pages
Software Engineer Interview Prep
No ratings yet
Software Engineer Interview Prep
9 pages
XSLT MAPPING - Riyaz
50% (2)
XSLT MAPPING - Riyaz
13 pages
Gpss
No ratings yet
Gpss
25 pages
Recurrence Solutions for Programmers
No ratings yet
Recurrence Solutions for Programmers
17 pages
Sigma 9.0 Curriculum @owlhuji
No ratings yet
Sigma 9.0 Curriculum @owlhuji
14 pages
SPARK Interview Questions
No ratings yet
SPARK Interview Questions
12 pages
Unit 1 Solution
No ratings yet
Unit 1 Solution
5 pages
Java-full-stack-Developer2 - Template 16
No ratings yet
Java-full-stack-Developer2 - Template 16
1 page
IBM Cloud App Developer Course
No ratings yet
IBM Cloud App Developer Course
15 pages
Geeglance Log
No ratings yet
Geeglance Log
512 pages
Workpiece Counter Activation Guide
No ratings yet
Workpiece Counter Activation Guide
2 pages
Overview of String Functions in Java
No ratings yet
Overview of String Functions in Java
8 pages
Mastercam Cantext Usage Guide
No ratings yet
Mastercam Cantext Usage Guide
8 pages
Solving Linear Programming Problems
No ratings yet
Solving Linear Programming Problems
17 pages
Role: Student: Name: Abhinav
No ratings yet
Role: Student: Name: Abhinav
4 pages
Unit 1 2
No ratings yet
Unit 1 2
52 pages
Binary Files
No ratings yet
Binary Files
8 pages
Rev Mid
No ratings yet
Rev Mid
43 pages
CS3353 Unit5
No ratings yet
CS3353 Unit5
21 pages
Module 5 Web Design
No ratings yet
Module 5 Web Design
5 pages
C Programming Unit 4-245-293
No ratings yet
C Programming Unit 4-245-293
49 pages
Java Syllabus
No ratings yet
Java Syllabus
2 pages
Message 2
No ratings yet
Message 2
3 pages
Group 11 Task A Documentation
No ratings yet
Group 11 Task A Documentation
10 pages
Operating System Server: Dining Philosophers Problem Using Semaphores
No ratings yet
Operating System Server: Dining Philosophers Problem Using Semaphores
20 pages
x86 Assembly: Flag Register Guide
No ratings yet
x86 Assembly: Flag Register Guide
64 pages
CX-Supervisor: PC-based Visualisation
No ratings yet
CX-Supervisor: PC-based Visualisation
2 pages