0% found this document useful (0 votes)

60 views4 pages

Google Cluster Data Preprocessing - Updated

Uploaded by

bsf23000703

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

60 views4 pages

Google Cluster Data Preprocessing - Updated

Uploaded by

bsf23000703

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

1.

Handling Missing Values

Operation: Identify columns with missing values and assess the extent of missingness.

Python Functions:

# Checking for missing values

df.isnull().sum()

# Fill missing values with median

df['mean_cpu_usage_rate'].fillna(df['mean_cpu_usage_rate'].median(), inplace=True)

# Drop rows or columns with too many missing values

df.dropna(axis=0, thresh=5) # Keep rows with at least 5 non-NaN values

2. Removing Duplicate Entries

Operation: Check for and remove duplicate rows.

Python Functions: *

python

# Identifying duplicates

duplicates = df[df.duplicated()]

# Removing duplicates

df.drop_duplicates(inplace=True)

3. Correcting Data Types

Operation: Ensure that columns have the correct data types.

Python Functions:

# Convert column to float

df['mean_cpu_usage_rate'] = df['mean_cpu_usage_rate'].astype(float)
# Convert to datetime

df['start_time'] = pd.to_datetime(df['start_time'])

df['end_time'] = pd.to_datetime(df['end_time'])

4. Filtering Outliers

Operation: Detect and manage outliers using statistical techniques.

Python Functions:

# Using Z-score to identify outliers

from scipy.stats import zscore

df['zscore'] = zscore(df['mean_cpu_usage_rate'])

outliers = df[(df['zscore'] < -3) | (df['zscore'] > 3)]

# Removing outliers

df = df[(df['zscore'] >= -3) & (df['zscore'] <= 3)]

```

5. Standardizing Units and Scales

Operation: Ensure all measurements are in consistent units and scales.

Python Functions:

python

# Convert bytes to megabytes

df['assigned_memory_usage_MB'] = df['assigned_memory_usage'] / (1024 * 1024)

# Normalize or scale data

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df[['mean_cpu_usage_rate', 'assigned_memory_usage_MB']] = scaler.fit_transform(

df[['mean_cpu_usage_rate', 'assigned_memory_usage_MB']]

6. Handling Inconsistent Entries

Operation: Clean up inconsistencies in the data.

Python Functions:

# Correct inconsistent entries

df['aggregation_type'] = df['aggregation_type'].str.lower().replace(

{'sum': 'sum', 'SUM': 'sum', 'Summation': 'sum'}

7. Correcting Timestamp Misalignments

Operation: Ensure proper alignment of `start_time` and `end_time`.

Python Functions:

# Find rows where end_time is before start_time

misaligned = df[df['end_time'] < df['start_time']]

# Fix or drop these rows as necessary

df = df[df['end_time'] >= df['start_time']]

8. Removing Irrelevant Columns

Operation: Drop columns that are not needed for analysis.

Python Functions:

# Drop unnecessary columns

df.drop(['sample_portion', 'aggregation_type'], axis=1, inplace=True)

```
9. Consistent Handling of Zero or Negative Values

Operation: Identify and handle zero or negative values appropriately.

Python Functions:

# Replace negative or zero values with NaN and then handle them

df['mean_cpu_usage_rate'] = df['mean_cpu_usage_rate'].replace(

lambda x: x if x > 0 else None

df['mean_cpu_usage_rate'].fillna(df['mean_cpu_usage_rate'].median(), inplace=True)

10. Data Sampling and Reduction

Operation: Reduce dataset size without losing critical information.

Python Functions:

# Random sampling of data

sampled_df = df.sample(frac=0.1, random_state=42) # Take 10% sample

# Aggregating data to hourly means

df['hourly_time'] = df['start_time'].dt.floor('H')

aggregated_df = df.groupby('hourly_time').agg({

'mean_cpu_usage_rate': 'mean',

'assigned_memory_usage_MB': 'sum'

}).reset_index()

```

By following these steps and utilizing the corresponding Python functions, you can effectively clean the
Google Cluster Dataset, preparing it for further analysis and ensuring that the insights you derive will be
reliable and accurate.

Data Cleaning
No ratings yet
Data Cleaning
40 pages
Data Wrangling
No ratings yet
Data Wrangling
6 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Python Data Cleaning Cheat Sheet
100% (4)
Python Data Cleaning Cheat Sheet
8 pages
Data Wrangling & Data Manipulation With Pandas
No ratings yet
Data Wrangling & Data Manipulation With Pandas
6 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
Pandas Trampas
No ratings yet
Pandas Trampas
9 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Pandas Operations Guide
No ratings yet
Pandas Operations Guide
6 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Module 3
No ratings yet
Module 3
5 pages
Pandas Data Cleaning Techniques Guide
No ratings yet
Pandas Data Cleaning Techniques Guide
11 pages
Group-3 Report
No ratings yet
Group-3 Report
38 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
Code
No ratings yet
Code
2 pages
Apache Spark - Optimization Techniques
No ratings yet
Apache Spark - Optimization Techniques
7 pages
Python Data Cleaning Guide
No ratings yet
Python Data Cleaning Guide
9 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
6 pages
B Tech-AIML-question Bank-2 Answer Key
No ratings yet
B Tech-AIML-question Bank-2 Answer Key
9 pages
Pandas
No ratings yet
Pandas
2 pages
Capstone Project Guidelines
No ratings yet
Capstone Project Guidelines
2 pages
OEE and Plant Utilization Metrics
No ratings yet
OEE and Plant Utilization Metrics
6 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Task2 Eda Cleaning
No ratings yet
Task2 Eda Cleaning
33 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
14 pages
Excel Data Analysis and Preprocessing Guide
No ratings yet
Excel Data Analysis and Preprocessing Guide
42 pages
Data Handling Module
No ratings yet
Data Handling Module
10 pages
Pandas Dataframe Cheat Sheet
No ratings yet
Pandas Dataframe Cheat Sheet
3 pages
Introduction To Pandas Programming 2
No ratings yet
Introduction To Pandas Programming 2
3 pages
Core of ML - Part 1 Handling Data
No ratings yet
Core of ML - Part 1 Handling Data
3 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
III Unit
No ratings yet
III Unit
4 pages
Practical No. 01
No ratings yet
Practical No. 01
114 pages
Index
No ratings yet
Index
4 pages
Day 10 Pandasdatacleaning
No ratings yet
Day 10 Pandasdatacleaning
6 pages
Data Cleaning
No ratings yet
Data Cleaning
28 pages
PySpark Code Quality Guide
No ratings yet
PySpark Code Quality Guide
4 pages
EE4407 Data Cleaning Techniques Lab
No ratings yet
EE4407 Data Cleaning Techniques Lab
9 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
Data Wrangling With Dask CheatSheet 1731972488
No ratings yet
Data Wrangling With Dask CheatSheet 1731972488
7 pages
Assvid
No ratings yet
Assvid
13 pages
DSP
No ratings yet
DSP
3 pages
Data Retrieval & Cleaning Guide
No ratings yet
Data Retrieval & Cleaning Guide
35 pages
PDS Exp 7 To 9
No ratings yet
PDS Exp 7 To 9
10 pages
Prac 7
No ratings yet
Prac 7
5 pages
Lesson 3 Notes
No ratings yet
Lesson 3 Notes
53 pages
Histogram, Box and Whisker Plots
No ratings yet
Histogram, Box and Whisker Plots
7 pages
Data Visualization and Communication Introduction
No ratings yet
Data Visualization and Communication Introduction
14 pages
Simple Linear Regression Using A Real Dataset in R and Excel
No ratings yet
Simple Linear Regression Using A Real Dataset in R and Excel
4 pages
Security Design Principles Explained
No ratings yet
Security Design Principles Explained
15 pages
Asymmetric vs Symmetric Encryption Types
No ratings yet
Asymmetric vs Symmetric Encryption Types
12 pages
Information Security Lecture 6
No ratings yet
Information Security Lecture 6
12 pages
Defusion Techniques for Self-Help
No ratings yet
Defusion Techniques for Self-Help
11 pages
PROJECT PROPOSAL of Student Portal
100% (1)
PROJECT PROPOSAL of Student Portal
3 pages
Directory Brute Force 1686622249
No ratings yet
Directory Brute Force 1686622249
11 pages
Creating Database
No ratings yet
Creating Database
52 pages
Vendor List New
No ratings yet
Vendor List New
26 pages
Top 50 Sku List Shopee
No ratings yet
Top 50 Sku List Shopee
1 page
MELC 8 Intellectual Property Copyright and
No ratings yet
MELC 8 Intellectual Property Copyright and
30 pages
CMOS Design Interview Guide
100% (1)
CMOS Design Interview Guide
4 pages
Strength and Behavior of Polypropylene Fiber Reinforced Concrete Double Tee Beams
No ratings yet
Strength and Behavior of Polypropylene Fiber Reinforced Concrete Double Tee Beams
8 pages
Readme (Edrw)
No ratings yet
Readme (Edrw)
2 pages
Bubble Sorting Algorithm in Python
No ratings yet
Bubble Sorting Algorithm in Python
12 pages
Describing Data in R
No ratings yet
Describing Data in R
3 pages
Discrete Math Exam Questions
No ratings yet
Discrete Math Exam Questions
6 pages
Class 11 Asseration Reason Informatics Practices CHP 1 (2024-25)
No ratings yet
Class 11 Asseration Reason Informatics Practices CHP 1 (2024-25)
25 pages
Napster Re-Launch Strategy Overview
100% (1)
Napster Re-Launch Strategy Overview
23 pages
Parameter and Computation Efficient Transfer Learning For Vision Language Pre Trained Models Paper Conference
No ratings yet
Parameter and Computation Efficient Transfer Learning For Vision Language Pre Trained Models Paper Conference
17 pages
Probabilistic Toolbox for Structural Data
No ratings yet
Probabilistic Toolbox for Structural Data
3 pages
Provider User Guide
No ratings yet
Provider User Guide
172 pages
Density-Based Traffic Control System
No ratings yet
Density-Based Traffic Control System
41 pages
ICDL vs MOS Practice Projects
100% (1)
ICDL vs MOS Practice Projects
3 pages
AS-i Safety Monitor Overview
No ratings yet
AS-i Safety Monitor Overview
2 pages
Huawei Concentric Cell Optimization
100% (1)
Huawei Concentric Cell Optimization
45 pages
PAN Card Application & Correction Form
No ratings yet
PAN Card Application & Correction Form
1 page
Sbrio-9607 9627 Rio Mezzanine Card Features 2025-06-24-11-45-24
No ratings yet
Sbrio-9607 9627 Rio Mezzanine Card Features 2025-06-24-11-45-24
45 pages
De Sulfat or PCB
No ratings yet
De Sulfat or PCB
1 page
Multiple Subnet AG Groups in SQL Server-Overview
No ratings yet
Multiple Subnet AG Groups in SQL Server-Overview
4 pages
Basketball Software User Manual
No ratings yet
Basketball Software User Manual
5 pages
Bank Statement for Subramani
No ratings yet
Bank Statement for Subramani
2 pages
BoQ Pekerjaan Instalasi CCTV Gedung IME FK Unsoed.
No ratings yet
BoQ Pekerjaan Instalasi CCTV Gedung IME FK Unsoed.
2 pages
Universe II
100% (2)
Universe II
99 pages

Google Cluster Data Preprocessing - Updated

Uploaded by

Google Cluster Data Preprocessing - Updated

Uploaded by

1.

Handling Missing Values

# Checking for missing values

# Fill missing values with median

# Drop rows or columns with too many missing values

df.dropna(axis=0, thresh=5) # Keep rows with at least 5 non-NaN values

2. Removing Duplicate Entries

Operation: Check for and remove duplicate rows.

3. Correcting Data Types

Operation: Ensure that columns have the correct data types.

# Convert column to float

Operation: Detect and manage outliers using statistical techniques.

# Using Z-score to identify outliers

from scipy.stats import zscore

outliers = df[(df['zscore'] < -3) | (df['zscore'] > 3)]

df = df[(df['zscore'] >= -3) & (df['zscore'] <= 3)]

5. Standardizing Units and Scales

Operation: Ensure all measurements are in consistent units and scales.

# Convert bytes to megabytes

df['assigned_memory_usage_MB'] = df['assigned_memory_usage'] / (1024 * 1024)

# Normalize or scale data

from sklearn.preprocessing import MinMaxScaler

6. Handling Inconsistent Entries

Operation: Clean up inconsistencies in the data.

# Correct inconsistent entries

{'sum': 'sum', 'SUM': 'sum', 'Summation': 'sum'}

7. Correcting Timestamp Misalignments

Operation: Ensure proper alignment of `start_time` and `end_time`.

# Find rows where end_time is before start_time

misaligned = df[df['end_time'] < df['start_time']]

# Fix or drop these rows as necessary

df = df[df['end_time'] >= df['start_time']]

8. Removing Irrelevant Columns

Operation: Drop columns that are not needed for analysis.

# Drop unnecessary columns

df.drop(['sample_portion', 'aggregation_type'], axis=1, inplace=True)

Operation: Identify and handle zero or negative values appropriately.

lambda x: x if x > 0 else None

10. Data Sampling and Reduction

Operation: Reduce dataset size without losing critical information.

# Random sampling of data

sampled_df = df.sample(frac=0.1, random_state=42) # Take 10% sample

# Aggregating data to hourly means

You might also like