0% found this document useful (0 votes)

45 views4 pages

Cleaning

This document provides a comprehensive guide for cleaning a movie dataset (movies.csv) using Python with Pandas and NumPy. It details steps including loading the dataset, handling missing values, removing duplicates, correcting data types, and encoding categorical variables, among others. The final step emphasizes validating the cleaned dataset and saving it to a new CSV file.

Uploaded by

Awan Adhikari

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

45 views4 pages

Cleaning

Uploaded by

Awan Adhikari

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Step-by-Step Data Cleaning in Python for

[Link]

This document outlines a step-by-step process for cleaning a movie dataset ([Link])
using Python with Pandas and NumPy. Each step includes a description and
Python code.

1 Load and Inspect the Dataset

Loading the dataset and inspecting its structure helps identify issues like missing
values or incorrect data types.
1 import pandas as pd
2

3 # Load [Link]
4 dataset = pd.read_csv(’[Link]’)
5

6 # Inspect the dataset

7 print([Link]()) # First 5 rows
8 print([Link]()) # Data types and missing values
9 print([Link]()) # Summary statistics

2 Handle Missing Values

Missing values (NaN/None) can skew analysis. Drop rows with missing criti-
cal columns (e.g., title) and impute numerical columns (e.g., rating) with the
mean.
1 # Check missing values
2 print([Link]().sum())
3

4 # Drop rows with missing ’title’

5 [Link](subset=[’title’], inplace=True)
6

7 # Fill missing ’rating’ with mean

8 dataset[’rating’].fillna(dataset[’rating’].mean(), inplace=True)
9 print([Link]().sum())

1
3 Remove Duplicates

Duplicates can bias results. Remove duplicate rows based on key columns like
title and year.
1 # Check for duplicates
2 print([Link]().sum())
3

4 # Remove duplicates
5 dataset.drop_duplicates(subset=[’title’, ’year’], inplace=True)
6 print([Link])

4 Correct Data Types

Ensure columns have appropriate types (e.g., year as integer, released ateasdatetime).
1 # Convert ’year’ to integer
2 dataset[’year’] = dataset[’year’].astype(’Int64’)
3

4 # Convert ’release_date’ to datetime

5 dataset[’release_date’] = pd.to_datetime(dataset[’release_date’],
errors=’coerce’)
6 print([Link])

5 Handle Inconsistent Data

Standardize text data (e.g., genre) to fix typos or case inconsistencies.

1 # Standardize ’genre’
2 dataset[’genre’] = dataset[’genre’].[Link]().[Link]()
3

4 # Fix inconsistent values

5 dataset[’genre’] = dataset[’genre’].replace({’scifi’: ’sci-fi’, ’
comedy ’: ’comedy’})
6 print(dataset[’genre’].value_counts())

6 Handle Outliers

Detect and remove outliers in numerical columns (e.g., rating) using

the Interquartile Range (IQR) method.
1 import numpy as np
2

3 # Calculate IQR for ’rating’

4 Q1, Q3 = dataset[’rating’].quantile([0.25, 0.75])
5 IQR = Q3 - Q1
6 lower_bound, upper_bound = Q1 - 1.5 * IQR, Q3 + 1.5 * IQR
7

2
8 # Remove outliers
9 dataset = dataset[(dataset[’rating’] >= lower_bound) & (dataset[’
rating’] <= upper_bound)]
10 print([Link]())

7 Encode Categorical Variables

Convert categorical columns (e.g., genre) to numerical format using

one-hot encoding.
1 # One-hot encode ’genre’
2 dataset = pd.get_dummies(dataset, columns=[’genre’], prefix=’genre’)
3 print([Link]())

8 Clean Text Data

Remove unwanted characters from text columns like title using regular
expressions.
1 import re
2

3 # Clean ’title’
4 dataset[’title’] = dataset[’title’].apply(lambda x: [Link](r’[^a-zA-
Z0-9\s]’, ’’, str(x)))
5 print(dataset[’title’].head())

9 Filter Irrelevant Data

Remove irrelevant rows (e.g., movies before 2000) or columns (e.g.,

comments).
1 # Keep movies from 2000 or later
2 dataset = dataset[dataset[’year’] >= 2000]
3

4 # Drop irrelevant column

5 [Link](columns=[’comments’], inplace=True, errors=’ignore’)
6 print([Link]())

10 Validate and Save

Verify the cleaned dataset and save it to a new CSV file.

1 # Final inspection
2 print([Link]())
3 print([Link]().sum())
4

3
5 # Save cleaned dataset
6 dataset.to_csv(’movies_cleaned.csv’, index=False)
7 print(”Cleaned dataset saved as ’movies_cleaned.csv’”)

11 Notes

• Ensure [Link] is in the working directory or provide the

full path.
• Use [Link]() to check the working directory.
• Adjust steps based on specific dataset issues (e.g., unique
columns or formats).

All CLR
No ratings yet
All CLR
8 pages
Cleaning Dirty Data With Pandas & Python - DevelopIntelligence Blog PDF
No ratings yet
Cleaning Dirty Data With Pandas & Python - DevelopIntelligence Blog PDF
8 pages
Project 5
No ratings yet
Project 5
5 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
47 pages
Python Scenario Based Interview QA
No ratings yet
Python Scenario Based Interview QA
3 pages
Data Cleaning
No ratings yet
Data Cleaning
40 pages
Essential Steps in Data Cleaning
No ratings yet
Essential Steps in Data Cleaning
17 pages
B Tech-AIML-question Bank-2 Answer Key
No ratings yet
B Tech-AIML-question Bank-2 Answer Key
9 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
14 pages
Data Wrangling & Pandas Guide
No ratings yet
Data Wrangling & Pandas Guide
48 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
Python Data Analysis with Numpy & Pandas
No ratings yet
Python Data Analysis with Numpy & Pandas
19 pages
Assignment 2
No ratings yet
Assignment 2
6 pages
Chapter1 PDF
No ratings yet
Chapter1 PDF
46 pages
HCLTech
No ratings yet
HCLTech
5 pages
AI With Python Practicals
No ratings yet
AI With Python Practicals
73 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
Step-by-Step Explanation of Python Data Preprocessing Script
No ratings yet
Step-by-Step Explanation of Python Data Preprocessing Script
9 pages
Movie Data Analysis with Pandas
No ratings yet
Movie Data Analysis with Pandas
13 pages
Jashan ML
No ratings yet
Jashan ML
20 pages
Different Methods of Plotting
No ratings yet
Different Methods of Plotting
4 pages
DS Question Bank Unit-1 Part-2
No ratings yet
DS Question Bank Unit-1 Part-2
3 pages
Mini Project
No ratings yet
Mini Project
17 pages
Python Data Cleaning Guide
No ratings yet
Python Data Cleaning Guide
9 pages
ML 2
No ratings yet
ML 2
23 pages
Practical 3
No ratings yet
Practical 3
2 pages
CSV Data Handling Guide
No ratings yet
CSV Data Handling Guide
14 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
Data Cleaning Techniques in Python
No ratings yet
Data Cleaning Techniques in Python
5 pages
Lesson 2 - Data Preprocessing
100% (1)
Lesson 2 - Data Preprocessing
72 pages
Pandas Cheat Sheet for Data Manipulation
No ratings yet
Pandas Cheat Sheet for Data Manipulation
1 page
Advanced Python Programming Data Science: The University of Sheffield
No ratings yet
Advanced Python Programming Data Science: The University of Sheffield
55 pages
Data Cleaning with Pandas & NumPy
No ratings yet
Data Cleaning with Pandas & NumPy
20 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Data Preparation Techniques in Python
No ratings yet
Data Preparation Techniques in Python
9 pages
Justenoughpython Pandas 220915 175329
No ratings yet
Justenoughpython Pandas 220915 175329
64 pages
Movie Ticket Booking
No ratings yet
Movie Ticket Booking
30 pages
Python Interviews
No ratings yet
Python Interviews
154 pages
IntroToPython Unit 5
No ratings yet
IntroToPython Unit 5
42 pages
ch4 Slides PDF
No ratings yet
ch4 Slides PDF
44 pages
DA Cheat Codes
No ratings yet
DA Cheat Codes
2 pages
Data Mining Journal 1 Kashan
No ratings yet
Data Mining Journal 1 Kashan
13 pages
Mini Project
No ratings yet
Mini Project
18 pages
Lab 1 ML Lab
No ratings yet
Lab 1 ML Lab
15 pages
Python Data Analysis with Jupyter
No ratings yet
Python Data Analysis with Jupyter
3 pages
Part A Assignment 6
No ratings yet
Part A Assignment 6
28 pages
EDA with TMDB Movie Dataset Guide
No ratings yet
EDA with TMDB Movie Dataset Guide
14 pages
IMDB Movie Analysis
No ratings yet
IMDB Movie Analysis
80 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Hands-On Data Preprocessing in Python
No ratings yet
Hands-On Data Preprocessing in Python
3 pages
Exp 2 Data Preprocessing - Cleaning The Dataset Obtained From The UCI ML Repository
No ratings yet
Exp 2 Data Preprocessing - Cleaning The Dataset Obtained From The UCI ML Repository
9 pages
III Unit
No ratings yet
III Unit
4 pages
Groupware Technology
100% (5)
Groupware Technology
18 pages
HikVis - DVR-DS-7216HGHI-K1 - V4.20-Data Sheet PDF
No ratings yet
HikVis - DVR-DS-7216HGHI-K1 - V4.20-Data Sheet PDF
4 pages
Amazon DE Interview Prep Material
No ratings yet
Amazon DE Interview Prep Material
4 pages
Binthen Motorized Curtain Price List Rev1.0 Jan 2022
No ratings yet
Binthen Motorized Curtain Price List Rev1.0 Jan 2022
4 pages
BIMGISNoise
No ratings yet
BIMGISNoise
16 pages
Construction Project Management 2019 Pricing Guide
No ratings yet
Construction Project Management 2019 Pricing Guide
15 pages
ACTED Accountability Systems: 8 April 2016
No ratings yet
ACTED Accountability Systems: 8 April 2016
8 pages
Databricks Generative AI Engineer Associate Study Guide PDF
No ratings yet
Databricks Generative AI Engineer Associate Study Guide PDF
9 pages
CH 19 Updated
No ratings yet
CH 19 Updated
57 pages
Block Proving Axle Counter: Southern Railway Signal & Telecommunication Training Centre
No ratings yet
Block Proving Axle Counter: Southern Railway Signal & Telecommunication Training Centre
17 pages
OGW Hosted Payment Integration Guide v2.7.0.0
No ratings yet
OGW Hosted Payment Integration Guide v2.7.0.0
121 pages
Level 5, IT (Open) Rastriya Banijya Bank Syllabus
0% (1)
Level 5, IT (Open) Rastriya Banijya Bank Syllabus
3 pages
SSP Sode
No ratings yet
SSP Sode
1 page
Ai For Ceos
100% (1)
Ai For Ceos
246 pages
Perencanaan Pengembangan Perpustakaan Digital Di Sekolah Menengah Atas (SMA) Negeri 1 Padang
No ratings yet
Perencanaan Pengembangan Perpustakaan Digital Di Sekolah Menengah Atas (SMA) Negeri 1 Padang
8 pages
Introduction To Bottom-Up Parsing
No ratings yet
Introduction To Bottom-Up Parsing
13 pages
Managing Bank Accounts in SAP S/4 HANA
No ratings yet
Managing Bank Accounts in SAP S/4 HANA
4 pages
Cybersecurity Tools vs Bitdefender
No ratings yet
Cybersecurity Tools vs Bitdefender
30 pages
投资收
No ratings yet
投资收
4 pages
Class Routine: Department of Mechatronics & Industrial Engineering
No ratings yet
Class Routine: Department of Mechatronics & Industrial Engineering
1 page
HRLB With Multi Band Booster
No ratings yet
HRLB With Multi Band Booster
33 pages
Computer Science Class XII 2023
No ratings yet
Computer Science Class XII 2023
8 pages
Advanced Rudolf Digital Power Analyzer
No ratings yet
Advanced Rudolf Digital Power Analyzer
8 pages
Comp Physics With Worked Examples
100% (1)
Comp Physics With Worked Examples
330 pages
OTB Forecast Model Answer
No ratings yet
OTB Forecast Model Answer
3 pages
VSICM65 M05 Networking
No ratings yet
VSICM65 M05 Networking
59 pages
The Magna Carta For Philippine Internet Freedom V 2.0 Explanatory Note
No ratings yet
The Magna Carta For Philippine Internet Freedom V 2.0 Explanatory Note
5 pages
4.5/5.0 - 242 Downloads
No ratings yet
4.5/5.0 - 242 Downloads
85 pages
3 Data Science Tips That You Might Have Missed 5
No ratings yet
3 Data Science Tips That You Might Have Missed 5
6 pages
Cyber-5 Product Trends Report 2023
No ratings yet
Cyber-5 Product Trends Report 2023
10 pages

Cleaning

Uploaded by

Cleaning

Uploaded by

Step-by-Step Data Cleaning in Python for

1 Load and Inspect the Dataset

6 # Inspect the dataset

2 Handle Missing Values

4 # Drop rows with missing ’title’

7 # Fill missing ’rating’ with mean

4 Correct Data Types

4 # Convert ’release_date’ to datetime

5 Handle Inconsistent Data

Standardize text data (e.g., genre) to fix typos or case inconsistencies.

4 # Fix inconsistent values

Detect and remove outliers in numerical columns (e.g., rating) using

3 # Calculate IQR for ’rating’

7 Encode Categorical Variables

Convert categorical columns (e.g., genre) to numerical format using

8 Clean Text Data

9 Filter Irrelevant Data

Remove irrelevant rows (e.g., movies before 2000) or columns (e.g.,

4 # Drop irrelevant column

10 Validate and Save

Verify the cleaned dataset and save it to a new CSV file.

• Ensure [Link] is in the working directory or provide the

You might also like