0% found this document useful (0 votes)

39 views15 pages

Unit I - Notes

Uploaded by

Kannan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

39 views15 pages

Unit I - Notes

Uploaded by

Kannan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 15

VEL TECH HIGH TECH

Dr. RANGARAJAN Dr. SAKUNTHALA ENGINEERING COLLEGE

An Autonomous Institution
Approved by AICTE-New Delhi, Affiliated to Anna University, Chennai
Accredited by NBA, New Delhi & Accredited by NAAC with “A” Grade & CGPA of 3.27
COURSE DETAILS
FACULTY CODE HTS 1821 FACULTY NAME Dr.SATHISH KUMAR
SUBJECT CODE 21AI35IT SUBJECT NAME DATA SCIENCE FOR
ENGINEERS
YEAR SECOND YEAR SEMESTER 3rd SEMESTER
DEGREE B.E BRANCH/SEC AI&DS – C SEC
BATCH 2024-2028 ACADEMIC YEAR 2025-2026

Course code 21AI35IT Semester III

Category ENGINEERING SCIENCE COURSE (ESC) L T P C
Course Title DATA SCIENCE FOR ENGINEERS 2 0 4 4

COURSE OBJECTIVES:
TodescribethelifecycleofDataScienceandcomputationalenvironmentsfordata scientists using Python.
· To describe the fundamentals for exploring and managing data with Python.

· To examine the various data analytics techniques for labelled /columnar data using Python.

· To demonstrate a flexible range of data visualizations techniques in Python.

· To describe the various Machine learning algorithms for data modelling with Python.

Blooms
CO.No. CourseOutcomes
level
OnsuccessfulcompletionofthisCourse,studentswillbeableto
K2
C305. 1 UnderstandthebasicconceptofData Science.

SYLLABUS:
UNIT I INTRODUCTION TO DATA SCIENCE
Introduction to Data Science and its importance - Data Science and Big data-, The life cycle of
Data Science- The Art of Data Science - Work with data – data Cleaning, data Munging, data
manipulation. Establishing computational environments for data scientists using Python with
IPython and Jupyter.

Introduction to Data Science and Its Importance

What is Data Science?

Data Science is an interdisciplinary field that uses scientific methods, algorithms, processes, and
systems to extract knowledge and insights from structured and unstructured data. It combines
techniques from statistics, computer science, mathematics, and domain knowledge to make data-
driven decisions.

Importance of Data Science

1. Data-Driven Decision Making

Organizations rely on data science to analyze trends and make informed business or
engineering decisions.

2. Automation and Efficiency

Data science enables automation through machine learning, which improves operational
efficiency across industries.

3. Problem-Solving with Predictive Models

By leveraging historical data, predictive analytics helps in forecasting outcomes such as
market trends, system failures, or customer behavior.

4. Innovation in Engineering and Technology

Data science powers innovations like autonomous vehicles, smart cities, and IoT systems,
optimizing performance and user experience.

5. Personalization
It is widely used in recommendation systems (e.g., Netflix, Amazon), tailoring services and
products to individual users.

6. Healthcare Transformation
Assists in disease prediction, patient monitoring, and drug discovery using bioinformatics
and clinical data.

Applications of Data Science

● Finance: Fraud detection, risk assessment

● Retail: Inventory optimization, customer analytics

● Manufacturing: Predictive maintenance, quality control

● Education: Student performance prediction, adaptive learning systems

● Telecommunications: Network optimization, customer churn prediction

2. Data Science and Big Data

Data Science

Data Science is the process of extracting meaningful insights from data using statistical analysis,
machine learning, and domain knowledge.

Big Data

● Refers to extremely large datasets that are complex and cannot be handled by traditional data-
processing tools.

● Characterized by the 5 V’s:

○ Volume – Large amounts of data

○ Velocity – Speed of data generation

○ Variety – Different types (text, image, video)

○ Veracity – Data uncertainty

○ Value – Insights gained

Relationship:
Data Science uses tools and methods to analyze Big Data and extract useful patterns or trends.
The Life Cycle of Data Science
The Data Science Life Cycle is a structured process that guides how raw data is transformed into
meaningful insights and solutions. It consists of several key phases, each playing a crucial role in
building data-driven applications.

🧩 1. Problem Definition

● Objective: Understand and define the problem you are trying to solve.

● Ask questions like:

○ What is the goal?

○ What outcome is expected?

○ What decisions will be supported?

● Example: Predict customer churn, classify images, forecast sales.

📥 2. Data Collection

● Objective: Gather relevant data from various sources.

● Sources:

○ Databases (SQL, NoSQL)

○ Web APIs

○ Files (CSV, Excel, JSON)

○ Sensors, Logs, Social Media

● Ensure data is representative and sufficient.

🧹 3. Data Cleaning (Preprocessing)

● Objective: Prepare the data for analysis by handling errors or inconsistencies.

● Tasks:

○ Handle missing or null values

○ Remove duplicates

○ Fix data types

○ Standardize formats

● Tools: Pandas, OpenRefine

📊 4. Data Exploration and Analysis

● Objective: Understand the data distribution, patterns, and relationships.

● Activities:

○ Descriptive statistics

○ Correlation analysis

○ Visualizations (histograms, box plots, scatter plots)

● Tools: Matplotlib, Seaborn, Pandas

5. Feature Engineering

● Objective: Select, create, or transform variables (features) that improve model performance.

● Examples:
○ Encoding categorical variables

○ Normalizing or scaling data

○ Creating new derived features (e.g., Age from DOB)

● Tools: scikit-learn, Featuretools

🤖 6. Model Building

● Objective: Choose and train machine learning models on the data.

● Algorithms:

○ Classification: Logistic Regression, Decision Trees

○ Regression: Linear Regression

○ Clustering: K-means

● Tools: scikit-learn, TensorFlow, Keras

📈 7. Model Evaluation

● Objective: Measure model performance using metrics.

● Metrics:

○ Accuracy, Precision, Recall, F1-Score

○ RMSE, MAE for regression

○ Confusion matrix, ROC curve

● Helps in comparing different models.

🚀 8. Deployment

● Objective: Integrate the model into a live environment.

● Methods:

○ REST APIs

○ Embedded in web/mobile apps

○ Real-time or batch processing

● Tools: Flask, FastAPI, Docker

9. Monitoring and Maintenance

● Objective: Track model performance over time and update when necessary.

● Monitor for:

○ Data drift

○ Model degradation

○ System failures

● Re-train models periodically with new data.

The Art of Data Science
📌 Definition:

The Art of Data Science refers to the creative and intuitive aspects of the data science process.
While data science is rooted in mathematics, statistics, and programming, the "art" lies in:

● Asking the right questions,

● Choosing meaningful variables,

● Visualizing data effectively, and

● Communicating insights clearly.

🔑 Key Elements:

● Curiosity: Constantly exploring and questioning data.

● Storytelling: Making data relatable and meaningful.

● Decision-making: Knowing when to apply which technique or algorithm.

● Design Thinking: Creating impactful visualizations and user-centric models.

⚠️Data science is not just about building models — it's about making data work to solve
real-world problems.

🧰 Working with Data

Overview:

The practical side of data science involves handling real-world data, which is often messy and
unstructured. This includes:

● Data Cleaning

● Data Munging (Wrangling)

● Data Manipulation

🧹 Data Cleaning
📌 Definition:

The process of detecting and correcting (or removing) inaccurate, corrupt, or irrelevant parts
of the dataset.

Common Tasks:

● Handling missing values (e.g., NaN, nulls)

● Removing duplicates

● Fixing inconsistent formats (e.g., date formats, currency symbols)

● Correcting data types

● Filtering out outliers or noise

Tools:

● Python: Pandas, NumPy

● Methods: dropna(), fillna(), astype(), replace()

🔄 Data Munging (Wrangling)

📌 Definition:

The process of transforming raw data into a clean, structured, and usable format for analysis.

🧱 Typical Steps:

1. Parsing data from files (CSV, JSON, XML)

2. Merging datasets

3. Reshaping data (pivot, melt)

4. Converting data types

5. Encoding categorical variables

Example:
python
CopyEdit
import pandas as pd

df = pd.read_csv("data.csv")
df['date'] = pd.to_datetime(df['date']) # Convert to
datetime
df = df.pivot(index='ID', columns='month', values='sales') #
Reshape

🔧 Data Manipulation
📌 Definition:

Refers to accessing, transforming, filtering, sorting, or combining data to prepare for analysis.

🔍 Examples of Operations:

● Filtering rows based on conditions

● Sorting by one or more columns

● Grouping and aggregating data (groupby())

● Joining/Merging multiple datasets (merge(), concat())

● Creating new columns using formulas or functions

Example:
python
CopyEdit
# Grouping and Aggregating
grouped = df.groupby("department")["salary"].mean()

# Adding a new column

df["bonus"] = df["salary"] * 0.10

Establishing Computational Environments for Data Scientists using Python with

IPython and Jupyter

This topic focuses on setting up a productive and flexible working environment for data scientists to
write, run, and share Python code effectively. It revolves around two main tools: IPython and
Jupyter Notebook.

🐍 Why Python for Data Science?

Python is the most widely used language in data science due to:

● Readability and simplicity

● Rich ecosystem of libraries (e.g., NumPy, Pandas, Matplotlib, scikit-learn)

● Strong community support

● Easy integration with web, databases, and cloud platforms

🧪 1. IPython (Interactive Python)

📌 What is IPython?

IPython is an enhanced interactive shell for Python that provides a rich toolkit for interactive
computing.

Key Features:

● Tab completion for variable names and functions

● Rich media (images, videos, LaTeX)

● Inline plotting with Matplotlib

● Interactive debugging and shell commands

● Magic commands (%timeit, %run, %matplotlib, etc.)

🔍 Example:
python
CopyEdit
%timeit sum(range(10000)) # Measures execution time
📓 2. Jupyter Notebook
📌 What is Jupyter?

Jupyter (short for Julia + Python + R) Notebook is a web-based interactive development

environment for data science and scientific computing.

Features:

● Supports live code, markdown, visualizations, and LaTeX

● Code can be executed cell by cell

● Ideal for data exploration, analysis, documentation, and sharing

● Outputs are displayed inline (charts, tables, HTML, etc.)

💻 How to Set Up Jupyter and IPython

🔧 Installation Using pip:

bash
CopyEdit
pip install jupyter ipython

🚀 To Launch Jupyter Notebook:

bash
CopyEdit
jupyter notebook

This will open the Jupyter dashboard in your web browser where you can create and manage
.ipynb notebooks.

🧰 Recommended Libraries for Data Science:

Make sure these libraries are installed in your environment:

bash
CopyEdit
pip install numpy pandas matplotlib seaborn scikit-learn

📁 Example Workflow in Jupyter:

Import libraries:

python
CopyEdit
import pandas as pd
import matplotlib.pyplot as plt

Load data:

python
CopyEdit
df = pd.read_csv("data.csv")

Visualize:

python
CopyEdit
df['Sales'].plot(kind='line')
plt.show()

3.
4. Document:
Use Markdown cells to explain your code, write equations, or embed images.
🌐 Advantages of Jupyter for Data Scientists
Feature Benefit
Live Code Immediate feedback and
+ Results iteration
Markdown Document workflows
Support and analysis
Visualizati Better understanding and
ons Inline storytelling
Export to Easy sharing and
HTML/PD reporting
F
Language Python, R, Julia, and
Support more via kernels

Introduction To Data Science
No ratings yet
Introduction To Data Science
12 pages
Data Science
No ratings yet
Data Science
13 pages
Data Science
No ratings yet
Data Science
15 pages
Data Science Mastery Course in Pitampura
No ratings yet
Data Science Mastery Course in Pitampura
19 pages
Introduction To Data Science - 23CSH-283
100% (1)
Introduction To Data Science - 23CSH-283
48 pages
Module 1 Applied Data Science 1.1 and 1.2
No ratings yet
Module 1 Applied Data Science 1.1 and 1.2
104 pages
Introduction To Data Science Course Outline
No ratings yet
Introduction To Data Science Course Outline
5 pages
Data Science Course in Pitampura
No ratings yet
Data Science Course in Pitampura
19 pages
Ids Unit 1,2,3,4 & 5
No ratings yet
Ids Unit 1,2,3,4 & 5
117 pages
5th Sem Internship Eport
No ratings yet
5th Sem Internship Eport
83 pages
Data Science and Analytics Reviewer
No ratings yet
Data Science and Analytics Reviewer
5 pages
File
No ratings yet
File
27 pages
DS - Unit I
No ratings yet
DS - Unit I
3 pages
Self Learning Material - Introduction To Data Science
No ratings yet
Self Learning Material - Introduction To Data Science
10 pages
Data Science
No ratings yet
Data Science
10 pages
Data Science
No ratings yet
Data Science
14 pages
? Introduction To Data Science
No ratings yet
? Introduction To Data Science
3 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
3 pages
00 Introduction To Data Science
No ratings yet
00 Introduction To Data Science
4 pages
Foundation of Data Science (BSC)
No ratings yet
Foundation of Data Science (BSC)
64 pages
DSC Unit 1
No ratings yet
DSC Unit 1
59 pages
Unit 1 Notes
No ratings yet
Unit 1 Notes
25 pages
DS 3-Marks Semeseter Suggestion
No ratings yet
DS 3-Marks Semeseter Suggestion
54 pages
Ocs353dsf Unit Wise Notes
100% (4)
Ocs353dsf Unit Wise Notes
121 pages
Slidesgo Unlocking Insights A Professional Introduction To Data Science With Python 20241125160150D6YR
No ratings yet
Slidesgo Unlocking Insights A Professional Introduction To Data Science With Python 20241125160150D6YR
14 pages
01 Introduction
No ratings yet
01 Introduction
7 pages
Data Science Syllabus From Beginner To Advanced
No ratings yet
Data Science Syllabus From Beginner To Advanced
7 pages
Data Science - Data
No ratings yet
Data Science - Data
10 pages
Datascience
No ratings yet
Datascience
12 pages
Chapter 1
No ratings yet
Chapter 1
85 pages
Bcom Python
No ratings yet
Bcom Python
71 pages
EDS Unit 1?
No ratings yet
EDS Unit 1?
15 pages
Data Science Management - Vss
No ratings yet
Data Science Management - Vss
84 pages
Data Science
No ratings yet
Data Science
2 pages
Internship Report: T.J.Instituteoftechnology
No ratings yet
Internship Report: T.J.Instituteoftechnology
29 pages
Unit I
No ratings yet
Unit I
52 pages
Data Science & Big Data Course Guide
No ratings yet
Data Science & Big Data Course Guide
119 pages
Data Science Fundamentals Detailed Notes
No ratings yet
Data Science Fundamentals Detailed Notes
31 pages
Ids Unit-I
No ratings yet
Ids Unit-I
34 pages
Introductiontodatascience 230122140841 B90a0856
No ratings yet
Introductiontodatascience 230122140841 B90a0856
44 pages
Data Science Unit 1
No ratings yet
Data Science Unit 1
85 pages
Data Science Report
No ratings yet
Data Science Report
32 pages
Data Science for Business Insights
No ratings yet
Data Science for Business Insights
24 pages
Mastering Python For Data Science With Numpy & Pandas
100% (3)
Mastering Python For Data Science With Numpy & Pandas
136 pages
1 C2 Ho Pxyvdp MXXUfo T5 Fi K
No ratings yet
1 C2 Ho Pxyvdp MXXUfo T5 Fi K
30 pages
Module 1 - Introduction To Data Science
No ratings yet
Module 1 - Introduction To Data Science
3 pages
Data Science 7th Sem AIML ITE Notes Complete LONG
No ratings yet
Data Science 7th Sem AIML ITE Notes Complete LONG
106 pages
Datascience With Python
100% (1)
Datascience With Python
178 pages
Mastering Data Science Techniques
No ratings yet
Mastering Data Science Techniques
10 pages
Wa0001.
No ratings yet
Wa0001.
9 pages
Notes Data Science
100% (1)
Notes Data Science
5 pages
Data Science
No ratings yet
Data Science
9 pages
Impact of Data Science Across Industries
No ratings yet
Impact of Data Science Across Industries
3 pages
Data Science Internship Report 2024
No ratings yet
Data Science Internship Report 2024
28 pages
Data Science
No ratings yet
Data Science
17 pages
Sem 6
No ratings yet
Sem 6
12 pages
What Is Data Science
No ratings yet
What Is Data Science
2 pages
Data Science Unit 01
No ratings yet
Data Science Unit 01
19 pages
TU Graz Dissertation Help
100% (2)
TU Graz Dissertation Help
7 pages
Optimization: Capacitated Facility Location Probl
No ratings yet
Optimization: Capacitated Facility Location Probl
33 pages
DS
No ratings yet
DS
3 pages
Data Science Overview and Applications
No ratings yet
Data Science Overview and Applications
13 pages
Chapter 1: An Introduction To Professionalism: Objectives
No ratings yet
Chapter 1: An Introduction To Professionalism: Objectives
12 pages
Tools For Data Science-Data Science Methodology
No ratings yet
Tools For Data Science-Data Science Methodology
3 pages
The Art and Practice of Data Science Pipelines A Comprehensive Study of Data Science Pipelines in Theory In-The-Small and In-The-Large
No ratings yet
The Art and Practice of Data Science Pipelines A Comprehensive Study of Data Science Pipelines in Theory In-The-Small and In-The-Large
13 pages
Unit - 1 (Big Data)
No ratings yet
Unit - 1 (Big Data)
15 pages
What Is Business Analytics
No ratings yet
What Is Business Analytics
4 pages
Complex Analysis in Data
No ratings yet
Complex Analysis in Data
34 pages
Consumer Behaviour
No ratings yet
Consumer Behaviour
10 pages
Location Analytics for Businesses
No ratings yet
Location Analytics for Businesses
13 pages
Job Description - Graduate Intern - Data Science
No ratings yet
Job Description - Graduate Intern - Data Science
2 pages
Masters in Applied Data Science Overview
No ratings yet
Masters in Applied Data Science Overview
4 pages
Foundations of Data Science Course Details
No ratings yet
Foundations of Data Science Course Details
54 pages
Big Data in Data Science
No ratings yet
Big Data in Data Science
3 pages
Player Rank Multidimensional and Role-Aware Rating of Soccer Player Performance
No ratings yet
Player Rank Multidimensional and Role-Aware Rating of Soccer Player Performance
9 pages
S3 ME Syllabus 2024 Scheme
No ratings yet
S3 ME Syllabus 2024 Scheme
43 pages
Iris Flower Classification Using ML - by Modassir - Medium
No ratings yet
Iris Flower Classification Using ML - by Modassir - Medium
21 pages
DMBAR Chapter 1
No ratings yet
DMBAR Chapter 1
15 pages
Certified AI & ML BlackBelt Plus Program - Projects
No ratings yet
Certified AI & ML BlackBelt Plus Program - Projects
66 pages
Report
No ratings yet
Report
30 pages
OpenShift AI267-2.8 Syllabus
33% (3)
OpenShift AI267-2.8 Syllabus
3 pages
Intro To Python For Computer Science To and Data Science: Learning Program With
No ratings yet
Intro To Python For Computer Science To and Data Science: Learning Program With
402 pages
Data Science: Key Roles and Benefits
No ratings yet
Data Science: Key Roles and Benefits
32 pages
Scaler DSML GitHub Search
No ratings yet
Scaler DSML GitHub Search
7 pages
Open Roles-GN India
No ratings yet
Open Roles-GN India
20 pages
Ahad Beykaei AI ML Manager
No ratings yet
Ahad Beykaei AI ML Manager
7 pages
Artificial Intelligence (AI) : Revolutionizing Everything in IT
No ratings yet
Artificial Intelligence (AI) : Revolutionizing Everything in IT
25 pages
WIA2002 Software Modeling: Assoc. Prof. Dr. Siti Hafizah Ab Hamid B-3-12, FCSIT Sitihafizah@um - Edu.my
No ratings yet
WIA2002 Software Modeling: Assoc. Prof. Dr. Siti Hafizah Ab Hamid B-3-12, FCSIT Sitihafizah@um - Edu.my
31 pages