0% found this document useful (0 votes)

38 views5 pages

Complete Data Science Questions

The document discusses various aspects of data science, including data preprocessing, data cleaning, handling outliers, and evaluation metrics like accuracy, precision, recall, and F1-score. It also covers techniques such as ROC curves, cross-validation, central tendency measures, hypothesis testing, and visualization using Matplotlib and Seaborn. Additionally, it explains algorithms like multiple linear regression, decision trees, and random forests, along with model selection techniques.

Uploaded by

Muhammed Minhaj

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

38 views5 pages

Complete Data Science Questions

Uploaded by

Muhammed Minhaj

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Data Science Questions - 10 & 15 Marks

1. What is Data Preprocessing? Explain the steps involved.

Definition:
Data preprocessing is the initial stage in the data analysis pipeline where raw data is cleaned and transformed into

Steps Involved:
- Data Cleaning: Handle missing values, remove duplicates, correct errors.
- Data Transformation: Normalize or scale numerical data; encode categorical variables.
- Feature Engineering: Create new features, combine or split existing ones.
- Data Reduction: Use techniques like PCA, LDA, or feature selection to reduce dimensionality.
- Data Integration: Combine data from multiple sources.
- Data Discretization: Convert continuous data into categorical bins.

Importance:
Enhances data quality, reduces noise, and boosts model accuracy.

2. Define Data Cleaning and Discuss Its Tasks.

Definition:
Data cleaning is the process of correcting or removing inaccurate records from a dataset.

Tasks:
- Missing Values: Imputation (mean, median), deletion, or forward/backward filling.
- Outliers: Detect with z-score, boxplot; remove or transform.
- Noise Handling: Use smoothing techniques or binning.
- Normalization/Scaling: StandardScaler or MinMaxScaler to bring values to a common scale.
- Type Conversion & Deduplication: Convert data types; remove duplicate rows.

Purpose:
Improves data integrity and model reliability.

3. Techniques Used for Handling Outliers

Outliers are extreme values that differ significantly from the rest.

Detection Methods:
- Z-score: Values with z > 3 or z < -3 are considered outliers.
- IQR Method: Values outside Q1 - 1.5IQR or Q3 + 1.5IQR.
- Boxplots: Visual detection.
- Machine Learning Methods: Isolation Forest, One-Class SVM.

Handling Methods:
- Removal: If clearly erroneous.
- Transformation: Log, square root, or winsorization.
- Imputation: Replace with mean/median.

4. Differences Between Accuracy, Precision, Recall, and F1-Score

When to Use:
- Accuracy: For balanced datasets.
- Precision: When false positives are costly (e.g., spam detection).
- Recall: When false negatives are critical (e.g., disease diagnosis).
- F1-score: When you need a balance (imbalanced data).

5. ROC Curve and AUC in Binary Classification

ROC Curve:
Plots True Positive Rate (TPR) vs False Positive Rate (FPR) at different thresholds.

AUC (Area Under Curve):

- Ranges from 0 to 1.
- Higher AUC = better model.

Advantages Over Accuracy:

- Works well with imbalanced datasets.
- Evaluates performance across all thresholds.
- Highlights trade-off between sensitivity and specificity.

6. What is Cross-Validation? Types and Pros/Cons

Definition:
Cross-validation divides the data into parts, training and testing the model multiple times to get an average perform

Types:
- K-Fold: Divides data into k parts; trains on k-1, tests on 1.
- Stratified K-Fold: Preserves class distribution.
- Leave-One-Out (LOOCV): One sample for testing, rest for training.
- Repeated K-Fold: Repeats k-fold multiple times for reliability.

Advantages:
- Reduces overfitting.
- Provides robust performance estimate.

Disadvantages:
- Computationally expensive.
- May not suit small datasets.

1. Central Tendency and Dispersion Measures with Example

Central Tendency:
- Mean: Average value.
- Median: Middle value.
- Mode: Most frequent value.

Dispersion:
- Range: Max - Min.
- Variance: Average of squared differences from the mean.
- Standard Deviation: Square root of variance.

Example:
import numpy as np
scores = [45, 50, 55, 60, 65, 70, 75]
mean = [Link](scores)
median = [Link](scores)
std_dev = [Link](scores)
print(mean, median, std_dev)

2. Hypothesis Testing with Example

Definition:
A method for making inferences about population parameters based on sample data.

Steps:
1. Formulate H0 and H1 (null and alternative).
2. Choose significance level (α = 0.05).
3. Select test (e.g., t-test).
4. Calculate test statistic.
5. Compare with critical value or p-value.
6. Interpret result.

Example: Testing whether a new drug lowers BP more than the old one using a two-sample t-test.

3. Matplotlib Plots with Code

import [Link] as plt

# Line plot
[Link]([1, 2, 3], [4, 5, 6])
[Link]("Line Plot")
[Link]()

# Bar plot
[Link](['A', 'B', 'C'], [10, 20, 15])
[Link]("Bar Plot")
[Link]()

# Histogram
[Link]([1,1,2,3,3,3,4,5])
[Link]("Histogram")
[Link]()

# Scatter plot
[Link]([1,2,3], [4,5,6])
[Link]("Scatter Plot")
[Link]()

4. Seaborn Plots with Code

import seaborn as sns
import [Link] as plt
import pandas as pd

# Sample data
df = sns.load_dataset("tips")

# Scatterplot
[Link](x="total_bill", y="tip", data=df)
[Link]("Scatterplot")
[Link]()

# Heatmap
[Link]([Link](), annot=True)
[Link]("Heatmap")
[Link]()

# Boxplot
[Link](x="day", y="total_bill", data=df)
[Link]("Boxplot")
[Link]()

# Violin plot
[Link](x="day", y="total_bill", data=df)
[Link]("Violin Plot")
[Link]()

5. Visualize and Remove Outliers Using Box Plot and Z-Score

import numpy as np
import [Link] as plt
from scipy import stats

data = [Link]([1, 2, 3, 4, 5, 100]) # Outlier = 100

z_scores = [Link](data)
outliers = data[[Link](z_scores) > 2]

# Boxplot
[Link](data)
[Link]("Box Plot")
[Link]()

# Remove outliers
cleaned = data[[Link](z_scores) <= 2]
print("Cleaned data:", cleaned)

6. Multiple Linear Regression Algorithm and Assumptions

Algorithm:
Fit a linear equation y = β0 + β1x1 + β2x2 + ... + βnxn + ε.
Use Ordinary Least Squares (OLS) to minimize residual sum of squares.

Assumptions:
- Linearity
- Independence of errors
- Homoscedasticity (equal variance)
- Normal distribution of errors
- No multicollinearity

7. Decision Tree with Example

Definition:
A supervised ML algorithm that splits data based on feature conditions.

Example:
Predicting if a customer buys a car based on income and age.

from [Link] import DecisionTreeClassifier

clf = DecisionTreeClassifier()
[Link](X_train, y_train)

Advantages: easy to interpret, non-linear modeling.

8. Random Forest with Example

Definition:
An ensemble method combining multiple decision trees.
Example:
from [Link] import RandomForestClassifier
clf = RandomForestClassifier()
[Link](X_train, y_train)

Advantages: better generalization, handles missing data and outliers.

9. Model Selection and Techniques

Definition:
Choosing the best model for a task.

Techniques:
- Cross-Validation
- Grid Search
- Random Search
- Bayesian Optimization
- AIC/BIC Scores
- Validation Curves

Goal:
Ensure the model generalizes well to unseen data.

SML
No ratings yet
SML
8 pages
Pattern Summary Final
No ratings yet
Pattern Summary Final
28 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Exam Preparation Notes
No ratings yet
Exam Preparation Notes
31 pages
Logistic Regression Overview
No ratings yet
Logistic Regression Overview
4 pages
Dsbda Ut5
No ratings yet
Dsbda Ut5
7 pages
Data Science Assignment
No ratings yet
Data Science Assignment
9 pages
ML Questions Answers
No ratings yet
ML Questions Answers
4 pages
Foundation of Data Science Previous Year Question Paper
100% (1)
Foundation of Data Science Previous Year Question Paper
40 pages
Eda Indepth
No ratings yet
Eda Indepth
19 pages
Advance Python
No ratings yet
Advance Python
5 pages
ML Exam Preparation Tips
No ratings yet
ML Exam Preparation Tips
41 pages
Machine Learning Concepts and Techniques
No ratings yet
Machine Learning Concepts and Techniques
13 pages
Data Analytics Course (IIFT MBA) Full Course Summary - 27072023
No ratings yet
Data Analytics Course (IIFT MBA) Full Course Summary - 27072023
253 pages
Viva
No ratings yet
Viva
7 pages
Northbay Summarizes Data Pre-Processing Algorithms
No ratings yet
Northbay Summarizes Data Pre-Processing Algorithms
10 pages
Machine Learning Essentials Guide
No ratings yet
Machine Learning Essentials Guide
33 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
8 pages
CSA3007 Complete Answers
No ratings yet
CSA3007 Complete Answers
3 pages
Machine Learning Notes
No ratings yet
Machine Learning Notes
4 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Data Science Cheatsheet
No ratings yet
Data Science Cheatsheet
4 pages
Data Preprocessing
No ratings yet
Data Preprocessing
56 pages
Oral Aswers Dsbda
No ratings yet
Oral Aswers Dsbda
7 pages
K
No ratings yet
K
11 pages
Kaggle Competition Mastery Guide
100% (1)
Kaggle Competition Mastery Guide
74 pages
Data Analytics Lab Manual - 250402 - 095326
No ratings yet
Data Analytics Lab Manual - 250402 - 095326
58 pages
Bussiness Report PM
No ratings yet
Bussiness Report PM
44 pages
PMA Unit-2 PDF
No ratings yet
PMA Unit-2 PDF
19 pages
Python ML Methods Cheatsheet
No ratings yet
Python ML Methods Cheatsheet
6 pages
Exp 2
No ratings yet
Exp 2
6 pages
Data Science Pyqdata Science Pyqdata Science Pyq
No ratings yet
Data Science Pyqdata Science Pyqdata Science Pyq
6 pages
ML Unit 2
No ratings yet
ML Unit 2
52 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
Exp-2 ML
No ratings yet
Exp-2 ML
6 pages
Data Science and Machine Learning Course
No ratings yet
Data Science and Machine Learning Course
10 pages
Data Science Distributions & Models
50% (2)
Data Science Distributions & Models
5 pages
Machine Learning Concepts and Applications
No ratings yet
Machine Learning Concepts and Applications
8 pages
Unit I Preprocessing
No ratings yet
Unit I Preprocessing
22 pages
Parametric
No ratings yet
Parametric
15 pages
Computer Vision-Lec 3
No ratings yet
Computer Vision-Lec 3
11 pages
R Companion Data Mining
No ratings yet
R Companion Data Mining
370 pages
Assignment 9
No ratings yet
Assignment 9
8 pages
ML Combined
No ratings yet
ML Combined
254 pages
Human Activities Classifier Using SVM
No ratings yet
Human Activities Classifier Using SVM
19 pages
Machine Learning Lab Experiments Guide
No ratings yet
Machine Learning Lab Experiments Guide
47 pages
Data Mining for Analysts
No ratings yet
Data Mining for Analysts
38 pages
General ML Notes
No ratings yet
General ML Notes
30 pages
Dsbda Viva Ans
No ratings yet
Dsbda Viva Ans
8 pages
EDAN96 2024 Last Lecture-1
No ratings yet
EDAN96 2024 Last Lecture-1
78 pages
Pattern L1 L6
No ratings yet
Pattern L1 L6
19 pages
TE ML LAB Mannual
No ratings yet
TE ML LAB Mannual
21 pages
01 Apply Data Preprocessing On Heart Dataset and Evaluate Performance Using Confusion Matrix
No ratings yet
01 Apply Data Preprocessing On Heart Dataset and Evaluate Performance Using Confusion Matrix
19 pages
ML Imp QB
No ratings yet
ML Imp QB
34 pages
Aml Midsem
No ratings yet
Aml Midsem
59 pages
Be A 65 Ads Exp 3
No ratings yet
Be A 65 Ads Exp 3
6 pages
Study Material For Machine Learning - 1 - 1754721598318
No ratings yet
Study Material For Machine Learning - 1 - 1754721598318
18 pages
Comprehensive Python & Machine Learning Course
No ratings yet
Comprehensive Python & Machine Learning Course
13 pages
Fundamentals of Database Management System
No ratings yet
Fundamentals of Database Management System
4 pages
AI in Bird Vocalization Research
No ratings yet
AI in Bird Vocalization Research
4 pages
Unit 3 Apache Sqoop and Drill
No ratings yet
Unit 3 Apache Sqoop and Drill
10 pages
CTS INTERNSHIP REPORT - Mohak
50% (4)
CTS INTERNSHIP REPORT - Mohak
32 pages
20mca102 Scheme
No ratings yet
20mca102 Scheme
3 pages
Sampling in Research Methodology
No ratings yet
Sampling in Research Methodology
18 pages
Survey Paper 1
No ratings yet
Survey Paper 1
7 pages
GIS Analyst Resume - Fouziya Farheen
No ratings yet
GIS Analyst Resume - Fouziya Farheen
2 pages
Note 1681396 - Query Performance
No ratings yet
Note 1681396 - Query Performance
5 pages
Recover Database When Controlfile Is Lost CDB - 19C
No ratings yet
Recover Database When Controlfile Is Lost CDB - 19C
8 pages
Understanding Pointers in C++
No ratings yet
Understanding Pointers in C++
15 pages
Data Science & Analytics Portfolio
No ratings yet
Data Science & Analytics Portfolio
1 page
OrgaTEX 3.x-9.x New Features-EN
No ratings yet
OrgaTEX 3.x-9.x New Features-EN
28 pages
Guided Tutorial For Pentaho Data Integration Using Mysql
No ratings yet
Guided Tutorial For Pentaho Data Integration Using Mysql
39 pages
Budgeting and Budgetary Control System - Zuari Cement
No ratings yet
Budgeting and Budgetary Control System - Zuari Cement
20 pages
Connecting Databricks to S3 Guide
No ratings yet
Connecting Databricks to S3 Guide
16 pages
Verified PDF Download Computer Science An Overview 12th Edition Glenn Brookshear Dennis Brylow Ebook and TestBank Bundle FULL Version
No ratings yet
Verified PDF Download Computer Science An Overview 12th Edition Glenn Brookshear Dennis Brylow Ebook and TestBank Bundle FULL Version
404 pages
Oracle 8 Database Administration Overview
No ratings yet
Oracle 8 Database Administration Overview
16 pages
Security Auditing
No ratings yet
Security Auditing
27 pages
vaSIG Zentrak Imagebrochure EN 2024 Preview
No ratings yet
vaSIG Zentrak Imagebrochure EN 2024 Preview
8 pages
Demobld (1) SQL
75% (4)
Demobld (1) SQL
2 pages
Web Mining Unit 1
No ratings yet
Web Mining Unit 1
25 pages
Egl2 Dell Emc Unity-8
No ratings yet
Egl2 Dell Emc Unity-8
31 pages
Network Simulation and NS3 Limitations
No ratings yet
Network Simulation and NS3 Limitations
7 pages
Unit 2
No ratings yet
Unit 2
79 pages
Chapter4 1
No ratings yet
Chapter4 1
16 pages
The Durgapur Projects LTD PDF Final
No ratings yet
The Durgapur Projects LTD PDF Final
56 pages
1429 Chemistry Assessment Syllabus - New
No ratings yet
1429 Chemistry Assessment Syllabus - New
23 pages
Warehouse Management at Gold Plus Glass
No ratings yet
Warehouse Management at Gold Plus Glass
57 pages
Jurnal 12675 PDF
No ratings yet
Jurnal 12675 PDF
10 pages