0% found this document useful (0 votes)

28 views6 pages

Data Science Pyqdata Science Pyqdata Science Pyq

data science pyqdata science pyqdata science pyqdata science pyq

Uploaded by

namrata.paropate

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

28 views6 pages

Data Science Pyqdata Science Pyqdata Science Pyq

data science pyqdata science pyqdata science pyqdata science pyq

Uploaded by

namrata.paropate

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

Q1) Attempt any Five of the following : [5 × 2 = 10]

a) What is ANOVA Test?

ANOVA (Analysis of Variance) is a statistical technique used to compare the means of three
or more groups to determine if at least one group mean is significantly different. It is
commonly used when testing differences between multiple sample groups.

b) What is Descriptive Statistics?

Descriptive statistics summarize and describe the basic features of a dataset. It includes
measures like:

 Mean (average)
 Median (middle value)
 Mode (most frequent value)
 Range, Variance, Standard Deviation

c) Define Ratio variable and Interval variable.

 Ratio Variable: A numeric variable with a meaningful zero, allowing comparison of

absolute magnitudes. (e.g., height, age, income)
 Interval Variable: A numeric variable with equal intervals between values but no
true zero. (e.g., temperature in Celsius)

d) Write any four applications of Data Science.

1. Fraud detection in banking

2. Predictive analytics in healthcare
3. Customer segmentation in marketing
4. Recommendation systems in e-commerce

e) What is Data Preprocessing?

Data preprocessing is a data mining technique that involves transforming raw data into a
clean and understandable format. It includes:

 Data cleaning
 Normalization
 Handling missing values
 Data transformation
f) What is Exploratory Data Analysis?
EDA is an approach to analyzing data sets to summarize their main characteristics, often
using visual methods such as:

 Histograms
 Box plots
 Correlation matrices
It helps in identifying patterns, outliers, and data structures.

Q2) [3 × 4 = 12]
a) Explain Data Wrangling Process.
Data wrangling, or data munging, is the process of cleaning and transforming raw data into a
usable format. The steps include:

1. Data Collection – Gathering data from multiple sources

2. Data Cleaning – Fixing or removing incorrect, corrupted, or missing data
3. Data Structuring – Converting data into the required format
4. Data Enrichment – Enhancing data by merging with other datasets
5. Validation and Storage – Ensuring accuracy and saving it for analysis

b) Briefly explain Lifecycle of Data Science.

1. Problem Definition – Understanding business requirements

2. Data Collection – Acquiring data from various sources
3. Data Preparation – Cleaning and preprocessing
4. EDA – Understanding trends and patterns
5. Model Building – Applying machine learning algorithms
6. Model Evaluation – Validating performance
7. Deployment – Integrating model into production
8. Monitoring – Ensuring continuous performance

c) Explain Central Tendencies with Examples.

Central tendency refers to the center of a data distribution.

 Mean = Average. Ex: (10+20+30)/3 = 20

 Median = Middle value. Ex: 10, 20, 30 → Median = 20
 Mode = Most frequent value. Ex: 10, 10, 20 → Mode = 10
Q3) [3 × 4 = 12]
a) Calculate Variance and Standard Deviation
Data: 92, 95, 85, 80, 75, 50

 Mean = (92+95+85+80+75+50)/6 = 79.5

 Squared deviations:
(92-79.5)² = 156.25
(95-79.5)² = 240.25
(85-79.5)² = 30.25
(80-79.5)² = 0.25
(75-79.5)² = 20.25
(50-79.5)² = 870.25
 Sum = 1317.5
 Variance = 1317.5 / 6 ≈ 219.58
 Standard Deviation = √219.58 ≈ 14.82

b) Reasons for Preprocessing Data

1. Remove missing or inconsistent values

2. Convert data types
3. Normalize or scale features
4. Encode categorical variables
5. Improve model accuracy
6. Handle outliers and noise

c) Toolbox used by Data Scientists

 Languages: Python, R
 Libraries: Pandas, NumPy, Scikit-learn, TensorFlow
 Visualization Tools: Matplotlib, Seaborn
 IDE & Tools: Jupyter Notebook, RStudio
 Platforms: AWS, Google Cloud, GitHub

Q4) [3 × 4 = 12]
a) Data Visualization Techniques

1. Histogram – Frequency distribution

2. Bar Chart – Compare categories
3. Pie Chart – Show proportions
4. Line Graph – Trends over time
5. Box Plot – Distribution and outliers
6. Heatmap – Correlation matrix

b) What is Data Transformation? Rescaling Example

Data Transformation modifies data format or scale to enhance performance or
interpretability.
Rescaling (Min-Max Normalization):
xnorm=x−xminxmax−xminx_{norm} = \frac{x - x_{min}}{x_{max} - x_{min}}
E.g., Value 50 in range 0–100 → (50-0)/(100-0) = 0.5

c) Structured vs Unstructured Data

 Structured: Organized and stored in databases (e.g., Excel files, SQL tables)
 Unstructured: No predefined format (e.g., emails, videos, images)
Examples:
Structured → Employee database
Unstructured → Customer reviews on Amazon

Q5) [3 × 4 = 12]
a) Percentiles and Quartiles with Examples

 Percentile: Position of a value in 0–100 scale

 Quartile: Divides data into 4 parts
Example for data: 10, 20, 30, 40, 50
Q1 = 20 (25th percentile), Q2 = 30 (median), Q3 = 40 (75th percentile)

b) Five Steps of Hypothesis Testing

1. Define null (H₀) and alternative (H₁) hypothesis

2. Choose significance level (α)
3. Select appropriate statistical test
4. Calculate test statistic and p-value
5. Compare p-value with α → Decide to reject or not reject H₀

c) Common Problems with Unstructured Data

1. Lack of consistent format

2. Requires complex processing
3. High storage and processing costs
4. Harder to analyze and visualize
5. Ambiguity in interpretation (e.g., sarcasm in text)

Q6) [3 × 4 = 12]
a) Steps to Calculate p-value

1. Define hypotheses
2. Choose test (e.g., t-test)
3. Calculate test statistic
4. Use distribution to find p-value
5. Compare with α; if p < α, reject H₀

b) Data Cube Aggregation

Data cube is a multi-dimensional array used to store data summarized across multiple
dimensions.
Example: Sales → aggregated by Time, Product, and Region.

c) R Program to Create Data Frame and Sort

# Create Employee Data Frame

emp_id <- c(101, 102, 103, 104, 105)
emp_name <- c("Alice", "Bob", "Charlie", "Diana", "Eve")
emp_salary <- c(45000, 55000, 50000, 48000, 47000)

# Combine into Data Frame

employee <- data.frame(ID = emp_id, Name = emp_name, Salary = emp_salary)

# Sort by Salary
sorted_emp <- employee[order(employee$Salary), ]
print(sorted_emp)

Q7) Write short notes on any two: [2 × 6 = 12]

a) Proximity Measures
Proximity measures help quantify similarity/distance between data points.

 Euclidean Distance: Straight line distance

 Manhattan Distance: Grid-based movement
 Cosine Similarity: Angle between vectors
Used in: clustering, recommendation systems, and pattern recognition.
b) Outliers
Outliers are values that deviate significantly from other observations.

 Detection: Box plot, Z-score

 Causes: Data entry errors, variability
 Impact: Can skew mean and affect model accuracy

c) Data Reduction
Reduces data size while preserving integrity.

 Dimensionality Reduction: PCA, LDA

 Data Compression: Removing redundancy
 Aggregation: Summarizing data
Benefits: Faster processing, reduced storage, better performance

Data Science Assignment
No ratings yet
Data Science Assignment
9 pages
FDS PYQ Solution
No ratings yet
FDS PYQ Solution
8 pages
Foundation of Data Science Previous Year Question Paper
100% (1)
Foundation of Data Science Previous Year Question Paper
40 pages
FDS - 2 Solved
No ratings yet
FDS - 2 Solved
14 pages
FDS - 3 Solved
No ratings yet
FDS - 3 Solved
21 pages
DS Assignment COMPLETED
No ratings yet
DS Assignment COMPLETED
11 pages
FDS Pyq2
No ratings yet
FDS Pyq2
10 pages
FDS 1
No ratings yet
FDS 1
5 pages
FDSA SEM Answer Key
No ratings yet
FDSA SEM Answer Key
11 pages
Book 2.0 - Python
100% (1)
Book 2.0 - Python
143 pages
Introds Final 2024 Incl Sol
No ratings yet
Introds Final 2024 Incl Sol
10 pages
DS Assignment No 2
No ratings yet
DS Assignment No 2
21 pages
Ad3301 Apr May 2024 Answer Key
No ratings yet
Ad3301 Apr May 2024 Answer Key
31 pages
Fds Two Marks
No ratings yet
Fds Two Marks
10 pages
ML Chapter 2
No ratings yet
ML Chapter 2
9 pages
Important Questions
No ratings yet
Important Questions
26 pages
Module 2 Answers Corrected
No ratings yet
Module 2 Answers Corrected
5 pages
CSBS - AD3491 - FDSA - IA 1 - Answer Key
100% (11)
CSBS - AD3491 - FDSA - IA 1 - Answer Key
14 pages
Lecture 2 - Statistical Inference - EDA and DS Process - 02032023 111156am 1 - 1 27022024 012412pm
No ratings yet
Lecture 2 - Statistical Inference - EDA and DS Process - 02032023 111156am 1 - 1 27022024 012412pm
44 pages
Punyashlok Ahilyadevi Holkar Solapur University, Solapur Final Year B.Tech. (Electronics & Telecommunication Engg.) (Part - II) CBCS Pattern
No ratings yet
Punyashlok Ahilyadevi Holkar Solapur University, Solapur Final Year B.Tech. (Electronics & Telecommunication Engg.) (Part - II) CBCS Pattern
6 pages
ADS IA 1 Syllabus Prep
No ratings yet
ADS IA 1 Syllabus Prep
5 pages
1152CS239-Intro. To Data Science-Syllabus
No ratings yet
1152CS239-Intro. To Data Science-Syllabus
6 pages
Internals1 FDS Scheme
No ratings yet
Internals1 FDS Scheme
7 pages
Foundation of Data Science Imp
No ratings yet
Foundation of Data Science Imp
6 pages
Foundations of Data Science Questions
No ratings yet
Foundations of Data Science Questions
93 pages
Big Data Characteristics and Skills
No ratings yet
Big Data Characteristics and Skills
6 pages
Fds Question Bank With Answer
No ratings yet
Fds Question Bank With Answer
35 pages
Crack Data Science Interview 1731300339
No ratings yet
Crack Data Science Interview 1731300339
132 pages
Notes
No ratings yet
Notes
18 pages
Machine Learning (1) : Inteligência Artificial E Cibersegurança (Inacs)
No ratings yet
Machine Learning (1) : Inteligência Artificial E Cibersegurança (Inacs)
33 pages
Dev Core
No ratings yet
Dev Core
7 pages
DWDM - Unit - III
No ratings yet
DWDM - Unit - III
77 pages
FDS MQP 23-24
No ratings yet
FDS MQP 23-24
2 pages
DS End Sem.
No ratings yet
DS End Sem.
31 pages
FDS - 5 Solved
No ratings yet
FDS - 5 Solved
13 pages
Data Science Concepts & Techniques
No ratings yet
Data Science Concepts & Techniques
18 pages
Unit I and Unit II Dev
No ratings yet
Unit I and Unit II Dev
36 pages
Cognizant Data Analyst Interview Questions 1745235888
No ratings yet
Cognizant Data Analyst Interview Questions 1745235888
18 pages
Lecture1 2
No ratings yet
Lecture1 2
63 pages
CS3552 - Fods - QB 2024
No ratings yet
CS3552 - Fods - QB 2024
11 pages
FDS - 1 Solved
No ratings yet
FDS - 1 Solved
17 pages
Unit 1,2
No ratings yet
Unit 1,2
17 pages
Data Science Dse
No ratings yet
Data Science Dse
24 pages
Das FFFF
No ratings yet
Das FFFF
16 pages
Big Data (Imp-Questions)
No ratings yet
Big Data (Imp-Questions)
17 pages
Part 5
No ratings yet
Part 5
22 pages
Python Data Science Essentials
No ratings yet
Python Data Science Essentials
11 pages
Data Science Interview
No ratings yet
Data Science Interview
132 pages
Ds 5 Marks Final
No ratings yet
Ds 5 Marks Final
11 pages
Q.1. Why Is Data Preprocessing Required?
100% (1)
Q.1. Why Is Data Preprocessing Required?
26 pages
Da 1733591326
No ratings yet
Da 1733591326
132 pages
TE ML LAB Mannual
No ratings yet
TE ML LAB Mannual
21 pages
01 Apply Data Preprocessing On Heart Dataset and Evaluate Performance Using Confusion Matrix
No ratings yet
01 Apply Data Preprocessing On Heart Dataset and Evaluate Performance Using Confusion Matrix
19 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
66 pages
AI Data Science: Stats & Python Analysis
No ratings yet
AI Data Science: Stats & Python Analysis
7 pages
Data Science Concepts and Applications
No ratings yet
Data Science Concepts and Applications
20 pages
Data Mining Midterm Study Guide 2024
No ratings yet
Data Mining Midterm Study Guide 2024
6 pages
XII - Unit 2 - Data Science Methodology - An Analytic Approach To Capstone Project
No ratings yet
XII - Unit 2 - Data Science Methodology - An Analytic Approach To Capstone Project
3 pages
MSC - CS - II 2
No ratings yet
MSC - CS - II 2
4 pages
3.asymmetric Key Cryptography
No ratings yet
3.asymmetric Key Cryptography
7 pages
FTP SMTP Telnet DNS TCP UDP IP ARP Icmp Igmp
No ratings yet
FTP SMTP Telnet DNS TCP UDP IP ARP Icmp Igmp
19 pages
Sy CN Assignment
No ratings yet
Sy CN Assignment
1 page
Verification and Validation: CS 425/625 Software Engineering
No ratings yet
Verification and Validation: CS 425/625 Software Engineering
28 pages
Ty Os Assign
No ratings yet
Ty Os Assign
1 page
Distributed Systems Chapter 2-Architectures 2
No ratings yet
Distributed Systems Chapter 2-Architectures 2
16 pages
CS103 9
No ratings yet
CS103 9
38 pages
FYBA Practical Final 1FYBA Practical Final
No ratings yet
FYBA Practical Final 1FYBA Practical Final
6 pages
26 (SMTP and FTP) 76 Slides 226 (SMTP and FTP) 76 Slides 2
No ratings yet
26 (SMTP and FTP) 76 Slides 226 (SMTP and FTP) 76 Slides 2
76 pages
Analog To Digital Conversion
No ratings yet
Analog To Digital Conversion
10 pages
15 Wirelesslans 20102109211615 Wirelesslans 201021092116
No ratings yet
15 Wirelesslans 20102109211615 Wirelesslans 201021092116
27 pages
Computer Fundamentals Assignments1,2,3 CMP
No ratings yet
Computer Fundamentals Assignments1,2,3 CMP
3 pages
Transaction Management Transaction Management
No ratings yet
Transaction Management Transaction Management
19 pages
P-1337 Drysupply Compact
No ratings yet
P-1337 Drysupply Compact
2 pages
Invoice
No ratings yet
Invoice
2 pages
(Bennett, Dawson) Maintenance Management
No ratings yet
(Bennett, Dawson) Maintenance Management
53 pages
Abhishek Bhatt Resume24
No ratings yet
Abhishek Bhatt Resume24
2 pages
Project Advice Note: Goods Inwards Checks of Signalling Records Purpose
No ratings yet
Project Advice Note: Goods Inwards Checks of Signalling Records Purpose
5 pages
CA Unions Labor Case Summary GR 94716
No ratings yet
CA Unions Labor Case Summary GR 94716
2 pages
Engineering Measurements - Methods and Intrinsic Errors - WILLEY PDF
No ratings yet
Engineering Measurements - Methods and Intrinsic Errors - WILLEY PDF
195 pages
Design Calculation Sheet: Date: Sheet No.: Project No.: 1203 Computed By: Alaa Ramadan Approved By: Checked by
No ratings yet
Design Calculation Sheet: Date: Sheet No.: Project No.: 1203 Computed By: Alaa Ramadan Approved By: Checked by
1 page
Template For Financial Projection
No ratings yet
Template For Financial Projection
32 pages
Copia de Collage Social Realism in Art Lesson
No ratings yet
Copia de Collage Social Realism in Art Lesson
19 pages
Legal Aid Eligibility Confirmation
No ratings yet
Legal Aid Eligibility Confirmation
3 pages
Marin County Divorce Affidavit Consent
100% (1)
Marin County Divorce Affidavit Consent
2 pages
Professional Ethics
No ratings yet
Professional Ethics
11 pages
Unitized Group Rations
No ratings yet
Unitized Group Rations
12 pages
2018 East End
No ratings yet
2018 East End
7 pages
Capsicum Annuum L
No ratings yet
Capsicum Annuum L
34 pages
WMI Stg1.5+ Turbo - EN Rev
No ratings yet
WMI Stg1.5+ Turbo - EN Rev
5 pages
RPL Form 1 Documentation
No ratings yet
RPL Form 1 Documentation
5 pages
BCSC 1002
No ratings yet
BCSC 1002
2 pages
Cementing Materials Overview
No ratings yet
Cementing Materials Overview
19 pages
Splines Toolbox - Version 2
No ratings yet
Splines Toolbox - Version 2
112 pages
Reconcilation of Yashaswi - SGBNPL
No ratings yet
Reconcilation of Yashaswi - SGBNPL
4 pages
Auxiliary Lanes Design Guide
No ratings yet
Auxiliary Lanes Design Guide
14 pages
Laboratory Manual BTY312 Genetic Engineering
No ratings yet
Laboratory Manual BTY312 Genetic Engineering
11 pages
BP BLG 22
No ratings yet
BP BLG 22
11 pages
A Comparative Analysis of Valuation Approaches
No ratings yet
A Comparative Analysis of Valuation Approaches
6 pages
Techstreet Enterprise User Guide
No ratings yet
Techstreet Enterprise User Guide
13 pages
Hitler-Discurs 1933-Sportpalast Berlin-Transcriere Tip Imagini
No ratings yet
Hitler-Discurs 1933-Sportpalast Berlin-Transcriere Tip Imagini
355 pages
BrandPRO Participant Handbook
No ratings yet
BrandPRO Participant Handbook
35 pages
AMA 1130 Mid-Term Sample Sol
No ratings yet
AMA 1130 Mid-Term Sample Sol
4 pages

Data Science Pyqdata Science Pyqdata Science Pyq

Uploaded by

Data Science Pyqdata Science Pyqdata Science Pyq

Uploaded by

Q1) Attempt any Five of the following : [5 × 2 = 10]

a) What is ANOVA Test?

b) What is Descriptive Statistics?

c) Define Ratio variable and Interval variable.

 Ratio Variable: A numeric variable with a meaningful zero, allowing comparison of

d) Write any four applications of Data Science.

1. Fraud detection in banking

e) What is Data Preprocessing?

1. Data Collection – Gathering data from multiple sources

b) Briefly explain Lifecycle of Data Science.

1. Problem Definition – Understanding business requirements

c) Explain Central Tendencies with Examples.

 Mean = Average. Ex: (10+20+30)/3 = 20

 Mean = (92+95+85+80+75+50)/6 = 79.5

b) Reasons for Preprocessing Data

1. Remove missing or inconsistent values

c) Toolbox used by Data Scientists

1. Histogram – Frequency distribution

b) What is Data Transformation? Rescaling Example

c) Structured vs Unstructured Data

 Percentile: Position of a value in 0–100 scale

b) Five Steps of Hypothesis Testing

1. Define null (H₀) and alternative (H₁) hypothesis

c) Common Problems with Unstructured Data

1. Lack of consistent format

b) Data Cube Aggregation

c) R Program to Create Data Frame and Sort

# Create Employee Data Frame

# Combine into Data Frame

Q7) Write short notes on any two: [2 × 6 = 12]

 Euclidean Distance: Straight line distance

 Detection: Box plot, Z-score

 Dimensionality Reduction: PCA, LDA

You might also like