0% found this document useful (0 votes)

19 views11 pages

Data Science and Analytics Theory Complete

The document provides comprehensive notes on Data Science and Analytics, covering topics such as data types, analytics classifications, and applications in business. It also discusses data preparation, visualization techniques, and the use of R for statistical analysis and modeling. Additionally, it addresses challenges in data analytics and the significance of predictive and textual analytics.

Uploaded by

zeenu9547

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views11 pages

Data Science and Analytics Theory Complete

Uploaded by

zeenu9547

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 11

Data Science and Analytics - Theory Notes

Unit 1: Introduction to Data, Data Science and Analytics

1. Data and Data Science:

- Data refers to raw facts and figures that are collected and processed for analysis.

- Data Science is an interdisciplinary field that uses scientific methods, algorithms, and systems to extract knowledge

and insights from structured and unstructured data.

2. Data Analytics and Data Analysis:

- Data Analytics is the broader process of examining data sets to draw conclusions and support decision-making.

- Data Analysis is a component of data analytics and refers specifically to the process of inspecting, cleaning,

transforming, and modeling data.

3. Classification of Analytics:

- Descriptive Analytics: Summarizes past data to understand what happened.

- Diagnostic Analytics: Investigates why something happened.

- Predictive Analytics: Forecasts future outcomes using historical data.

- Prescriptive Analytics: Recommends actions based on data analysis.

4. Application of Analytics in Business:

- Enhances decision-making

- Improves operational efficiency

- Supports customer behavior analysis

- Assists in market trend identification

- Optimizes resource allocation

5. Types of Data:

- Nominal Data: Categorical data without any order (e.g., gender, colors).

- Ordinal Data: Categorical data with a meaningful order (e.g., rankings).

- Scale Data: Quantitative data, either interval or ratio (e.g., income, temperature).
Data Science and Analytics - Theory Notes

6. Big Data and its Characteristics:

- Big Data refers to extremely large datasets that traditional data processing software cannot handle efficiently.

- Characteristics (5 Vs): Volume, Velocity, Variety, Veracity, Value

7. Applications of Big Data:

- Customer insights and behavior prediction

- Fraud detection in finance

- Personalized recommendations in e-commerce

- Predictive maintenance in manufacturing

- Trend analysis in social media and marketing

8. Challenges in Data Analytics:

- Data privacy and security

- Integration of data from multiple sources

- Managing data quality and consistency

- Shortage of skilled professionals

- High cost of data tools and infrastructure

Unit 2: Data Preparation, Summarisation and Visualisation Using Spreadsheet

1. Data Preparation and Cleaning:

- Identifying and correcting errors or inconsistencies to improve data quality before analysis.

2. Sort and Filter:

- Sorting arranges data in a specific order; filtering displays only the data that meets certain criteria.

3. Conditional Formatting:

- Applies specific formatting to cells that meet certain conditions to visually highlight important information.

4. Text to Column:
Data Science and Analytics - Theory Notes

- Splits the content of one cell into multiple cells based on a delimiter (e.g., comma, space).

5. Removing Duplicates:

- Identifies and deletes repeated entries in datasets to maintain data integrity.

6. Data Validation:

- Restricts the type of data that can be entered into a cell, ensuring accuracy and consistency.

7. Identifying Outliers:

- Detects data points that differ significantly from other observations; important for accurate analysis.

8. Covariance and Correlation Matrix:

- Covariance: Measures how two variables change together.

- Correlation Matrix: Shows the strength and direction of linear relationships between variables.

9. Moving Averages:

- A technique used to smooth out short-term fluctuations and highlight trends in data over time.

10. Finding Missing Values:

- Identifying and handling gaps in data, using methods like imputation or deletion.

11. Summarisation:

- Summarizing data using statistical measures such as mean, median, mode, totals, etc.

12. Visualisation Tools:

- Scatter Plots: Show relationships between two variables.

- Line Charts: Display data trends over time.

- Histograms: Show the frequency distribution of a dataset.

- Pivot Tables: Summarize large datasets by grouping and aggregating data.

- Pivot Charts: Visual representations of pivot tables.

- Interactive Dashboards: Combine visualizations to provide an overview for decision-making.

Data Science and Analytics - Theory Notes

Unit 1: Introduction to Data, Data Science and Analytics

1. Data and Data Science:

- Data refers to raw facts and figures that are collected and processed for analysis.

- Data Science is an interdisciplinary field that uses scientific methods, algorithms, and systems to extract knowledge

and insights from structured and unstructured data.

2. Data Analytics and Data Analysis:

- Data Analytics is the broader process of examining data sets to draw conclusions and support decision-making.

- Data Analysis is a component of data analytics and refers specifically to the process of inspecting, cleaning,

transforming, and modeling data.

3. Classification of Analytics:

- Descriptive Analytics: Summarizes past data to understand what happened.

- Diagnostic Analytics: Investigates why something happened.

- Predictive Analytics: Forecasts future outcomes using historical data.

- Prescriptive Analytics: Recommends actions based on data analysis.

4. Application of Analytics in Business:

- Enhances decision-making

- Improves operational efficiency

- Supports customer behavior analysis

- Assists in market trend identification

- Optimizes resource allocation

5. Types of Data:

- Nominal Data: Categorical data without any order (e.g., gender, colors).

- Ordinal Data: Categorical data with a meaningful order (e.g., rankings).

- Scale Data: Quantitative data, either interval or ratio (e.g., income, temperature).
Data Science and Analytics - Theory Notes

6. Big Data and its Characteristics:

- Big Data refers to extremely large datasets that traditional data processing software cannot handle efficiently.

- Characteristics (5 Vs): Volume, Velocity, Variety, Veracity, Value

7. Applications of Big Data:

- Customer insights and behavior prediction

- Fraud detection in finance

- Personalized recommendations in e-commerce

- Predictive maintenance in manufacturing

- Trend analysis in social media and marketing

8. Challenges in Data Analytics:

- Data privacy and security

- Integration of data from multiple sources

- Managing data quality and consistency

- Shortage of skilled professionals

- High cost of data tools and infrastructure

Unit 2: Data Preparation, Summarisation and Visualisation Using Spreadsheet

1. Data Preparation and Cleaning:

- Identifying and correcting errors or inconsistencies to improve data quality before analysis.

2. Sort and Filter:

- Sorting arranges data in a specific order; filtering displays only the data that meets certain criteria.

3. Conditional Formatting:

- Applies specific formatting to cells that meet certain conditions to visually highlight important information.

4. Text to Column:
Data Science and Analytics - Theory Notes

- Splits the content of one cell into multiple cells based on a delimiter (e.g., comma, space).

5. Removing Duplicates:

- Identifies and deletes repeated entries in datasets to maintain data integrity.

6. Data Validation:

- Restricts the type of data that can be entered into a cell, ensuring accuracy and consistency.

7. Identifying Outliers:

- Detects data points that differ significantly from other observations; important for accurate analysis.

8. Covariance and Correlation Matrix:

- Covariance: Measures how two variables change together.

- Correlation Matrix: Shows the strength and direction of linear relationships between variables.

9. Moving Averages:

- A technique used to smooth out short-term fluctuations and highlight trends in data over time.

10. Finding Missing Values:

- Identifying and handling gaps in data, using methods like imputation or deletion.

11. Summarisation:

- Summarizing data using statistical measures such as mean, median, mode, totals, etc.

12. Visualisation Tools:

- Scatter Plots: Show relationships between two variables.

- Line Charts: Display data trends over time.

- Histograms: Show the frequency distribution of a dataset.

- Pivot Tables: Summarize large datasets by grouping and aggregating data.

- Pivot Charts: Visual representations of pivot tables.

- Interactive Dashboards: Combine visualizations to provide an overview for decision-making.

Data Science and Analytics - Theory Notes

Unit 3: Getting Started with R

1. Introduction to R:

- R is a programming language and environment specifically designed for statistical computing and graphics.

2. Advantages of R:

- Open-source and free to use

- Extensive libraries for data analysis and visualization

- Strong community support

- Excellent for statistical modeling

3. Installation of R Packages:

- Packages can be installed using install.packages("package_name")

- Required packages must be loaded using library("package_name")

4. Importing Data from Spreadsheet Files:

- Data can be imported using read.csv(), read.table(), or functions from packages like readxl.

5. Commands and Syntax:

- R is case-sensitive and uses functions for most operations.

- Syntax is generally function-based, e.g., mean(data), summary(data)

6. Packages and Libraries:

- R has thousands of packages available via CRAN and other repositories for various types of analysis.

7. Data Structures in R:

- Vectors: One-dimensional data structure

- Matrices: Two-dimensional data with elements of the same type

- Arrays: Multi-dimensional generalization of matrices

- Lists: Collection of different types of elements

Data Science and Analytics - Theory Notes

- Factors: Categorical variables

- Data Frames: Tabular data with different data types

8. Conditionals and Control Flows:

- if, else if, else statements for conditional execution

9. Loops:

- for, while, and repeat loops for repetitive tasks

10. Functions and Apply Family:

- User-defined and built-in functions for modular programming

- Apply family (apply, lapply, sapply, etc.) used for efficient looping

Unit 4: Descriptive Statistics Using R

1. Importing Data File:

- Use functions like read.csv(), read_excel() to load data for analysis

2. Data Visualisation Using Charts:

- Histograms: For frequency distribution

- Bar Charts: For categorical comparisons

- Box Plots: For distribution and outlier detection

- Line Graphs: For trends over time

- Scatter Plots: For relationships between variables

3. Data Description:

- Measure of Central Tendency: Mean, Median, Mode

- Measure of Dispersion: Range, Variance, Standard Deviation

4. Relationship Between Variables:

Data Science and Analytics - Theory Notes

- Covariance: Measures how two variables change together

- Correlation: Measures strength and direction of linear relationship

- Coefficient of Determination (R²): Indicates the proportion of variance explained

Unit 5: Predictive and Textual Analytics

1. Simple Linear Regression Models:

- Analyzes the relationship between two continuous variables

2. Confidence and Prediction Intervals:

- Confidence interval gives a range for population parameter

- Prediction interval estimates range for new observations

3. Multiple Linear Regression:

- Models the relationship between one dependent and multiple independent variables

4. Interpretation of Regression Coefficients:

- Shows the effect of each independent variable on the dependent variable

5. Heteroscedasticity:

- Occurs when the variance of errors is not constant

6. Multi-collinearity:

- Happens when independent variables are highly correlated

7. Basics of Textual Data Analysis:

- Analyzing unstructured text data for insights

- Includes understanding context, frequency, and sentiment

8. Significance, Application, and Challenges:

Ba Theory
No ratings yet
Ba Theory
10 pages
Business Analytics Notes
No ratings yet
Business Analytics Notes
8 pages
Ba Notes Short
No ratings yet
Ba Notes Short
50 pages
Data Analytics Mastery Syllabus
No ratings yet
Data Analytics Mastery Syllabus
5 pages
Data Analytics Unit 1 Detailed
No ratings yet
Data Analytics Unit 1 Detailed
3 pages
Data Science Fundamentals Detailed Notes
No ratings yet
Data Science Fundamentals Detailed Notes
31 pages
Ocs353dsf Unit Wise Notes
100% (4)
Ocs353dsf Unit Wise Notes
121 pages
EDS Unit 1?
No ratings yet
EDS Unit 1?
15 pages
Data Analytics
No ratings yet
Data Analytics
6 pages
Big Data
No ratings yet
Big Data
65 pages
Document (10) .PDF - 20250324 - 162852 - 0000
No ratings yet
Document (10) .PDF - 20250324 - 162852 - 0000
3 pages
DA-1,2,3 (1) Merged
No ratings yet
DA-1,2,3 (1) Merged
39 pages
Unit 1
No ratings yet
Unit 1
5 pages
BDA Module
No ratings yet
BDA Module
6 pages
BA TH Exam
No ratings yet
BA TH Exam
38 pages
Module 1 - Introduction To Data Science
No ratings yet
Module 1 - Introduction To Data Science
3 pages
DA Unitwise Notes Detailed Cleaned
No ratings yet
DA Unitwise Notes Detailed Cleaned
5 pages
Unit 1 Ids Summary
No ratings yet
Unit 1 Ids Summary
7 pages
Advanced Diploma in Data& Business Analytics
No ratings yet
Advanced Diploma in Data& Business Analytics
13 pages
Data Science Course in Pitampura
No ratings yet
Data Science Course in Pitampura
19 pages
Intro To Big Data Analytics
No ratings yet
Intro To Big Data Analytics
14 pages
FDSNotes
No ratings yet
FDSNotes
12 pages
Rohan More
No ratings yet
Rohan More
16 pages
Ds 1
No ratings yet
Ds 1
8 pages
Unit1 R Full Material
No ratings yet
Unit1 R Full Material
11 pages
Business Analytics Summary (Units 1.2 - 1.8)
No ratings yet
Business Analytics Summary (Units 1.2 - 1.8)
8 pages
Fods MQP Solutions - 025136
No ratings yet
Fods MQP Solutions - 025136
76 pages
Data Analytics Complete Guide 2
No ratings yet
Data Analytics Complete Guide 2
3 pages
Introduction To Big Data Analytics Notes 22684
No ratings yet
Introduction To Big Data Analytics Notes 22684
3 pages
Ids Unit 1,2,3,4 & 5
No ratings yet
Ids Unit 1,2,3,4 & 5
117 pages
Essential Data Science Notes - A Concise PDF Guide
No ratings yet
Essential Data Science Notes - A Concise PDF Guide
20 pages
Data Science & Advanced Tableau Course
No ratings yet
Data Science & Advanced Tableau Course
9 pages
GR 9 - Chp4 - Notes
No ratings yet
GR 9 - Chp4 - Notes
7 pages
Fods Unit 1
No ratings yet
Fods Unit 1
9 pages
BIG Data Analytics 21CSH-471: Computer Science & Engineering
No ratings yet
BIG Data Analytics 21CSH-471: Computer Science & Engineering
7 pages
Unit 2
No ratings yet
Unit 2
11 pages
Evolution of Data Science Overview
No ratings yet
Evolution of Data Science Overview
11 pages
ChatGPT - MyLearning On Big Data, Data Science and Machine Learning
No ratings yet
ChatGPT - MyLearning On Big Data, Data Science and Machine Learning
44 pages
Document
No ratings yet
Document
1 page
Data Science and Analytics Reviewer
No ratings yet
Data Science and Analytics Reviewer
5 pages
Big Data Structures and Analytics Overview
No ratings yet
Big Data Structures and Analytics Overview
17 pages
Unit 1
No ratings yet
Unit 1
8 pages
Data Science Career Essentials Guide
No ratings yet
Data Science Career Essentials Guide
7 pages
Fds Csheet and Read The Rule
No ratings yet
Fds Csheet and Read The Rule
4 pages
Da Unit 2
No ratings yet
Da Unit 2
18 pages
Top Data Science Skills 1721583698
No ratings yet
Top Data Science Skills 1721583698
9 pages
Ivy - Data Science and Data Visualization Certification Course
100% (1)
Ivy - Data Science and Data Visualization Certification Course
10 pages
DTS 201 Lecture Note
No ratings yet
DTS 201 Lecture Note
24 pages
Ds Final
No ratings yet
Ds Final
3 pages
Data Analyst Syllabus (For Aundh)
No ratings yet
Data Analyst Syllabus (For Aundh)
8 pages
Week1 1
No ratings yet
Week1 1
40 pages
Unit-3 Intr Data Science
No ratings yet
Unit-3 Intr Data Science
150 pages
Intorduction of DA
No ratings yet
Intorduction of DA
5 pages
Data Science Fundamentals Explained
No ratings yet
Data Science Fundamentals Explained
2 pages
BDTT-introductry Class
No ratings yet
BDTT-introductry Class
3 pages
Data Science & Big Data Course Guide
No ratings yet
Data Science & Big Data Course Guide
119 pages
Data Collection Methods in Research
No ratings yet
Data Collection Methods in Research
30 pages
Basic Stat - ACADEMIC
100% (1)
Basic Stat - ACADEMIC
3 pages
ASSIGNMENT - (Marketing Research Analytics) Submitted To - Prof - Rahul Pratap Singh Kaurav Submitted by - Lucky Mishra Roll - NO - 20PGDM082
No ratings yet
ASSIGNMENT - (Marketing Research Analytics) Submitted To - Prof - Rahul Pratap Singh Kaurav Submitted by - Lucky Mishra Roll - NO - 20PGDM082
23 pages
Data Management Techniques and Analysis
No ratings yet
Data Management Techniques and Analysis
92 pages
Forest Mensuration Basics
No ratings yet
Forest Mensuration Basics
14 pages
Revision Questions For Practice (STA2101)
No ratings yet
Revision Questions For Practice (STA2101)
12 pages
Data Handling in SPSS
No ratings yet
Data Handling in SPSS
8 pages
2 Classification of Variables
No ratings yet
2 Classification of Variables
25 pages
Measurement in Research Methodology Research Methodology: Presentation On
No ratings yet
Measurement in Research Methodology Research Methodology: Presentation On
17 pages
Research Methods in Crime & Justice
No ratings yet
Research Methods in Crime & Justice
48 pages
4.kinds of Variables and Level of Measurement
No ratings yet
4.kinds of Variables and Level of Measurement
61 pages
Practical Research 2 Reviewer
No ratings yet
Practical Research 2 Reviewer
5 pages
M. Phil. in Statistics: Syllabus
No ratings yet
M. Phil. in Statistics: Syllabus
12 pages
Lecture 1 Descriptive & Inferential Statistics
No ratings yet
Lecture 1 Descriptive & Inferential Statistics
19 pages
QMT 181 Group 7 - Group Assignment Report
No ratings yet
QMT 181 Group 7 - Group Assignment Report
26 pages
Likert Scale for Attitude Measurement
No ratings yet
Likert Scale for Attitude Measurement
13 pages
Mathematics 7: Statistics Learning Sheet
No ratings yet
Mathematics 7: Statistics Learning Sheet
8 pages
KruskalWallis Test
No ratings yet
KruskalWallis Test
13 pages
Definition of Statistics
No ratings yet
Definition of Statistics
17 pages
Research New Printed and Updated Notes - 3314828 - 2023 - 02!15!16 - 39
No ratings yet
Research New Printed and Updated Notes - 3314828 - 2023 - 02!15!16 - 39
85 pages
Solution Manual For Statistics For Managers 8th Edition by Levine Doc - Compress
No ratings yet
Solution Manual For Statistics For Managers 8th Edition by Levine Doc - Compress
8 pages
Measurement and Scaling Techniques Guide
No ratings yet
Measurement and Scaling Techniques Guide
22 pages
Chapter-5 Sampling and Data Collection
No ratings yet
Chapter-5 Sampling and Data Collection
62 pages
Multiple Choice Questions (The Answers Are Provided After The Last Question.)
No ratings yet
Multiple Choice Questions (The Answers Are Provided After The Last Question.)
92 pages
Understanding Statistics Fundamentals
100% (1)
Understanding Statistics Fundamentals
65 pages
Data and Graphic Display
No ratings yet
Data and Graphic Display
39 pages
Jaggia BA 1e Chap001 PPT
No ratings yet
Jaggia BA 1e Chap001 PPT
21 pages
IE101 Reviewer
No ratings yet
IE101 Reviewer
22 pages
Data Types and Statistical Scales Quiz
No ratings yet
Data Types and Statistical Scales Quiz
1 page
IT Syllabus: St. Xavier's College
No ratings yet
IT Syllabus: St. Xavier's College
21 pages