0% found this document useful (0 votes)

41 views35 pages

Lecture13 Stats Refresher

The document outlines the course 'Big Data Visual Analytics' (CS 661) taught by Soumya Dutta at IIT Kanpur, including study materials and project guidelines. It covers concepts of random variables, probability distributions, and estimation techniques such as the EM algorithm for Gaussian Mixture Models. Key topics include discrete and continuous random variables, expected value, variance, and various distribution functions.

Uploaded by

okstudyshivi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

41 views35 pages

Lecture13 Stats Refresher

Uploaded by

okstudyshivi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

Big Data Visual Analytics (CS 661)

Instructor: Soumya Dutta

Department of Computer Science and Engineering
Indian Institute of Technology Kanpur (IITK)
email: soumyad@[Link]
Study Materials for Lecture 13
• [Link]
• [Link]
• A Gentle Tutorial of the EM Algorithm and its Application to
Parameter Estimation for Gaussian Mixture and Hidden Markov
Models
• EM Algorithm:
[Link]

IITK CS661: Big Data Visual Analytics: Soumya Dutta 2

Final Project
• Form your project team by Feb 28 and update the google sheet with
details of project members
• [Link]
PE_4u6pNb4FzzjbA/edit?usp=sharing
• Group size: 8-9 (8 preferred)
• Those who will not be part of a team, I will assign them into new teams
randomly
• Check the guideline document in HelloIITK for more details about the
project and how to proceed with the project
• Carefully read the instructions

IITK CS661: Big Data Visual Analytics: Soumya Dutta 3

Random
Variables and
Distributions

IITK CS661: Big Data Visual Analytics: Soumya Dutta 4

Random Variable
• Let S be a sample space of an experiment
• S is associated with a probability measure P
• A random variable X is a real valued function on S
• Key property: It is a function whose values have probabilities attached
with it

IITK CS661: Big Data Visual Analytics: Soumya Dutta 5

Random Variable: Example
• Let us flip a fair coin three times
• Sample space S = {hhh, hht, hth, htt, thh, tht, tth, ttt}
• Assume X is a function on S, so that X is the number of heads (h)
• So, we have,
• {hhh  3, hht  2, hth  2, htt  2, thh  2, tht  2, tth  1, ttt  0}
• X is a random variable

IITK CS661: Big Data Visual Analytics: Soumya Dutta 6

Random Variable: Example
• We can answer questions like:
• P(X=0) = P(ttt) = 1/8
• P(X = 1) = P(htt ) + P(tht ) + P(tth) = 3/8
• P(X = 2) = P(hht ) + P(hth) + P(thh) = 3/8
• P(X = 3) = P(hhh) = 1/8
• We can tabulate it:

IITK CS661: Big Data Visual Analytics: Soumya Dutta 7

Random Variable (RV): Example
• Rolling a fair die
• Assume a RV: X = the number that comes up
• X takes values 1,2,3,4,5,6 with probability 1/6

IITK CS661: Big Data Visual Analytics: Soumya Dutta 8

Discrete and Continuous
Random Variable
• A random variable is said to be discrete if its set of possible values is a
discrete set
• Example: Rolling a fair die and measuring the value that shows up

• A random variable is said to be continuous when it can assume an

uncountable number of values
• Example: Depth of a pool, height of all the males, etc.

IITK CS661: Big Data Visual Analytics: Soumya Dutta 9

Expected Value and Variance of a
Discrete RV
• Expected Value (mean):

• Variance:

• Standard Deviation:

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 10

Expected Value and Variance of a
Continuous RV
• Expected Value (mean):

• Variance:

• Standard Deviation:

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 11

Probability Distribution Function
• A probability distribution function is a mathematical function that
provides probabilities of occurrence for the possible outcomes of a
random variable

• Probability Mass Function (PMF): The probability distribution of a

discrete random variable is called probability mass function

• Probability Density Function (PDF): The probability distribution of a

continuous random variable is called probability density function

IITK CS661: Big Data Visual Analytics: Soumya Dutta 12

Probability Distribution
Function: Properties
• Discrete case: PMF • Continuous case: PDF

1.
1. for all outside a discrete range
Probability is

Probability
density
evaluated as area
under the curve
Probability

𝑃 (𝑥 =𝑐) = 0 The probability that 𝑥 takes on any individual

Data values

value is zero. The area below the curve between 𝑥= 𝑐 and

𝑥=𝑐 has no width, and therefore no area.
Data values

IITK CS661: Big Data Visual Analytics: Soumya Dutta 13

Cumulative Distribution
Function (CDF)
• Discrete RV: Non decreasing function

CDF is a right continuous function

for discrete RV

PMF CDF

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 14

Probabilities of Events Via Discrete CDF

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 15

Cumulative Distribution
Function (CDF)
• Continuous RV: Non decreasing function

PDF CDF
CDF is a
continuous
function
here

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 16

Probabilities of Events Via Continuous CDF

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 17

Discrete: Uniform Distribution
• Distribution assigns equal probabilities to a finite set of values

IITK CS661: Big Data Visual Analytics: Soumya Dutta 18

Continuous: Exponential
Distribution

IITK CS661: Big Data Visual Analytics: Soumya Dutta 19

Continuous: Beta Distribution

IITK CS661: Big Data Visual Analytics: Soumya Dutta 20

Continuous: Normal (Gaussian)
Distribution

IITK CS661: Big Data Visual Analytics: Soumya Dutta 21

Reading a Normal (Gaussian)
Distribution

IITK CS661: Big Data Visual Analytics: Soumya Dutta 22

Continuous: Standard Normal Distribution
• It is the normal distribution with a mean equal to 0 and a standard
deviation (also variance) equal to 1
• The standard normal distribution is often abbreviated to Z. It is
frequently used to simplify working with normal distributions.
Standard Normal PDF Standard Normal CDF

IITK CS661: Big Data Visual Analytics: Soumya Dutta 23

IITK CS661: Big Data Visual Analytics: Soumya Dutta 24

IITK CS661: Big Data Visual Analytics: Soumya Dutta 25

Joint Probability Distribution
Function
• If we have multiple random
variables, defined over the same
probability space S, then the joint
probability distribution is the
distribution function that is defined
over all possible event combinations
of all the random variables
• Joint probability density function for
two continuous random variables
and can be represented as

IITK CS661: Big Data Visual Analytics: Soumya Dutta 26

Joint Probability Distribution
Function
• The concept of joint probability distribution function is generalizable
and goes beyond two variables:
• For two variable case, must be a nonnegative function and the
following must hold:

• Joint Cumulative Distribution function (CDF)

IITK CS661: Big Data Visual Analytics: Soumya Dutta 27

Marginal Probability
Distribution Functions
• From the joint probability distribution function, we can find the
marginal probability distributions by integrating the joint distribution
function

for all
for all

• Marginal distribution functions (also known as univariate

distributions) are probability distribution functions of individual
random variables

IITK CS661: Big Data Visual Analytics: Soumya Dutta 28

Independence
• The continuous random variables are statistically independent if their
joint probability distribution function factors into a product of their
marginal distributions

IITK CS661: Big Data Visual Analytics: Soumya Dutta 29

Conditional Probability and
Bayes’ Rule
• Conditional probability: It is the probability of an event given another
event has occurred

• Bayes’ Rule:

= Conditional probability of = given = . This is also called posterior probability

= Conditional probability of = given = . This is called likelihood
= marginal of , also the prior probability of =
= marginal probability of

IITK CS661: Big Data Visual Analytics: Soumya Dutta 30

Representations of Distribution
Functions
• Non-parametric model
• Histogram
• Kernel Density Estimation (KDE)
• Parametric models
• Gaussian (Normal)
• Gaussian mixture models (GMM)

IITK CS661: Big Data Visual Analytics: Soumya Dutta 31

Non-parametric Distributions:
Histogram
• Histogram: A histogram is an approximate representation of a statistical
distribution. The area under a histogram can be normalized and used as a
discrete probability distribution function.

Univariate Histogram Joint Histogram

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 32
Non-parametric Distributions:
KDE
• KDE: Kerner Density Estimation is a popular method of distribution estimation
technique from sample data. Formally it is defined as follows:

• f(x) is the KDE function

• n = number of data points
• b = bandwidth
• K(.) = Non-negative symmetric kernel function
such as uniform, triangular, Gaussian etc.

Univariate KDE Joint KDE

IITK CS661: Big Data Visual Analytics: Soumya Dutta 33
Parametric Distribution: GMM
• Gaussian Mixture Model (GMM): Represent a probability distribution
function as a convex combination of multiple Gaussian functions
K
= Weights of the Gaussian components
p( X )  i * N ( X | i ,  i ) K = Number of Gaussian components in the mixture
i 1
model

IITK CS661: Big Data Visual Analytics: Soumya Dutta Fig. source: [Link] 34
Parameter Estimation Techniques
• Estimation of Gaussian distribution parameters are trivial
• Maximum Likelihood Estimate (MLE)
• Same as computing mean and variance

• Estimation of GMM parameters require Expectation Maximization

(EM) algorithm
• Iterative technique to fit GMM parameters

• Incremental schemes for GMM parameter estimation

• Fast and approximate method to estimate GMM parameters
• Can model streaming time-varying data

IITK CS661: Big Data Visual Analytics: Soumya Dutta 35

Sem 6 Notes Maths
No ratings yet
Sem 6 Notes Maths
7 pages
Distribution and Statistical Interference
No ratings yet
Distribution and Statistical Interference
43 pages
Ca2 13000224060 BSM201 It
No ratings yet
Ca2 13000224060 BSM201 It
4 pages
Random Variable (Slide)
No ratings yet
Random Variable (Slide)
22 pages
Descriptive Statistics
No ratings yet
Descriptive Statistics
14 pages
AIML Module - 4
No ratings yet
AIML Module - 4
25 pages
Statistical Data Distribution Report
No ratings yet
Statistical Data Distribution Report
8 pages
SMA 240 Probability and Statistics 1 Lecture Notes
No ratings yet
SMA 240 Probability and Statistics 1 Lecture Notes
36 pages
Co-Ordinate System
No ratings yet
Co-Ordinate System
9 pages
Bde Unit 1
No ratings yet
Bde Unit 1
46 pages
Unit II - ML
No ratings yet
Unit II - ML
29 pages
ECMT1020 Lecture Notes 01 rv1
No ratings yet
ECMT1020 Lecture Notes 01 rv1
6 pages
1st UNIT Probabilty Distributions
No ratings yet
1st UNIT Probabilty Distributions
27 pages
Lecture Note 3
No ratings yet
Lecture Note 3
11 pages
Core Statistics and R Guide
100% (4)
Core Statistics and R Guide
256 pages
Introduction to Random Variables in Econometrics
No ratings yet
Introduction to Random Variables in Econometrics
8 pages
PPT3 - Statistical Models in Simulation
No ratings yet
PPT3 - Statistical Models in Simulation
38 pages
All Simulation Lectures
No ratings yet
All Simulation Lectures
41 pages
Chapter 5
No ratings yet
Chapter 5
37 pages
Q & A-Unit 2 - Distributions
No ratings yet
Q & A-Unit 2 - Distributions
23 pages
Probability & Statistics Basics
No ratings yet
Probability & Statistics Basics
47 pages
Pks Machine Learning Module 2 2
No ratings yet
Pks Machine Learning Module 2 2
41 pages
Module 2
No ratings yet
Module 2
36 pages
Data Analytics Notes From Unit 1 To 5 by DR Kapil Chaturvedi
100% (9)
Data Analytics Notes From Unit 1 To 5 by DR Kapil Chaturvedi
94 pages
Unit 4
No ratings yet
Unit 4
128 pages
Chapter5 PDF
No ratings yet
Chapter5 PDF
37 pages
Probability Distributions
No ratings yet
Probability Distributions
23 pages
Random Variables and Probability Distribution: Purnomo Jurusan Teknik Mesin UGM
No ratings yet
Random Variables and Probability Distribution: Purnomo Jurusan Teknik Mesin UGM
48 pages
Lecure-3 Probability
No ratings yet
Lecure-3 Probability
80 pages
Probstats Tpmi
No ratings yet
Probstats Tpmi
41 pages
Exam P Review Sheet
No ratings yet
Exam P Review Sheet
12 pages
BSTA 2104 Probability and Statistics II Notes Sep Dec 2024
No ratings yet
BSTA 2104 Probability and Statistics II Notes Sep Dec 2024
75 pages
Statistical Modeling
No ratings yet
Statistical Modeling
49 pages
Sta 2200 Probability & Statistics II (Course Outline With Notes)
No ratings yet
Sta 2200 Probability & Statistics II (Course Outline With Notes)
155 pages
Topic Two. Random Variable and Probability Distribution
No ratings yet
Topic Two. Random Variable and Probability Distribution
43 pages
Stanford Probability Cheatsheet
No ratings yet
Stanford Probability Cheatsheet
13 pages
CH 3
No ratings yet
CH 3
26 pages
Understanding Random Variables and Distributions
No ratings yet
Understanding Random Variables and Distributions
28 pages
Gaussian Random Variables and PDFs
No ratings yet
Gaussian Random Variables and PDFs
164 pages
Seismic Resistant Design of Structures: Random Variables
No ratings yet
Seismic Resistant Design of Structures: Random Variables
30 pages
Types of Probability Distribution
No ratings yet
Types of Probability Distribution
10 pages
Refresher Probabilities Statistics PDF
No ratings yet
Refresher Probabilities Statistics PDF
3 pages
Tài liệu 5
No ratings yet
Tài liệu 5
19 pages
Introduction to Random Variables
No ratings yet
Introduction to Random Variables
49 pages
UECM2273 Mathematical Statistics
No ratings yet
UECM2273 Mathematical Statistics
16 pages
Probability FoundationalMathofAI S24
No ratings yet
Probability FoundationalMathofAI S24
7 pages
Probability Densities in Data Mining: Andrew W. Moore Professor School of Computer Science Carnegie Mellon University
No ratings yet
Probability Densities in Data Mining: Andrew W. Moore Professor School of Computer Science Carnegie Mellon University
86 pages
Lecture6 7
No ratings yet
Lecture6 7
28 pages
Probability unit-III
No ratings yet
Probability unit-III
106 pages
Lecture 5
No ratings yet
Lecture 5
109 pages
Machine Learning Basics and Probability
No ratings yet
Machine Learning Basics and Probability
18 pages
Probability Is A Branch of Mathematics That Deals With Measuring The Likelihood of Events
No ratings yet
Probability Is A Branch of Mathematics That Deals With Measuring The Likelihood of Events
34 pages
Data Analysis For Social Scientists Cheatsheet
No ratings yet
Data Analysis For Social Scientists Cheatsheet
12 pages
Proba 2
No ratings yet
Proba 2
17 pages
Multivariate Normal Distribution
No ratings yet
Multivariate Normal Distribution
100 pages
Statistical Models in Simulation: Course Leader
No ratings yet
Statistical Models in Simulation: Course Leader
23 pages
Chapter 3
No ratings yet
Chapter 3
26 pages
MTE 201 (2024) Prof Mushayabasa
No ratings yet
MTE 201 (2024) Prof Mushayabasa
40 pages
Es Water Distribution System 5
No ratings yet
Es Water Distribution System 5
6 pages
H10 CE372A ShearDesign LSM 2023
No ratings yet
H10 CE372A ShearDesign LSM 2023
6 pages
Es Water Distribution System 2
No ratings yet
Es Water Distribution System 2
23 pages
Lecture17 Sampling 1
No ratings yet
Lecture17 Sampling 1
37 pages
Lecture7 TF Design
No ratings yet
Lecture7 TF Design
37 pages
H17 CE372A Flexure Reinf Curtailment LSM 2023
No ratings yet
H17 CE372A Flexure Reinf Curtailment LSM 2023
5 pages
Lecture8 Parallel Volren
No ratings yet
Lecture8 Parallel Volren
44 pages
Lecture9 InfoVis Intro
No ratings yet
Lecture9 InfoVis Intro
34 pages
H12 CE372A RC Columns LSM 2023
No ratings yet
H12 CE372A RC Columns LSM 2023
6 pages
H19 CE372A Two Way Slab Design Example 2023
No ratings yet
H19 CE372A Two Way Slab Design Example 2023
4 pages
H15 CE372A RC Slender Column Example LSM 2023
No ratings yet
H15 CE372A RC Slender Column Example LSM 2023
6 pages
H06 CE372A RC Beams LSM 2023
No ratings yet
H06 CE372A RC Beams LSM 2023
2 pages
H04 CE372A RC Beams 2023
No ratings yet
H04 CE372A RC Beams 2023
4 pages
H02 CE372A Intro RC Structures 2023
No ratings yet
H02 CE372A Intro RC Structures 2023
8 pages
Regression Interaction Analysis
No ratings yet
Regression Interaction Analysis
3 pages
Game Theory
No ratings yet
Game Theory
5 pages
Short-Term Forecasting Methods
No ratings yet
Short-Term Forecasting Methods
62 pages
Flipkart Problem Employee Value Forecasting - Predictive
No ratings yet
Flipkart Problem Employee Value Forecasting - Predictive
4 pages
(Ebook PDF) Data Analysis and Decision Making 4Th Edition
No ratings yet
(Ebook PDF) Data Analysis and Decision Making 4Th Edition
42 pages
Intermediate Stats 2024
No ratings yet
Intermediate Stats 2024
2 pages
Integer Programing
100% (1)
Integer Programing
22 pages
Portfolio Performance Evaluation Guide
50% (2)
Portfolio Performance Evaluation Guide
24 pages
Heart Transplant Demand Forecasting
No ratings yet
Heart Transplant Demand Forecasting
5 pages
Experimental Design
100% (2)
Experimental Design
13 pages
Econometrics Eviews 3
No ratings yet
Econometrics Eviews 3
13 pages
Renaissance College of Commerce & Management Security Analysis & Portfolio Management Unit - 2
No ratings yet
Renaissance College of Commerce & Management Security Analysis & Portfolio Management Unit - 2
13 pages
Lectures 7 8-Simple Regression Analysis - Assumptions and Estimations (OLS)
No ratings yet
Lectures 7 8-Simple Regression Analysis - Assumptions and Estimations (OLS)
21 pages
Essentials of Econometrics
7% (27)
Essentials of Econometrics
12 pages
ISOM2500 Exam Prep Guide
No ratings yet
ISOM2500 Exam Prep Guide
18 pages
Assignment Discrete and Continuous
No ratings yet
Assignment Discrete and Continuous
1 page
Econometrics II Mid-Term Exam 2021
100% (1)
Econometrics II Mid-Term Exam 2021
4 pages
Advanced Regression With JMP PRO Handout
No ratings yet
Advanced Regression With JMP PRO Handout
46 pages
Kode R Untuk Anova
No ratings yet
Kode R Untuk Anova
7 pages
Advanced Stats Final Exam Sample
No ratings yet
Advanced Stats Final Exam Sample
9 pages
Chap 6 Linear Correlation and Regression
No ratings yet
Chap 6 Linear Correlation and Regression
29 pages
Game Theory Homework Guide
No ratings yet
Game Theory Homework Guide
2 pages
게임이론 강의
100% (1)
게임이론 강의
88 pages
The Effect of Multicollinearity in Nonlinear Regression Models
No ratings yet
The Effect of Multicollinearity in Nonlinear Regression Models
4 pages
Supermarket Queue Management Analysis
No ratings yet
Supermarket Queue Management Analysis
1 page
Econometrics Group Assignment
No ratings yet
Econometrics Group Assignment
1 page
Financial Management Module
No ratings yet
Financial Management Module
10 pages
304BA AdvancedStatisticalMethodsUsingR
No ratings yet
304BA AdvancedStatisticalMethodsUsingR
31 pages
Causal Inference, Michael E. Sobel
No ratings yet
Causal Inference, Michael E. Sobel
3 pages
BECE-142 2024-25 English
No ratings yet
BECE-142 2024-25 English
5 pages

Lecture13 Stats Refresher

Uploaded by

Lecture13 Stats Refresher

Uploaded by

Big Data Visual Analytics (CS 661)

Instructor: Soumya Dutta

IITK CS661: Big Data Visual Analytics: Soumya Dutta 2

IITK CS661: Big Data Visual Analytics: Soumya Dutta 3

IITK CS661: Big Data Visual Analytics: Soumya Dutta 4

IITK CS661: Big Data Visual Analytics: Soumya Dutta 5

IITK CS661: Big Data Visual Analytics: Soumya Dutta 6

IITK CS661: Big Data Visual Analytics: Soumya Dutta 7

IITK CS661: Big Data Visual Analytics: Soumya Dutta 8

• A random variable is said to be continuous when it can assume an

IITK CS661: Big Data Visual Analytics: Soumya Dutta 9

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 10

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 11

• Probability Mass Function (PMF): The probability distribution of a

• Probability Density Function (PDF): The probability distribution of a

IITK CS661: Big Data Visual Analytics: Soumya Dutta 12

𝑃 (𝑥 =𝑐) = 0 The probability that 𝑥 takes on any individual

value is zero. The area below the curve between 𝑥= 𝑐 and

IITK CS661: Big Data Visual Analytics: Soumya Dutta 13

CDF is a right continuous function

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 14

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 15

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 16

IITK CS661: Big Data Visual Analytics: Soumya Dutta [Link] 17

IITK CS661: Big Data Visual Analytics: Soumya Dutta 18

IITK CS661: Big Data Visual Analytics: Soumya Dutta 19

IITK CS661: Big Data Visual Analytics: Soumya Dutta 20

IITK CS661: Big Data Visual Analytics: Soumya Dutta 21

IITK CS661: Big Data Visual Analytics: Soumya Dutta 22

IITK CS661: Big Data Visual Analytics: Soumya Dutta 23

IITK CS661: Big Data Visual Analytics: Soumya Dutta 24

IITK CS661: Big Data Visual Analytics: Soumya Dutta 25

IITK CS661: Big Data Visual Analytics: Soumya Dutta 26

• Joint Cumulative Distribution function (CDF)

IITK CS661: Big Data Visual Analytics: Soumya Dutta 27

• Marginal distribution functions (also known as univariate

IITK CS661: Big Data Visual Analytics: Soumya Dutta 28

IITK CS661: Big Data Visual Analytics: Soumya Dutta 29

= Conditional probability of = given = . This is also called posterior probability

IITK CS661: Big Data Visual Analytics: Soumya Dutta 30

IITK CS661: Big Data Visual Analytics: Soumya Dutta 31

Univariate Histogram Joint Histogram

• f(x) is the KDE function

Univariate KDE Joint KDE

• Estimation of GMM parameters require Expectation Maximization

• Incremental schemes for GMM parameter estimation

IITK CS661: Big Data Visual Analytics: Soumya Dutta 35

You might also like