0% found this document useful (0 votes)

17 views31 pages

Lecture-03 Estimation Basics

Uploaded by

kuangau

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views31 pages

Lecture-03 Estimation Basics

Uploaded by

kuangau

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Introduction to Deep

Generative Modeling Lecture #3

HY-673 – Computer Science Dep., University of Crete
Professors: Yannis Pantazis & Yannis Stylianou
TAs: Michail Raptakis & Michail Spanakis
Taxonomy of Deep Generative Models Lecture #3
According to the Likelihood Function

GMs

Exact Approximate Implicit

ARMs NFs VAEs EBMs DPMs GANs GGFs

(R)NADE Planar Vanilla Belief nets diffusion Vanilla KALE

WaveNet Coupling β-VAE Boltzmann denoising WGAN Lipschitz-reg.
WaveRNN MAFs/IAFs VQ-VAE machines score 𝑓-GAN …
GPT … … … … (𝑓, Γ)-GAN
…
Introduction to Estimator Theory Lecture #3

Let D = {x1 , . . . , xn } be a set of data drawn from pd (x), and pθ (x) be a

family of models with θ ∈ Θ. A point estimator θ̂ = θ̂(D) is a random variable
for which we want:

pθ̂ (x) ≈ pd (x)

Introduction to Estimator Theory Lecture #3

• How to construct an estimator?

– Maximum Likelihood Estimation (MLE)
– Maximum A Posteriory (MAP) Estimation
– Based on a Probability Distance or a Divergence (implicit)
– Bayesian Inference (learns a distribution for the
estimator’s parameters)
Maximum Likelihood Estimator Lecture #3
Maximum Likelihood Estimator Lecture #3

− Ln (θ̂1 ) > Ln (θ̂2 ) implies that θ̂1 is

more likely to have generated
the observed samples x1 , ..., xn .

− Thus, it provides a ranking of model’s

fitness/accuracy/matching to the data.
MLE Example #1 Lecture #3

d
L(θ̂; D)
dθ
MLE Example #2 Lecture #3
MLE Example #3 Lecture #3

Partial derivative
or gradient vector:
MLE Example #3 Lecture #3

Maximizing L(θ) is equivalent to

minimizing the Sum of Squares
(Least Squares)

Exactly the same solution as LS!

MLE Example #4 Lecture #3

• Logistic regression with sigmoids a.k.a. binary classification.

Dataset: D = {(x1 , y1 ), . . . , (xn , yn )} with xi ∈ Rd and yi ∈ {0, 1},
Model family: pθ (yi = 1|xi ) = σ(θT xi ), pθ (yi = 0|xi ) = 1 − pθ (yi = 1|xi ),
θ ∈ Rd and σ(z) = 1+e1−z be the sigmoid function.
MLE Example #4 Lecture #3

Learning rate
Maximum Likelihood Estimator Lecture #3
Kullback-Leibler Divergence (KLD) Lecture #3

• Geometric interpretation:
MLE is equivalent to minimizing the KLD of pd (x) w.r.t. pθ (x).
Maximum Likelihood Estimator Lecture #3

where the cross entropy of probability P with PDF p(x) with respect to proba-
bility Q with PDF q(x) is defined as
Kullback-Leibler Divergence Lecture #3

• MLE is also equivalent to minimizing the KLD of pd (x) w.r.t. pθ (x).

arg max L(θ; pd ) = arg min DKL (pd ||pθ )

θ θ

• The Kullback-Leibler divergence (KLD) of P w.r.t. Q is defined as:

! ! !
p(x)
DKL (P ||Q) := log p(x)dx = log p(x)p(x)dx − log q(x)p(x)dx
q(x)

DKL (P ||Q) = −H(P ) + H × (P ||Q). Entropy Cross Entropy

Kullback-Leibler Divergence Lecture #3

DKL (P ||Q) ≥ 0 and

Jensen’s inequality
Maximum A Posteriori Estimator Lecture #3

arg max p(θ|D)

θ
Maximum A Posteriori Estimator Lecture #3
Maximum A Posteriori Estimator Lecture #3

• Linear model: D = {(x1 , y1 ), . . . , (xn , yn )}, xi ∈ Rd , yi ∈ R, model:

yi = θT xi + ϵi , ϵi ∼ N (0, 1)

− p(θ) = N (0, λ−1 Id ) ⇒ rigde regression a.k.a. (Tikhonov) regularized

Least Squares.
− p(θ) = Laplace(0, λ−1 ) ⇒ lasso regression (least absolute shrinkage and
selection operator).
Estimator Assessment Lecture #3

• Basic toolkit to assess an estimator:

Estimator Assessment Lecture #3
Estimator Assessment Lecture #3
Estimator Assessment Lecture #3

Chebyshev’s inequality
Estimator Assessment Lecture #3
Estimator Assessment Lecture #3
Estimator Assessment Lecture #3

• Let θ̂1 and θ̂2 be two unbiased estimators of θ∗ . θ̂1 is more eﬃcient than
θ̂2 if and only if Var(θ̂1 ) < Var(θ̂2 ).
Estimator Assessment Lecture #3
Estimator Assessment Lecture #3
Lecture #3
HY-673
References Lecture #3

1. All of statistics: A Concise Course in Statistical Inference (Chapters 6 & 9)

Larry Wasserman, Springer (2004)

3. Matrix Calculus:
[Link]
[Link]
Introduction to Deep
Generative Modeling Lecture #3
HY-673 – Computer Science Dep., University of Crete
Professors: Yannis Pantazis & Yannis Stylianou
TAs: Michail Raptakis & Michail Spanakis

cs236 Lecture4
No ratings yet
cs236 Lecture4
25 pages
Lecture 17 - KL Divergence, Autoencoders
No ratings yet
Lecture 17 - KL Divergence, Autoencoders
54 pages
Gans
No ratings yet
Gans
26 pages
Deep Learning A Tutorial
No ratings yet
Deep Learning A Tutorial
16 pages
GANs: A Deep Dive for Researchers
No ratings yet
GANs: A Deep Dive for Researchers
62 pages
Logistic Regression and Sigmoid Function
No ratings yet
Logistic Regression and Sigmoid Function
32 pages
2 - Maximum Likelihood
No ratings yet
2 - Maximum Likelihood
20 pages
Lecture 03 - Feedforward Networks - 4p
No ratings yet
Lecture 03 - Feedforward Networks - 4p
19 pages
Class3 ML MaxEnt
No ratings yet
Class3 ML MaxEnt
6 pages
Neural Networks & Deep Learning Lecture
No ratings yet
Neural Networks & Deep Learning Lecture
18 pages
cs236 Lecture5
No ratings yet
cs236 Lecture5
29 pages
Latent Variable Model - Notes
No ratings yet
Latent Variable Model - Notes
11 pages
MLE Lecture Note For Econometrician
No ratings yet
MLE Lecture Note For Econometrician
13 pages
CS236 Homework 3 Answer
No ratings yet
CS236 Homework 3 Answer
8 pages
Lecture 2 Annotated
No ratings yet
Lecture 2 Annotated
60 pages
Mathematical Foundations of ML Concepts
No ratings yet
Mathematical Foundations of ML Concepts
24 pages
Lecture 15
No ratings yet
Lecture 15
10 pages
Lecture 220927 02
No ratings yet
Lecture 220927 02
29 pages
Maximum Likelihood Estimation: Guy Lebanon February 19, 2011
No ratings yet
Maximum Likelihood Estimation: Guy Lebanon February 19, 2011
6 pages
ACV - Notes - Final
No ratings yet
ACV - Notes - Final
7 pages
Unit 04 - Maximum Likelihood Estimation - 1 Per Page
No ratings yet
Unit 04 - Maximum Likelihood Estimation - 1 Per Page
62 pages
Understanding Diffusion Models: A Unified Perspective
No ratings yet
Understanding Diffusion Models: A Unified Perspective
23 pages
L1-Understanding Diffusion Models A Unified Persp
No ratings yet
L1-Understanding Diffusion Models A Unified Persp
27 pages
Machine Learning: Inference from Probabilities
No ratings yet
Machine Learning: Inference from Probabilities
52 pages
Chapter 5
No ratings yet
Chapter 5
140 pages
DeepLearning Aula6
No ratings yet
DeepLearning Aula6
63 pages
cs236 Lecture3
No ratings yet
cs236 Lecture3
36 pages
Parametric Estimation in Decision Theory
No ratings yet
Parametric Estimation in Decision Theory
36 pages
CS 182 Berkeley 2021 Discussion 1
No ratings yet
CS 182 Berkeley 2021 Discussion 1
7 pages
Therml: Thermodynamics of Machine Learning: Box & Draper 1987 1A
No ratings yet
Therml: Thermodynamics of Machine Learning: Box & Draper 1987 1A
16 pages
Lecture5 Maximum Likelihood
No ratings yet
Lecture5 Maximum Likelihood
13 pages
Mod5 Slides
No ratings yet
Mod5 Slides
37 pages
Lecture17 Mle Map
No ratings yet
Lecture17 Mle Map
29 pages
MLE and Least Squares Explained
No ratings yet
MLE and Least Squares Explained
5 pages
08.02.how To Generate An Estimator
No ratings yet
08.02.how To Generate An Estimator
8 pages
Notes On Kullback-Leibler Divergence and Likelihood Theory
No ratings yet
Notes On Kullback-Leibler Divergence and Likelihood Theory
4 pages
T 3 Estimation
No ratings yet
T 3 Estimation
20 pages
3a Variations
No ratings yet
3a Variations
17 pages
2223hk1 Slide01 ML2022-2
No ratings yet
2223hk1 Slide01 ML2022-2
23 pages
M3 DensityEstimation v1
No ratings yet
M3 DensityEstimation v1
65 pages
Bayesian NN
No ratings yet
Bayesian NN
82 pages
Deep Neural Networks
No ratings yet
Deep Neural Networks
79 pages
Mle Loss Functions
No ratings yet
Mle Loss Functions
4 pages
3a Variations4
No ratings yet
3a Variations4
5 pages
Mlelectures PDF
No ratings yet
Mlelectures PDF
24 pages
Mlelectures PDF
No ratings yet
Mlelectures PDF
24 pages
L20 GenerativeModels
No ratings yet
L20 GenerativeModels
53 pages
Lec 04 Deep Networks 2
No ratings yet
Lec 04 Deep Networks 2
78 pages
Lec 05
No ratings yet
Lec 05
46 pages
Frequentist Estimation: 4.1 Likelihood Function
No ratings yet
Frequentist Estimation: 4.1 Likelihood Function
6 pages
T T M L: HE Hermodynamics of Achine Earning
No ratings yet
T T M L: HE Hermodynamics of Achine Earning
24 pages
Introduction to Variational Autoencoders
No ratings yet
Introduction to Variational Autoencoders
89 pages
Lecture 12
No ratings yet
Lecture 12
35 pages
DLAI4 Networks Gans
No ratings yet
DLAI4 Networks Gans
7 pages
CHC 351 Module 4
No ratings yet
CHC 351 Module 4
126 pages
MLE Assingnment
No ratings yet
MLE Assingnment
7 pages
practicalMachineLearning Lecture3
No ratings yet
practicalMachineLearning Lecture3
25 pages
Generative Adversarial Networks For Data
No ratings yet
Generative Adversarial Networks For Data
86 pages
Maximum Likelihood Estimation Guide
No ratings yet
Maximum Likelihood Estimation Guide
25 pages
Unit 6
100% (2)
Unit 6
12 pages
HMM Toolbox Usage Guide
No ratings yet
HMM Toolbox Usage Guide
3 pages
Cumulative Poisson Probability Table
No ratings yet
Cumulative Poisson Probability Table
5 pages
Quantitative Methods Quiz
No ratings yet
Quantitative Methods Quiz
47 pages
Statistics Formulas and Test Statistics
No ratings yet
Statistics Formulas and Test Statistics
4 pages
Probability Assignment
80% (5)
Probability Assignment
25 pages
AAPL vs. Google Stock Analysis
No ratings yet
AAPL vs. Google Stock Analysis
19 pages
11 Multiple Random Processes
No ratings yet
11 Multiple Random Processes
9 pages
Aaoc ZC111-L2
No ratings yet
Aaoc ZC111-L2
37 pages
Anne Galletta
No ratings yet
Anne Galletta
6 pages
Engineering Probability Solutions
No ratings yet
Engineering Probability Solutions
8 pages
Skew Gaussian Process For Nonlinear Regression
No ratings yet
Skew Gaussian Process For Nonlinear Regression
26 pages
2 - CHAPTER TWO-Mean and Total Estimation
No ratings yet
2 - CHAPTER TWO-Mean and Total Estimation
14 pages
Understanding Random Variables
No ratings yet
Understanding Random Variables
14 pages
Ch.2 Poisson Distribution PDF
No ratings yet
Ch.2 Poisson Distribution PDF
49 pages
Probability and Distribution Lesson Plan
No ratings yet
Probability and Distribution Lesson Plan
3 pages
C Siruri de Asteptare Queuing
No ratings yet
C Siruri de Asteptare Queuing
21 pages
Understanding Wind Energy Distributions
No ratings yet
Understanding Wind Energy Distributions
5 pages
Obar
No ratings yet
Obar
9 pages
Using R For Bayesian Spatial and Spatio Temporal Health Modeling - 1st Edition High-Resolution PDF Download
100% (1)
Using R For Bayesian Spatial and Spatio Temporal Health Modeling - 1st Edition High-Resolution PDF Download
16 pages
Lesson Plan in Probability & Statistics Grade 11
No ratings yet
Lesson Plan in Probability & Statistics Grade 11
4 pages
Review of Fundamental Statistical Concepts: Measures of Central Tendency and Dispersion
No ratings yet
Review of Fundamental Statistical Concepts: Measures of Central Tendency and Dispersion
8 pages
ADM-SHS-StatProb-Q3-M21-Illustrating The T-Distribution
No ratings yet
ADM-SHS-StatProb-Q3-M21-Illustrating The T-Distribution
27 pages
Course No: IPE 316 Experiment No: 4: Check The Sample Normality by (Chi Square) Test
No ratings yet
Course No: IPE 316 Experiment No: 4: Check The Sample Normality by (Chi Square) Test
3 pages
Experimental Design Essentials
No ratings yet
Experimental Design Essentials
2 pages
Introduction To Digital Signal Processing
100% (2)
Introduction To Digital Signal Processing
21 pages
Chapter # 04 Measures of Dispersion, Moments, Skewness and Kurtosis
No ratings yet
Chapter # 04 Measures of Dispersion, Moments, Skewness and Kurtosis
25 pages
Probability PDF Set 1-Output
No ratings yet
Probability PDF Set 1-Output
8 pages
Theory Questions Statistics 217528
No ratings yet
Theory Questions Statistics 217528
2 pages
What Is A Probability Mass Function?
No ratings yet
What Is A Probability Mass Function?
3 pages

Lecture-03 Estimation Basics

Uploaded by

Lecture-03 Estimation Basics

Uploaded by

Introduction to Deep

Generative Modeling Lecture #3

Exact Approximate Implicit

ARMs NFs VAEs EBMs DPMs GANs GGFs

(R)NADE Planar Vanilla Belief nets diffusion Vanilla KALE

Let D = {x1 , . . . , xn } be a set of data drawn from pd (x), and pθ (x) be a

pθ̂ (x) ≈ pd (x)

• How to construct an estimator?

− Ln (θ̂1 ) > Ln (θ̂2 ) implies that θ̂1 is

− Thus, it provides a ranking of model’s

Maximizing L(θ) is equivalent to

Exactly the same solution as LS!

• Logistic regression with sigmoids a.k.a. binary classification.

• MLE is also equivalent to minimizing the KLD of pd (x) w.r.t. pθ (x).

arg max L(θ; pd ) = arg min DKL (pd ||pθ )

• The Kullback-Leibler divergence (KLD) of P w.r.t. Q is defined as:

DKL (P ||Q) = −H(P ) + H × (P ||Q). Entropy Cross Entropy

DKL (P ||Q) ≥ 0 and

arg max p(θ|D)

• Linear model: D = {(x1 , y1 ), . . . , (xn , yn )}, xi ∈ Rd , yi ∈ R, model:

− p(θ) = N (0, λ−1 Id ) ⇒ rigde regression a.k.a. (Tikhonov) regularized

• Basic toolkit to assess an estimator:

1. All of statistics: A Concise Course in Statistical Inference (Chapters 6 & 9)

You might also like