Slides
Thèmes abordés
Slides
Thèmes abordés
F. Proïa
Notes de cours
1 Concepts généraux
Grande dimension
Retour sur la régression linéaire
Fléau de la dimension
Critères AIC et BIC
Validation croisée
2 Régressions pénalisées
4 Tests multiples
Concepts généraux
Y = X β + ε, ε ∼ Nn (0, σ 2 In ).
L'émergence de la grande dimension (le big data) est due pour l'essentiel à une
véritable révolution technologique.
Quelques exemples :
1
Et encore, même ces puces sont devenues has been : RNA-Seq (séquençage
haut-débit) et Single-Cell ont déjà pris le relai à peine 20 ans plus tard.
1. © P. Lacroix
M2 Ingénierie Statistique Statistique en Grande Dimension 6 / 97
Concepts généraux Grande dimension
ème
La statistique du 20 siècle :
ème
La statistique du 21 siècle :
Y = Xβ + ε
Rem : on peut ajouter une colonne de 1 dans X pour tenir compte d'un intercept
β0 , auquel cas p ↔ p + 1.
Tout estimateur OLS de β satisfait
E[β]
b =β et E[Yb ] = X β.
βb ∼ Np (β, σ 2 (X T X )−1 ).
βbk − βk
√ ∼ t(n − p), pour k = 1, . . . , p ,
σb 2 ck
Test de Fisher des modèles emboîtés : les covariables sont considérées dans
leur ensemble et pas seulement marginalement.
On fera des rappels sur l'AIC et le BIC dans les slides suivants, également
sur la validation croisée.
Si p > n, rg(X ) ⩽n∧p =n n'est pas de rang p : l'OLS n'est plus unique.
| {z } | {z } | {z }
not-sparse sparse group-sparse
| {z } | {z } | {z }
sparse-group-sparse fused-sparse pattern-sparse
Lorsque p grandit...
Le concept de voisinage n'a plus beaucoup de sens car les points sont de
plus en plus isolés : voir slides suivants.
On voit que :
On voudrait trouver n de sorte que pour tout x ∈ [0, 1]p , il existe une observation
Ui telle que d(x, Ui ) ⩽ ϵ. En d'autres termes, combien d'observations faudrait-il
pour garantir que l'hypercube est globalement visité ?
π p/2
Vp (r ) = r p.
Γ(p/2 + 1)
√ √
Rem : avec Γ(3/2) = π/2, Γ(2) = 1 et Γ(5/2) = 3 π/4, que trouve-t-on pour
p = 1, 2, 3 ?
On a aussi, lorsque p → +∞,
2
2p
cp
1 2πer p+1
Vp (r ) ∼ √ ≍ = e− 2 ln p+o(p ln p) .
πp p p (1+p)/2
n
[
[0, 1]p ⊂ Bp (Ui , ϵ)
i=1
d'où l'on déduit que nVp (ϵ) ⩾ Vol([0, 1]p ) = 1. Il faudrait donc
2
− 2p
1 √ 2πeϵ p+1
n⩾ = πp ≍ c −p p (1+p)/2 = e 2 ln p+o(p ln p) .
Vp (ϵ) p
Morale de ces exemples : attention avec les espaces en grande dimension, les
notions qui nous semblent intuitives ne le sont plus.
Sélection de modèle
X
Y = X[m∗ ] β[m∗ ] + ε = βk Xk + ε.
k ∈ m∗
h i
2
rm∗ = E X[m∗ ] βb[m∗ ] − X β .
Sélection de modèle
Il s'agit d'un oracle : il n'a aucune portée pratique car dépendant de β, il joue un
rôle théorique de référence.
b ∈ arg min {b
m rm }
m∈M
Sélection de modèle
Lemme
2
rm = (I − P[Xm ] )X β + dm σ 2
| {z } | {z }
biais variance
Preuve
Sélection de modèle
Posons
2
rbm = Yb[m] − Y + (2dm − n)σ 2 .
Lemme
Preuve
Sélection de modèle
2
+ 2dm σ 2 .
b AIC ∈ arg min
m Yb[m] − Y
m∈M
Défaut de l'AIC : les gros modèles seront globalement favorisés, car ∥Yb[m] − Y ∥2
peut être très faible en cas d'overtting et la pénalisation n'est pas toujours
susante pour contrebalancer.
Sélection de modèle
Rem : si X[m] est de rang plein (donc en petite dimension), on a dm = |m| ce qui
fait qu'on pénalise par le nombre de covariables incluses dans le modèle.
p p 2
pen(m) ∝ dm + −2 ln πm
Sélection de modèle
Lemme
Sous réserve de quelques hypothèses de régularité sur la probabilité π(· | m), pour
tous m, m′ ∈ M, lorsque n → +∞,
π(m | Y ) b[m′ ] − Y ∥2 − ∥Y
∥Y b[m] − Y ∥2 + σ 2 (dm′ − dm ) ln n πm
ln = + ln + O(1).
π(m′ | Y ) 2σ 2 πm ′
Sélection de modèle
∥Yb[m] − Y ∥2 + σ 2 dm ln n − 2σ 2 ln πm .
b ∈ arg min
m
m∈M
∥Yb[m] − Y ∥2 + σ 2 dm ln n .
b BIC ∈ arg min
m
m∈M
Les gros modèles sont plus pénalisés par le BIC que par l'AIC.
Le principe en est :
Considérons une partition {G1 , . . . , GV } des individus et D−k = (Y−k , X−k ) les
données privées du k -ème sous-ensemble Gk .
La procédure V -fold consiste, pour k = 1, . . . , V , à :
1 X 2
Rbk = Yi − Ybi .
|Gk |
i ∈ Gk
V
1 X
RbCV = Rbk .
V
k=1
Le modèle retenu sur cette base sera celui qui minimisera RbCV . Ex : calibration
(tuning ) du Lasso (cf. section suivante).
1 Concepts généraux
2 Régressions pénalisées
Best-Subset
Lasso
Ridge et Elastic-Net
Group-Lasso et autres généralisations du Lasso
4 Tests multiples
Préambule technique
p
!1a
X
a
|β|a = |βk | .
k=1
La norme innie ℓ∞ est dénie par |β|∞ = max{|βk |, k = 1, . . . , p}, elle vérie
Régressions pénalisées
2
m
bλ ∈ arg min Yb[m] − Y + λ|m|
m∈M
2
= arg min min Y − X β + λ|β|0
m ∈ M β : Sβ = m
Régressions pénalisées
Dénition
2
βbλ ∈ arg minp Y − Xβ + λ|β|0
β∈R
La question semble résolue... sauf que β 7→ |β|0 n'étant pas convexe, le problème
d'optimisation n'a pas de solution facilement atteignable (il est NP-hard ).
En d'autres termes : soit |m| est petit et on explore toutes les possibilités, soit |m|
est trop grand et il faut trouver une heuristique et/ou une autre approche.
Lasso
Dénition
2
βbλ ∈ arg minp Y − Xβ + λ|β|1
β∈R
Rien ne permet d'armer que le modèle induit par βbλ correspond au modèle
optimal pour la pénalité ℓ0 , mais il existe des garanties théoriques dont on
parlera succinctement.
Lasso
Remarque importante : selon les références (livres, cours en ligne, etc.), le Lasso
peut aussi être déni par
2
( )
Y − Xβ
βbλ ∈ arg minp + λ|β|1
β∈R 2
Lasso
Même si l'on n'utilisera pas tout ce bagage théorique dans le module, il est
important de discuter quelque peu des propriétés des fonctions convexes.
Tout ceci est la base des solutions apportées à ces nouvelles problématiques !
∂F (x) = w ∈ Rp : ∀ y ∈ Rp , F (y ) ⩾ F (x) + ⟨w , y − x⟩ .
Lasso
Lemme
∂|β|a = w ∈ Rp : ⟨w , β⟩ = |β|a
et |w |b ⩽ 1
Preuve
Lasso
Corollaire
∂|β|1 = w ∈ Rp : wk = sgn(βk )
si βk ̸= 0 et wk ∈ [−1, 1] si βk = 0 .
Lasso
∂ϕ(β) = − 2X T (Y − X β) + λw : w ∈ ∂|β|1 .
λ
b = 2X T (Y − X βbλ )
λw soit encore X T X βbλ = X T Y − w
b.
2
De plus, w
b est tel que, pour k = 1, . . . , p ,
w
bk = sgn(βbλ, k ) si βbλ, k ̸= 0
bk ∈ [−1, 1]
w sinon.
Lasso
De la relation X T X βbλ = X T Y − λw
b /2, on tire
D λ E
0 ⩽ ∥X βbλ ∥2 = βbλ , X T Y − w b
2
X λ
= βbλ, k XkT Y − sgn(βbλ, k )
2
k ∈m
bλ
où m
b λ = supp(βbλ ) est le modèle engendré par βbλ .
Il s'ensuit que tout choix de λ ⩾ 2|X T Y |∞ conduit à βbλ = 0.
Dans le cas contraire, il n'y a pas de formule explicite, sauf si le design est
orthogonal (donc en petite dimension). On traitera ce cas en TD, en particulier
les opérateurs de hard-thresholding et de soft-thresholding.
Lasso
En eet, par dualité de Lagrange, on montre que pour tout λ > 0, il existe un
rayon rλ > 0 tel que
2 2
βbλ ∈ arg minp Y − Xβ + λ|β|1 } = arg min Y − Xβ
β∈R β ∈ B1 (rλ )
Lasso
Lemme
λ X
βk∗ = Rk 1 − avec Rk = XkT Y − βj Xj .
2|Rk | + j ̸= k
Preuve
Lasso
Fixer β∗ arbitrairement.
Pour k = 1, . . . , p ,
λ X
βk∗ = Rk 1 − avec Rk = XkT Y − βj∗ Xj .
2|Rk | + j ̸= k
Renvoyer βbλ = β ∗ .
Convergence vers arg minβ ∈ Rp ϕ(β) assurée par la convexité et la séparabilité.
Rem : d'autres algorithmes existent, comme FISTA ou LARS (voir les packages
glmnet ou lars pour des mises en pratique).
Lasso
On choisit λ
b par validation croisée sur cet ensemble de modèles.
Finalement, on peut :
Lasso
Lasso
Lasso
Une coupure verticale donne les variables sélectionnées pour chaque λ (ex : on
veut les 4 variables les plus inuentes, on retient {3, 9, 4, 7}).
Choix de λ par validation croisée :
Lasso
Les garanties théoriques sont très diciles à obtenir dans de tels contextes. Elles
reposent sur de nombreux raisonnements techniques.
De façon très simpliée, sous certaines hypothèses et à condition que λ soit bien
calibré, avec une probabilité proche de 1,
r
|β|0 ln p
βbλ − β ≲ .
| {z } n
estimation
Pour que l'estimation soit able, p = eo(n) est la borne supérieure que peut
atteindre le nombre de covariables.
On peut obtenir des bornes similaires pour les erreurs de prédiction et de sélection.
Lasso
Pour un λ donné, soit βbλ un estimateur Lasso dans le premier modèle et, pour
tout u ∈ [0, 1], soit
α
bλ, 1 = u βbλ, 1 et bλ, 2 = (1 − u)βbλ, 1 .
α
Alors,
2 2
Y − βbλ, 1 X1 = Y −α
bλ, 1 X1 − α
bλ, 2 X2 et βbλ 1
= α
bλ 1 .
Ridge
Dénition
2
+ λ|β|22
βbλ ∈ arg minp Y − Xβ
β∈R
βbλ est unique (si λ > 0) et il admet une écriture explicite, le problème est
très facile à résoudre.
L'estimation n'est pas sparse (aucun coecient estimé est nul), il n'est pas
exploitable pour la sélection de variables.
Ridge
Lemme
−1
βbλ = X T X + λIp XTY.
Preuve
Ridge
Ridge
On remarque bien que, comme attendu, toutes les variables sont incluses dans le
modèle quel que soit λ : inadapté à la sélection de variables.
Elastic-Net
Dénition
2
+ λ|β|22 + µ|β|1
βbλ, µ ∈ arg minp Y − Xβ
β∈R
Son utilité principale est de corriger le Lasso lorsqu'il existe des covariables
trop corrélées.
Idée : au lieu de sélectionner une variable parmi les variables corrélées (Lasso), il aura
tendance à sélectionner soit tout le groupe de variables corrélées, soit aucune (grâce au
lissage du Ridge).
Elastic-Net
Fixer β∗ arbitrairement.
Pour k = 1, . . . , p ,
Rk µ X
βk∗ = 1− avec Rk = XkT Y − βj∗ Xj .
1+λ 2|Rk | +
j ̸= k
Renvoyer βbλ, µ = β ∗ .
Elastic-Net
1 − α
2
βbλ ∈ arg minp Y − Xβ +λ |β|22 + α|β|1 .
β∈R 2
Elastic-Net
Elastic-Net
Une coupure verticale donne les variables sélectionnées pour chaque λ (ex : on
veut les 4 variables les plus inuentes, on retient {3, 9, 4, 7}).
Choix de λ par validation croisée, pour α = 0.8 :
Sparsité vs Shrinkage
Group-Lasso
Lorsque p est très grand, il peut être pertinent de travailler à l'échelle supérieure.
Exemples classiques :
Group-Lasso
Quelle pénalisation utiliser pour que, telle l'action du Lasso sur les variables, les
groupes dans leur ensemble soient pénalisés ?
Dénition
g
2
X
βbλ ∈ arg minp Y − Xβ + λk |βGk |2
β∈R
k=1
Group-Lasso
Group-Lasso
Group-Lasso
Group-Lasso
Le Sparse-Group-Lasso :
Pour λ = (λ1 , . . . , λg ) ⩾ 0 et µ ⩾ 0,
g
2
X
βbλ, µ ∈ arg minp Y − Xβ + λk |βGk |2 + µ|β|1 .
β∈R
k=1
Adapté pour les datasets de très grande dimension qu'on peut clusteriser,
mais en pratique dicile à calibrer.
Le Fused-Lasso :
Les covariables sont ordonnées (dans le temps, dans l'espace, ...), de sorte
qu'on aimerait que βk ≈ βk+1 .
Pour λ ⩾ 0,
p−1
2
X
βbλ ∈ arg minp Y − Xβ +λ |βk+1 − βk | .
β∈R
k=1
L'Adaptive-Lasso :
Supposons qu'un estimateur βbλ soit déjà disponible (ex : Lasso, Ridge,
Gauss-Lasso, OLS, etc.)
Pour µ ⩾ 0,
p
2
X |βk |
βbλ, µ ∈ arg minp Y − Xβ +µ .
β∈R |βbλ, k |
k=1
1 Concepts généraux
2 Régressions pénalisées
4 Tests multiples
Changement de paradigme
La régression est conduite sur des axes factoriels. Deux approches étudiées :
minimise
n r0
2
X X
S : dim(S) ⩽ r 7→ X i − PS X i = σk2
i=1 k=r +1
Zk = Xvk
sont les composantes principales. Ce sont sont des combinaisons linéaires des
Régression PCR
Le contexte est donc tout trouvé pour traiter par régression PCR (Principal
Component Regression ) le modèle Y = Xβ + ε :
b = (Z T Z )−1 Z T Y .
α
βb = Vr α
b
Régression PCR
Régression PCR
Régression PLS
Pour corriger cette lacune, considérons la régression PLS (Partial Least Squares
Regression ) an de traiter le modèle Y = Xβ + ε :
Régression PLS
b = (W T W )−1 W T Y .
α
βb = Vs α
b
Régression PLS
1 Concepts généraux
2 Régressions pénalisées
4 Tests multiples
Contexte statistique
Contrôler le FDR
Tests multiples
On termine ce module par un aperçu des tests multiples, c'est-à-dire que l'on sort
du contexte de la régression.
Comme exemple introductif, supposons que l'expression d'un gène est mesurée
dans une population saine A et dans une population atteinte d'une certaine
maladie B à laquelle on soupçonne ce gène d'être relié.
Tests multiples
Mais il est bien trop simpliste de supposer qu'un seul gène puisse être responsable
d'une maladie, au contraire les réseaux de gènes sont tellement complexes qu'il
faudrait évaluer l'expression d'une grande quantité d'entre eux.
Avec les technologies modernes (ou déjà has been, cf. slide 6), on peut mesurer
simultanément l'expression de très nombreux gènes (jusqu'à ∼ 105 voire plus).
X
E[FP] = P0 (rejeter H0, g ) = α|G0 |.
g ∈ G0
pi = sup Tθ (Si )
θ ∈ Θ0, i
où Tθ (t) = Pθ Z ⩾ t avec Z de même loi que Si . Il s'agit de la probabilité
maximale d'observer une valeur plus extrême que Si lorsque H0, i est vraie.
Lemme
Sous H0, i , la p-value pi est stochastiquement dominée par une variable aléatoire
∀ u ∈ [0, 1], sup Pθ pi ⩽ u ⩽ u.
θ ∈ Θ0, i
Preuve
Tests multiples
Dénition
Rb ∩ I0 et Rb \I0
Correction de Bonferroni
Cela suggère une première approche très brutale, adaptée seulement lorsque m
n'est pas très grand. Dans le cas contraire, on limite FP mais TP restera petit.
Lemme
Preuve
Taux FDR
Dénition
FP
FDR =E (convention 0/0 = 0).
FP + TP
Rb = {i ∈ I : pbi ⩽ s}.
Comment choisir s pour que FDR ⩽α (numérateur petit) tout en maximisant |R|
b
(dénominateur grand) ?
Contrôler le FDR
On voit que
X
E[FP] = Pθ (b
pi ⩽ s)
i ∈ I0
X
⩽ pi ⩽ s) ⩽ s|I0 | ⩽ sm.
sup Pθ (b
θ ∈ Θ0, i
i ∈ I0
Si l'on pose s = pb(k) , la k -ème des p-values triées par ordre croissant, on a
|R|
b =k et E[FP] ⩽ mb p(k) , et donc
mb
p(k)
FDR ⩽ .
k
Il s'ensuit qu'un choix de seuil pertinent devrait satisfaire pb(k) ⩽ αk/m pour que,
à son tour, FDR ⩽ α. En conséquence, posons
n αkb o n αk o
Rb = i ∈ I : pbi ⩽ où kb = max k ∈ I : pb(k) ⩽ .
m m
Contrôler le FDR
Contrôler le FDR
n αβ(k)
b o n αβ(k) o
Rb = i ∈ I : pbi ⩽ où kb = max k ∈ I : pb(k) ⩽
m m
et β : I → R+ une fonction croissante, on a le contrôle suivant.
Proposition
α|I0 | X β(j ∧ m)
FDR ⩽ .
m j(j + 1)
j ⩾1
X β(j ∧ m)
⩽ 1.
j(j + 1)
j ⩾1
Contrôler le FDR
Cela n'implique pas le contrôle FDR ⩽α pour BH où β(k) = k [Pourquoi ?], mais
on montre qu'il est valide sous certaines hypothèses supplémentaires.
m
k X 1
β(k) = où Hm = .
Hm k
k=1
Illustration de Benjamini-Hochberg