0% ont trouvé ce document utile (0 vote)

25 vues38 pages

Cours5-Review Stats in R

Ce document présente un aperçu des concepts statistiques essentiels, y compris les moindres carrés, les tests statistiques paramétriques et non-paramétriques, ainsi que les modèles linéaires. Il explique comment utiliser ces outils pour analyser des données, estimer des paramètres et tester des hypothèses. Les applications pratiques de ces méthodes sont illustrées par des exemples et des calculs, notamment en utilisant R pour des analyses statistiques.

Transféré par

David Aboissiere

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

25 vues38 pages

Cours5-Review Stats in R

Transféré par

David Aboissiere

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Rappel de notions statistiques

Ce cours fera un survol de quelques notions de statistique qui seront importantes

pour les cours subséquents.
• Le concept des moindres carrés
• Les tests statistiques
• Tests Paramétrés
• Tests non-paramétrés 𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀
• Les modèles linéaires
• Les données ordinales / catégoriques
• Les modèles binomiales et les odds ratio
• Les modèles généralisés

1
Modèles linéaires
Les modèles linéaires sont des modèles statistiques utilisés pour aider à expliquer les
tendances dans nos données, faire des tests d’hypothèse ou inférer des valeurs
inconnus.
• Nécessitent l’estimation de plusieurs paramètres.

𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀

Variable Origine Pente Erreur statistique

Dépendante (intercept, un paramètre) (slope, un autre paramètre) (résidu)

2
Modèles linéaires
Illustrons les concepts fondamentaux avec un exemple simple.

Age (années) Expression EGFR 𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀

18 550
21 505
33 481
28 475
42 317
66 86

Afin d’être en mesure de modéliser nos données, on doit estimer des paramètres (𝛽0
et 𝛽1 ). La méthode la plus utilisée pour estimer les paramètres en statistique c’est la
méthode des moindres carrés. 3
Moindre carrés (least-squared)
Si on trace une droite arbitraire, la distance verticale entre chacun des points et la
droite correspond à l’erreur statistique (epsilon / résiduel).
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀

• Epsilon est la fraction de variabilité

dans nos données qui ne peut pas être
expliquée par notre modèle.

• Si on trouve les paramètres pour lesquels

epsilon2 est à son minimum, nous avons la
meilleure modélisation possible de nos
données.

• 𝜀 2 est aussi nommé ‘sum of squares’ ou la

variance.

4
Moindre carrés (least-squared)
La méthode des moindres carrés utilise les équations suivantes pour estimer les
paramètres 𝛽0 et 𝛽1
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത
෢1 =
𝛽
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2

෢0 = 𝑦ത − 𝛽1 𝑥ҧ
𝛽
Age EGFR ഥ
x-𝒙 ഥ
y-𝒚 ഥ)(y - 𝒚
(x - 𝒙 ഥ) ഥ)2
(x - 𝒙
18 550 -16.7 147.7 -2783 278.9
21 505 -13.7 102.7 -1407 187.7
33 481 -1.7 78.7 -134 2.9
28 475 -6.7 72.7 -487 44.9
42 317 7.3 -85.3 -622 53.3
66 86 31.3 -316.3 -9900 979.7
sum 208 2414 -15373 1547.4
෢1 = −9.93
𝛽 avg 34.67 402.3

෢0 = 402.3 − −9.93 × 34.67 = 746.6

𝛽 (en pratique estimé avec Alg. Matr.) 5
Test statistiques
Les tests statistiques sont souvent utilisés en science et vont comparer une ou
plusieurs statistiques d’intérêt entre plusieurs groupes expérimentaux afin de
déterminer s’ils sont significativement différents selon une valeur de probabilité alpha,
déterminé a priori.

• C’est quoi un p-value?

• C’est quoi les prérequis ou les conditions d’utilisation d’un test statistique?
(assumptions)
• Quel sont les différents types de tests? (paramétré, non-paramétrique)

P-value: Probabilité d’observé un résultat autant extrême que celui obtenu par hazard

Révisons quelques tests statistiques fréquemment utilisées en wetlab, car je pense

cela pourrait vous aider.
Notions péparatoires – p-value
On peut utiliser une méthode appeler Monte-Carlo pour illustrer le concept du p-
value.
#Exercice pour determiner un p-value par simulation monte carlo
WT <- rnorm(100) #une population wild-type
TX <- rnorm(100,0.8) #une population traitement

# L'hypothese H1 est que le traitement a un effet, donc que les deux populations sont différentes

wt <- sample(WT, 20) #on fait une expérience avec un N de 20

tx <- sample(TX, 20) #N=20 pour notre échantillon condition traitement

obsdiff <- mean(tx) - mean(wt) #L'écart entre les moyennes des deux groupes expérimentaux
obsdiff

n <- 10000
null <- vector("numeric",n) # un vecteur vide de longueure n
for (i in 1:n) { #pour chacun des chiffres allant de 1 a 10000
control <- sample(WT,20) #une condition controle simulé à partir de la population
treatment <- sample(WT,20) #une condition traitemment simulé à partir des controles (si H0 est vrai, les deux populations ne sont pas différentes)
null[i] <- mean(treatment) - mean(control) #on remplace chaque élément i du vecteur par l'écart entre les moyennes des deux groupes sous H0
}

mean(null >= obsdiff) #combiens de nos résultats simulés sont plus extrèmes que notre observation?

• Quand il n’y a pas d’effet du tx, on voit un

résultat autant extrême que notre observation
seulement 1.04% du temps.
• Notre p-value ici est 0.0104
Notions péparatoires - Variance et R2
R2 = Coefficient de détermination. Supposons des souris avec des mesures de nourriture
consommé et de poids. Nous voulons modéliser le poids (dépendante) vs. Nourriture
consommé (indépendante) en utilisant un modèle linéaire.
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀

1. Calculer la variance moyenne de la variable d’intérêt

SS(mean)
Poids

𝑛
2. Calculer la variance moyenne du modèle
SS(fit)
Nourriture consommée
𝑛
3. Enlever la variation résiduelle de notre modèle de la
variation totale et l’exprimer en tant qu’une proportion.
Poids

SS(mean) − SS(fit) En autres mots, si on enlève la variance

résiduelle du modèle de la variance totale au
𝑆𝑆(𝑚𝑒𝑎𝑛) début, nous pouvons quantifier combien de la
variabilité est expliqué par le modèle. R2.
Nourriture consommée
R2 = 1 = 100% de la variabilité expliquée.
Tests non-paramétriques
Ces tests sont très utiles, car ils n’ont pas d’assomptions vis-à-vis comment les données
sont distribuées. De plus ils sont bien adaptés à des petites tailles d’échantillons et
peuvent fonctionner avec des données ordinales (high-med-low; A-B-C).

Les maths sous-jacentes à ces statistiques sont aussi beaucoup plus simples à mon avis…

𝑛1 𝑛1 + 1
𝑈1 = 𝑛1 𝑛2 + − 𝑅1
2

Fondé sur les rangs des données et non les valeurs numériques elles-mêmes.
Tests non-paramétriques
Kruskal Wallis test

Pensez-y comme un ANOVA non-paramétrique. Toujours basé sur les rangs.

𝑐
12 𝑇𝑗2
𝐻= ෍ −3 𝑛+1
𝑛 𝑛+1 𝑛𝑗
𝑗=1

G1 = 23,41,54,66,78 = 2+4+9+12+15 = 44
G2 = 55,60,70,72,45 = T1 … Tn = 56
G3 = 20,30,40,44,34 = T1 … Tn = 20

12 442 562 202

𝐻= + + − 3 15 + 1
15 15 + 1 5 5 5
H = 6.72 (si plus grand que valeure critique Chi-carré, on peut rejeter H0)
Tests paramétriques
Ces tests ont habituellement plusieurs assomptions à satisfaire et qui peuvent être vérifiés
avec des tests exploratoires tels que le Shapiro-Wilks et Kolmogorov-Smirnov.

Ils sont dits ‘paramétriques’, car ils présument le respect de certains paramètres de la
distribution des données. Ces tests sont plus puissants que les stats non-paramétriques.

• Distributions normales
• Données continues (numériques)
• Aucun biais d’échantillonnage
• Homogénéité des variances
𝑥1 −𝑥2
𝑇=
𝑠2 2
1 + 𝑠2
𝑛1 𝑛2
F-test
Le F-test est le test utilisé lorsqu’on fait un ANOVA. Le F-statistic est un ratio calculé en
divisant la variance entre les moyennes de groupes (somme des carrés) par la variance à
l’intérieure des groupes (somme des carrés). Mêmes assomptions que T-test…

SS(Factor)/(k – 1)
𝐹=
𝑆𝑆(𝐸𝑟𝑟𝑜𝑟)/(𝑛 – 𝑘)

SS(Factor) SS(Error)
Modèles linéaires
Les paramètres 𝛽 ne sont jamais connus en réalité, ils ne sont 𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀
que estimés par la méthode moindres carrés. On nomme ces
መ
estimés 𝛽.

𝛽መ0 est toujours la moyenne des données lorsque x = 0 (origine pour des données
numériques continues). Le modèle ci-haut représente un modèle simple à une variable,
mais des modèles peuvent être plus complexe.

𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝛽2 𝑧 + 𝜀

Même principe, sauf faut maintenant estimer trois paramètres au lieu de deux. On
nomme ces modèles de régression des régressions multiples. Au lieu de modéliser une
droite le long de nos données, nous modélisons un objet de plus haute dimension.
Autres utilisations du F-test
F-test peut être utilisé pour calculer un ratio entre la variance
moyenne entre inter-groupes et intra-groupe pour un
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀
ANOVA, mais c’est aussi utile ailleurs.
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝛽2 𝑧 + 𝜀
SS(mean) − SS(fit)/(k−1)
𝐹=
𝑆𝑆(𝑓𝑖𝑡)/ (𝑛 − 𝑘)

Calcul du P-value pour un R2

SS(mean) − SS(fit)
R2 = 1 − 𝑆𝑆(𝑚𝑒𝑎𝑛)

SS(modèle 1) − SS(modèle 2)/(k2−k1) Comparaison de modèles

𝐹=
𝑆𝑆(𝑚𝑜𝑑è𝑙𝑒 2)/ (𝑛 − 𝑘2)

[Link]
[Link]
Modèles linéaires – Données continues
Exemple d’un modèle linéaire utilisant des variables numériques continues.
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀
Hypothèse: L’accumulation de mutations somatiques dans la drosophile est dépendante de la
température.
Hypothèse nul: le taux de mutation est semblable peu importe la température.

Mutations (104) Temp (°C)

0.8 16
0.9 18
1.1 20
1.0 22
1.9 24
1.7 26
2.3 28
Modèles linéaires – Données continues
Dans R on peut utiliser la formule lm(), ou <linear model>:

Call:
lm(formula = x ~ y)

Residuals:
1 2 3 4 5 6 7
0.153571 0.007143 -0.039286 -0.385714 0.267857 -0.178571 0.175000

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.32500 0.52459 -2.526 0.05280 .
y 0.12321 0.02346 5.252 0.00332 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2483 on 5 degrees of freedom

Multiple R-squared: 0.8466, Adjusted R-squared: 0.8159
F-statistic: 27.58 on 1 and 5 DF, p-value: 0.003321

plot(y~x)
abline(lm(y~x))
Modèles linéaires - ordinales
Que fait-on si nos variables sont ordinales ou catégoriques?
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀
Dans ce cas, on veux modéliser la différence entre les moyennes entre 2 groupes (équivalent
à un t-test). 𝛽0 = La moyenne du groupe contrôle 𝛽1 = la différence entre les moyennes de
groupe. X=0 lorsque la donnée appartient au groupe contrôle et X=1 au groupe traitement.
Dans ce cas epsilon = variabilité à l’intérieur d’un groupe.

En R, le modèle linéaire simple présenté içi

nous donnerais un p-value et un T statistic
equivalent à un T-test de student.

Cependant les modèles linéaires sont beaucoup

plus puissants, comme ils peuvent inclure
beaucoup de variables et être plus complexes.
Modèles linéaires - ordinales
Exemple GWAS
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀
Hypothèse: Une personne ayant un allèle mineure pour un génotype G est à plus haut risque
d’avoir du cholestérol sanguin élevée.
Hypothèse nul: le génotype G n’a pas d’effet.
Cholesterol Genotype
12 AA
15 AA
23 AA
11 Aa
10 Aa
20 Aa
45 aa
65 aa
36 aa
Modèles linéaires - ordinales
Exemple GWAS
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀
Call:
lm(formula = df$x ~ df$y)

Residuals:
Min 1Q Median 3Q Max
-16.333 -6.333 1.667 4.667 22.667

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5.667 11.963 -0.474 0.6501
df$y 16.000 5.538 2.889 0.0233 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 13.56 on 7 degrees of freedom

Multiple R-squared: 0.5439, Adjusted R-squared: 0.4788
F-statistic: 8.348 on 1 and 7 DF, p-value: 0.02334
Modèles linéaires - ordinales
Exemple GWAS
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀
Call:
lm(formula = df$x ~ df$y)

Residuals:
Min 1Q Median 3Q Max
-12.667 -4.167 -3.167 4.833 16.333

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 15.167 3.715 4.083 0.00467 **
df$yaa 33.500 6.434 5.207 0.00124 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 9.099 on 7 degrees of freedom

Multiple R-squared: 0.7948, Adjusted R-squared: 0.7655
F-statistic: 27.11 on 1 and 7 DF, p-value: 0.001244
GWAS
Très souvent utilisé pour identifier des variants génétiques associées à une maladie ou un
phénotype d’intérêt.
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀

En réalité on modélise la variable indépendante environ 30 milliards de fois, pour

pratiquement chacun des nucléotides du génome humain.

Les p-values sont ensuite corrigés et celles qui demeurent significatives seront retenues
comme des locus putatifs pour expliquer la maladie ou le phénotype.
Les tests multiples
Dans l’exemple précédent, j’ai mentionné la correction des p-values. Ce besoin découle du
fait que l’on fait un très grand nombre de tests… 𝛾1 = 𝛽0 + 𝛽1 𝑥1 + 𝜀
𝛾2 = 𝛽0 + 𝛽1 𝑥2 + 𝜀
𝛾3 = 𝛽0 + 𝛽1 𝑥3 + 𝜀
…
𝛾𝑛 = 𝛽0 + 𝛽1 𝑥𝑛 + 𝜀
Supposons un jeu de données tiré d’une seule population homogène, des souris ‘wild-type’

Souris ITGAM …T-test = P >> 0.05

1 22
2 18 95% du temps, P > 0.05.
3 12 …T-test = P >> 0.05 Mais à 5% faux-positif, si on
fait 1000 tests, c’est quand
4 0
même 50 résultats erronés
5 54
…T-test = P < 0.05
… …
n gn
Les tests multiples
Si on fait une simulation Monte-Carlo comme avant, on verra que les probabilités (p-values)
sont distribuées uniformément sous l’hypothèse nul. Et si nous avons réellement plusieurs
résultats intéressants, il y aura une plus grande proportion des p-values qui seront < α.

Données qui sont

intéressantes

Faux
positifs
Correction de p-values
Il y a deux méthodes principales utilisées pour les corrections de tests multiples en
génomique – La correction de bonferroni (très stricte) et la correction de Benjamini-
Hochberg (moins strict)

𝑚
𝐹𝑊𝐸𝑅 = 1 − 1 − 𝑝

Pour un seul test a α = 0.05, le FWER sera de 5%, donc on peut s’attendre à 5% de chance
d’avoir un faux positif.

Supposons un ANOVA: 4 groupes avec un omnibus p-value < 0.05.

Il nous faut un post-hoc test pour déterminer les différences, donc 6 tests au total. Quel est
le FWER pour 6 tests à α = 0.05?

𝐹𝑊𝐸𝑅 = 1 − 1 − 0.05 6 = 26.5%

Correction de p-values
La correction de bonferroni sur notre α sera de α/nombre de test.

𝐹𝑊𝐸𝑅 = 1 − 1 − 0.008 6 = 5%

Pour un six tests a α = 0.008, le FWER sera à nouveau de 5%.

Une autre façon simple d’ajuster les p-values originales pour garder le même seuil:

𝑃𝑎𝑑𝑗 = 𝑃 × 𝑛𝑡𝑒𝑠𝑡

Cette méthode est très bien adapté pour des expériences où on veut absolument éviter des
faux positifs à tout prix.
Correction Benjamini-Hochberg
La méthode Benjamini Hochberg ajuste nos p-values d’une façon à ce qu’on obtient
seulement 5% de faux positifs dans nos résultats finaux.

1. Ordonner nos p-values en allant du plus petit au plus grand.

2. On prend la plus petite valeur, soit:
𝑃𝑎𝑑𝑗 = 𝑃𝑖−1

𝑛𝑡𝑒𝑠𝑡𝑠
𝑃𝑎𝑑𝑗 = 𝑃𝑖 ×
𝑟𝑎𝑛𝑔𝑖

Les p-values ajustées doivent être croissantes (d’où la clause 𝑃𝑖−1)

Cette méthode est souvent utiliser en génomique, car elle représente un bon compromis
entre le contrôle d’erreur type I et type II. On peut souvent se permettre quelques faux
positifs.
Les tests multiples
0.42
0.025

Faux positifs

0.00 1.00

Faux positifs
FWER FDR
P-value T(Ag1, Bg1) = 0.423 1.000 0.423
P-value T(Ag2, Bg2) = 0.012 0.060 0.048
P-value T(Ag3, Bg3) = 0.019 0.095 0.048
P-value T(Ag4, Bg4) = 0.110 0.550 0.183
P-value T(Ag5, Bg5) = 0.273 1.000 0.341

P-value T(Agn, Bgn) = 0-1

Modèles linéaires généralisés
• Les Maths entourant les modèles linéaires sont bien développées, mais plusieurs types
de données que nous voulons modéliser ne sont pas des données linéaires continues

• Afin d’être en mesure d’utiliser les mêmes outils mathématiques pour analyser d’autres
types de données, nous devons ajuster / ajouter des paramètres ou bien modéliser une
transformation de ce qui nous intéresse.

• Pour des données continues linéaires nous utilisons des modèles linéaires, mais pour
des données binaires (Oui/Non), des données poisson (integers positifs), etc. nous
devons utiliser des modèles linéaires généralisées.
Modèles linéaires – régression logistique
Que fait-on si notre phénotype est binaire et non numérique?
𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀

Disease??

No Disease??
Modèles linéaires – régression logistique
Au lieu de modéliser notre issue clinique, nous allons modéliser la probabilité d’être dans l’un
des deux groupes (Atteint vs Aucune atteinte). On ne prédit pas une variable continue, mais
si quelque chose est vrai ou non. Comme c’est un MLG, on va tenter d’emprunter les maths
et les méthodes des régressions pour modéliser cette probabilité.

Pr(𝛾) = 𝛽0 + 𝛽1 𝑥

Dans une régression linéaire, la variable que

nous modélisons peut, en principe, être
Diabétique
n’importe quelle valeure ∈ {−∞, +∞}

Dans une régression logistique, ∈ {0,1}

N’est pas
diabétique

Poids
Modèles linéaires – régression logistique
Ce n’est pas très utile de générer une régression si on se limite à des valeurs entre 0 et 1.
Nous allons donc convertir notre probabilité en ‘Odds’. (les chances)

La chance est un ratio entre deux différents issues: (Succès / Échec)

La probabilité est un ratio entre un issue et toutes les possibilités: (Succès / Échec+Succès)

Odds(𝛾) = 𝛽0 + 𝛽1 𝑥
On peut calculer les chances à partir de la
probabilité.
Diabétique
𝑝
𝑂𝑑𝑑𝑠 =
1−𝑝

Un peu mieux, car maintenant les limites

de notre variable dépendante seront
N’est pas
0: ∞
diabétique
Toujours mêlant cependant, car 0:1 est
Poids
interprétée différemment que 1: ∞
Modèles linéaires – régression logistique
Afin de rendre notre modèle le plus près d’une régression linéaire possible et pour rendre
nos résultats plus interprétables, nous allons modéliser le logarithmes des chances. (log-
odds)

0 1

Pr(𝛾) = 𝛽0 + 𝛽1 𝑥

Beaucoup mieux, comme la régression, on

0 1 2
va de - ∞ à + ∞
𝑝(𝑦)
Odds 𝛾 =
1 − 𝑝(𝑦)
= 𝛽0 + 𝛽1 𝑥 Le signe négatif peut être interprété
comme une diminution des chances de
l’événement en question.
-2 -1 0 1 2

𝑝(𝑦) Le signe positif indique une augmentation

LogOdds 𝛾 = 𝑙𝑜𝑔 = 𝛽0 + 𝛽1 𝑥 des chances.
1 − 𝑝(𝑦)
Modèles linéaires – régression logistique
Comment estimer les paramètres pour une telle régression? Les Moindres Carrées ne
fonctionnent plus….
𝑝(𝑦)
LogOdds 𝛾 = 𝑙𝑜𝑔 = 𝛽0 + 𝛽1 𝑥
1 − 𝑝(𝑦)

On va utiliser le ‘maximum likelihood’

Likelihood =/= Probabilité.

Probabilité: a priori – étant donnée une certaine

distribution, la probabilité nous dit quelle est la
chance d’observer une certaine valeur (dans le futur)

Likelihood: a posteriori – étant donnée notre data,

quelle est le likelihood d’une certaine distribution.
Modèles linéaires – régression logistique
Supposons l’exemple le plus simple – un jeu de données ayant une distribution normale.

1 −1 𝑥−𝜇 2
L σ, μ x) = 𝑒2 𝜎
𝜎 2𝜋

Nous pouvons estimer la moyenne de la distribution en assumant l’écart-type et en essayant

plusieurs tentatives d’une façon itérative.

Maximum Likelihood
[Link]
[Link]
Modèles linéaires – régression logistique
Dans la littérature scientifique on voit souvent les Odds, Odds Ratios, Relative Risk, Hazard
Ratios.

• Odds ratio = Ratio entre les chances d’un événement entre deux groupes (case/control)
On peut illustrer avec une table 2x2

Cancer Aucun
Cancer
Génotype A 64 118
Génotype B 8 211

• Un Odds Ratio très élevé = grand effet, le génotype A explique bien notre issue clinique.

• Le test Fisher, le test Wald ou le test Khi-carré sont utilisés pour calculer un p-value pour
notre ratio.
Modèles linéaires Généralisés – Données
Poisson
Les utilisations les plus fréquentes des GLMs sont pour les données binaires (voir exemple
précédent; yes/no; malade/sain) ou bien les comptes (distribuées en poisson ou BN)

Distribution normale est une distribution de données continues, donc pour des données
poisson ou binaires, nous devons utiliser un modèle linéaire généralisé ayant des fonctions
ou des paramètres additionnels qui permettent de bien modéliser nos données en utilisant
les mèmes outils de régression.

En autres mots, faut modéliser quelque chose qui nous fait du sens.

Erreur résiduelle n’est vraiment pas

distribuée normalement, donc viole les
assomptions du modèle linéaire

Comment interpréter les valeurs

négatives??
Modèles linéaires Généralisés – Données
Poisson
Dans ce cas, une fonction qui nous permet de faire du sens avec nos données c’est le
logarithme. Comme le logarithme ne permet pas de valeurs négatives, ça élimine le problème
d’interprétabilité des valeurs prédites négatives.

𝑙𝑛 𝛾 = 𝛽0 + 𝛽1 𝑥

Pas de paramètre pour l’erreur résiduelle içi, car la variance = la moyenne pour des données
Poisson.

Comme avec le modèle logistique, les

paramètres seront estimés en utilisant
le ‘maximum likelihood’
Modèles linéaires Généralisés

Normale Binomiale Poisson

𝛾 = 𝛽0 + 𝛽1 𝑥 + 𝜀 LogOdds 𝛾 = 𝛽0 + 𝛽1 𝑥 𝑙𝑛 𝛾 = 𝛽0 + 𝛽1 𝑥

Vous aimerez peut-être aussi

20-Ellipses Statistiques Appliquees Avec R
100% (2)
20-Ellipses Statistiques Appliquees Avec R
254 pages
Modèles Linéaires Gaussiens S2 Master
Pas encore d'évaluation
Modèles Linéaires Gaussiens S2 Master
107 pages
Statistique Bivariée
Pas encore d'évaluation
Statistique Bivariée
9 pages
Seance 8
Pas encore d'évaluation
Seance 8
10 pages
Reg Lin
Pas encore d'évaluation
Reg Lin
51 pages
Serie5 - TP PS PDF
Pas encore d'évaluation
Serie5 - TP PS PDF
5 pages
Cours Tests
Pas encore d'évaluation
Cours Tests
8 pages
3 Tests Paramétriques 23 24
Pas encore d'évaluation
3 Tests Paramétriques 23 24
52 pages
These Ao
Pas encore d'évaluation
These Ao
36 pages
Tests Et Prévisions
Pas encore d'évaluation
Tests Et Prévisions
21 pages
Comparaison et Tests d'Échantillons Indépendants
Pas encore d'évaluation
Comparaison et Tests d'Échantillons Indépendants
7 pages
Corr TD2
Pas encore d'évaluation
Corr TD2
6 pages
Modélisation et Régression Avancées
Pas encore d'évaluation
Modélisation et Régression Avancées
43 pages
TestsStudent Sept2020
Pas encore d'évaluation
TestsStudent Sept2020
47 pages
Régression Linéaire
Pas encore d'évaluation
Régression Linéaire
20 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
83 pages
Poly
Pas encore d'évaluation
Poly
12 pages
Inférence Prevision
Pas encore d'évaluation
Inférence Prevision
45 pages
Statist Econom Trie AES 1997 Exo 1
Pas encore d'évaluation
Statist Econom Trie AES 1997 Exo 1
4 pages
Regression Multiple Annexes18-02-2007 PDF
Pas encore d'évaluation
Regression Multiple Annexes18-02-2007 PDF
83 pages
Variables Expliquées et Explicatives
Pas encore d'évaluation
Variables Expliquées et Explicatives
20 pages
Régression Linéaire: Concepts et Applications
Pas encore d'évaluation
Régression Linéaire: Concepts et Applications
21 pages
Test de Student et ANOVA en Statistiques
Pas encore d'évaluation
Test de Student et ANOVA en Statistiques
22 pages
CHAPITRE II MODELE DE REGRESSION LINEAIRE SIMPLE - Copie - Copie
Pas encore d'évaluation
CHAPITRE II MODELE DE REGRESSION LINEAIRE SIMPLE - Copie - Copie
26 pages
RévisionsTests Statistiques
Pas encore d'évaluation
RévisionsTests Statistiques
10 pages
Regression Linéaire Simple PDF
Pas encore d'évaluation
Regression Linéaire Simple PDF
7 pages
Régression Linéaire Simple: Concepts et Estimations
Pas encore d'évaluation
Régression Linéaire Simple: Concepts et Estimations
7 pages
Test Statistiques Avec R - 054837
Pas encore d'évaluation
Test Statistiques Avec R - 054837
76 pages
15 Synthèse
Pas encore d'évaluation
15 Synthèse
6 pages
Chap2 2024 2025
Pas encore d'évaluation
Chap2 2024 2025
14 pages
Modélisation Linéaire et ANOVA
Pas encore d'évaluation
Modélisation Linéaire et ANOVA
46 pages
TD1 Corr
Pas encore d'évaluation
TD1 Corr
15 pages
Introduction aux tests statistiques avec R
Pas encore d'évaluation
Introduction aux tests statistiques avec R
54 pages
Exercices de Statistiques Avancées
Pas encore d'évaluation
Exercices de Statistiques Avancées
8 pages
ANOVA et Comparaisons de Moyennes
Pas encore d'évaluation
ANOVA et Comparaisons de Moyennes
7 pages
Puissance Statistique et Tests d'Hypothèses
Pas encore d'évaluation
Puissance Statistique et Tests d'Hypothèses
13 pages
Econométrie L3 2023-24
Pas encore d'évaluation
Econométrie L3 2023-24
51 pages
CR19.INAT22.STATISTIQUE Partie 2
Pas encore d'évaluation
CR19.INAT22.STATISTIQUE Partie 2
86 pages
12 Anova
Pas encore d'évaluation
12 Anova
21 pages
Analyse de La Variance - Pour Fusion
Pas encore d'évaluation
Analyse de La Variance - Pour Fusion
16 pages
Cours Logiciel R
Pas encore d'évaluation
Cours Logiciel R
42 pages
Modèle de régression linéaire simple
Pas encore d'évaluation
Modèle de régression linéaire simple
11 pages
Formulaire
Pas encore d'évaluation
Formulaire
5 pages
Régression linéaire : influence des prédicteurs
Pas encore d'évaluation
Régression linéaire : influence des prédicteurs
26 pages
Test Stat
Pas encore d'évaluation
Test Stat
59 pages
Test D'hypothèse
Pas encore d'évaluation
Test D'hypothèse
85 pages
ANOVA: Comparaison de Moyennes Observées
Pas encore d'évaluation
ANOVA: Comparaison de Moyennes Observées
24 pages
Test de Randomisation
Pas encore d'évaluation
Test de Randomisation
17 pages
La Loi Normale
Pas encore d'évaluation
La Loi Normale
8 pages
Poly Stat Inf
Pas encore d'évaluation
Poly Stat Inf
69 pages
Cours Tests 2009
Pas encore d'évaluation
Cours Tests 2009
32 pages
TP1 StatDesc R
Pas encore d'évaluation
TP1 StatDesc R
4 pages
Statistislidesb
Pas encore d'évaluation
Statistislidesb
27 pages
Introduction à l'économétrie et variance
Pas encore d'évaluation
Introduction à l'économétrie et variance
19 pages
Économétrie et SAS : Cours M1 IES
Pas encore d'évaluation
Économétrie et SAS : Cours M1 IES
60 pages
Test d'hypothèse statistique
Pas encore d'évaluation
Test d'hypothèse statistique
54 pages
TD0 ThermoERSE 22-23
Pas encore d'évaluation
TD0 ThermoERSE 22-23
1 page
DTA Alizéa Luminéa 2023
Pas encore d'évaluation
DTA Alizéa Luminéa 2023
50 pages
TDR Formation Techniques de Mobilisation Des Ressources
Pas encore d'évaluation
TDR Formation Techniques de Mobilisation Des Ressources
6 pages
Corrélations-SPTvsPressio-Gonon&Vandangeon&Lafeuillade-RFG 1992 N 58
Pas encore d'évaluation
Corrélations-SPTvsPressio-Gonon&Vandangeon&Lafeuillade-RFG 1992 N 58
76 pages
Exercices Pour Le Cours Technique Et Auxiliaire en Logistique
Pas encore d'évaluation
Exercices Pour Le Cours Technique Et Auxiliaire en Logistique
15 pages
Visage Et Transcendance. Essai Sur L'altérité Comme Une Contrephénoménologie
Pas encore d'évaluation
Visage Et Transcendance. Essai Sur L'altérité Comme Une Contrephénoménologie
23 pages
COURS DE MANAGEMENT EN SOINS INFIRMIERS - Copie
100% (1)
COURS DE MANAGEMENT EN SOINS INFIRMIERS - Copie
79 pages
Gestion Des Conflits Organisationnels
Pas encore d'évaluation
Gestion Des Conflits Organisationnels
19 pages
Activité 1 Modélisation D'une Action Mécanique
Pas encore d'évaluation
Activité 1 Modélisation D'une Action Mécanique
7 pages
Chap3 2020
Pas encore d'évaluation
Chap3 2020
60 pages
CIV 5010156 Rapport de Cadrage Environnemental Et Social
Pas encore d'évaluation
CIV 5010156 Rapport de Cadrage Environnemental Et Social
59 pages
Contrôle Nterne - Defense - 08092012-1
Pas encore d'évaluation
Contrôle Nterne - Defense - 08092012-1
90 pages
Assainissement Pluvial à Natitingou
Pas encore d'évaluation
Assainissement Pluvial à Natitingou
118 pages
Lauréline Wiki
Pas encore d'évaluation
Lauréline Wiki
5 pages
Optimisation Non Linéaire
Pas encore d'évaluation
Optimisation Non Linéaire
156 pages
Approche Méthodologique - Ateliers Mashako - 3.0
100% (1)
Approche Méthodologique - Ateliers Mashako - 3.0
9 pages
Formation STRM
100% (1)
Formation STRM
1 page
TD de Ergonomie
Pas encore d'évaluation
TD de Ergonomie
5 pages
Exercices de fiabilité et durée de vie
Pas encore d'évaluation
Exercices de fiabilité et durée de vie
2 pages
Lev Vygotsky 1934 - Le Problème de L'âge
Pas encore d'évaluation
Lev Vygotsky 1934 - Le Problème de L'âge
22 pages
Union Boulonnée À Cisaillement-Torsion Et Flexion
Pas encore d'évaluation
Union Boulonnée À Cisaillement-Torsion Et Flexion
7 pages
Profil Étudiante Déterminée et Polyvalente
Pas encore d'évaluation
Profil Étudiante Déterminée et Polyvalente
1 page
Card
Pas encore d'évaluation
Card
2 pages
Incendie Centrale Adressable GMC+ Manuel D - Installation
Pas encore d'évaluation
Incendie Centrale Adressable GMC+ Manuel D - Installation
37 pages
Rncap13 S3 1 Conduits App
Pas encore d'évaluation
Rncap13 S3 1 Conduits App
15 pages
Travaux Dirigés N°1: Découverte Des Règles D'association
Pas encore d'évaluation
Travaux Dirigés N°1: Découverte Des Règles D'association
2 pages
Préfixes et suffixes grecs et latins
Pas encore d'évaluation
Préfixes et suffixes grecs et latins
25 pages
Comprendre la Justice avec Rawls
Pas encore d'évaluation
Comprendre la Justice avec Rawls
8 pages
NOTE DE CALCUL DALOT 1x80x80
Pas encore d'évaluation
NOTE DE CALCUL DALOT 1x80x80
14 pages
MGP M04
Pas encore d'évaluation
MGP M04
12 pages