0% ont trouvé ce document utile (0 vote)
75 vues25 pages

Moindres Carrés

La méthode des moindres carrés est utilisée pour ajuster une courbe à un ensemble de données. Elle minimise la somme des carrés des différences entre les valeurs observées et les valeurs prévues par la courbe. Cela implique de trouver la courbe continue au sein d'une famille de fonctions qui s'ajuste le mieux aux données. La méthode des moindres carrés moyens minimise l'erreur quadratique moyenne en utilisant la méthode du gradient descendant pour trouver la meilleure courbe d'ajustement.

Transféré par

ScribdTranslations
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
75 vues25 pages

Moindres Carrés

La méthode des moindres carrés est utilisée pour ajuster une courbe à un ensemble de données. Elle minimise la somme des carrés des différences entre les valeurs observées et les valeurs prévues par la courbe. Cela implique de trouver la courbe continue au sein d'une famille de fonctions qui s'ajuste le mieux aux données. La méthode des moindres carrés moyens minimise l'erreur quadratique moyenne en utilisant la méthode du gradient descendant pour trouver la meilleure courbe d'ajustement.

Transféré par

ScribdTranslations
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Moindres carrés

Le résultat de l'ajustement d'un ensemble de données à une fonction quadratique.

Les moindres carrés sont une technique deanalyse numérique enmarquée dans
laoptimisation mathématique, dans laquelle, étant donné un ensemble de paires ordonnées —variable
indépendante, variable dépendante— et une famille de fonctions, on essaie de trouver
lafonction continue, au sein de cette famille, qui se rapproche le mieux des données (une "meilleure
ajuste), conformément au critère de l'erreur quadratique minimale.
Dans sa forme la plus simple, essaieminimiserla somme des carrés des différences dans les
ordonnées(appeléesdéchets) entre les points générés par la fonction choisie et les
valeurs correspondantes dans les données. Spécifiquement, cela s'appellemoindres carrés
moyenne(LMS) lorsque le nombre de données mesurées est 1 et que la méthode dedescente
par gradientpour minimiser le résidu au carré. On peut démontrer que LMS minimise
le résidu carré attendu, avec un minimum d'opérations (par itération), mais nécessite
un grand nombre d'itérations pour converger.
D'un point de vue statistique, une condition implicite pour que la méthode fonctionne est que
Les moindres carrés signifient que les erreurs de chaque mesure soient distribuées de manière aléatoire.
Elthéorème de Gauss-Markovpreuve que les estimateurs des moindres carrés manquent de
biais et que l'échantillonnage des données ne doit pas s'ajuster, par exemple, à undistribution
normal. Il est également important que les données à traiter soient bien choisies, afin que
permettant la visibilité sur les variables qui doivent être résolues (pour donner plus de poids à une donnée
en particulier, voirmínimos cuadrados ponderados).
La technique des moindres carrés est couramment utilisée dans leajustement de courbesBeaucoup d'autres
les problèmes d'optimisation peuvent également s'exprimer sous forme de moindres carrés,
minimisant laénergieou en maximisant leentropie.
INTRODUCTION
Le présenttravailfait partie desobjectifset contenus deapprentissagede la
chaireSTATISTIQUE, qui vise à développer les compétences pour l'utilisation de
lesméthodeslinéaires et estimation des moindres carrés.
Pour atteindre cet objectif, une consultation a été réalisé[Link]ásique qui a permis
développer les concepts et les exemples, comme base pour réaliser uneexpositionadéquate en
la salle de classe.
Dans ce travail, il s'agit essentiellement de comment développer l'application des méthodes
linéaires et estimation par les moindres carrés, ainsi que l'inférence, la prédiction et
correlation.
Une série d'exemples a été développée pour tenter de présenter de manière plus
c'est simple d'utiliser ces méthodes.
L'équipe n° 4

Méthodes des moindres carrés.


Leprocédureplusobjectifpour ajuster une droite à un ensemble dedonnéesprésentés en
undiagrammede dispersion est connu sous le nom de "leméthodedes moindres carrés". La droite
la résultante présente deux caractéristiques importantes :
La somme des déviations verticales des points par rapport à la droite d'ajustement est nulle.
∑ (Y - Y) = 0.
2. La somme des carrés de ces écarts est minimale. Aucune autre droite ne donnerait
une somme moindre des écarts élevés au carré ∑ (Y - Y)² → 0
(minimale).
La procédure consiste alors à minimiser les résidus au carré Ci²
En remplaçant, il nous reste

L'acquisition deles valeursde a et b qui minimisent cecifonctionc'est un problème qui se


peut résoudre en recourant à la dérivation partielle de la fonction en termes de a et b :
appelons G la fonction qui va être minimisée :

Prenons lesdérivéesparciales de G par rapport à a et b qui sont les inconnues et les


nous égalons à zéro ; de cette façon, nous obtenons deuxéquationsappelées équations normales
delmodèlequi peuvent être résolues par n'importe quelle méthode, que ce soit par égalisation oumatricespour
obtenir lesvaleursde a et b.

Nous dérivons partiellement l'équation par rapport à a


Première équation normale

Nous dérivons partiellement l'équation par rapport à b

Deuxième équation normale

Les valeurs de a et b sont obtenues en résolvant lesystèmede l'équation résultante. Voyons le


exemple suivant :
Dans une étude économique, on souhaite connaître la relation entre le niveau d'instruction de la
personnes et le revenu.
EXEMPLE 1
On prend uneéchantillonaléatoire de 8 villes d'une région géographique de 13 départements
et il est déterminé par les données du recensement le pourcentage de diplômés enéducationsupérieur y
la médiane des revenus de chaque ville, les résultats sont les suivants :
12345678
% de (X)
Graduados : 7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2
Entrée (Y)
4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 (0000)

Nous avons les équations normales

∑y = na + b∑x
∑xy = a∑x + b∑x²

Nous devons trouver les termes des équations


∑y, ∑x, ∑xy, ∑ x² Par conséquent, nous procédons de la manière suivante :
Y X XY X²
4.2 7.2 30.24 51.84
4.9 6.7 32.83 44.89
7.0 17.0
6.2 12.5 77.50 156.25
3.8 6,3 23,94 39,69
7,6 23.9 181.64 571.21
4.4 6.0 26.40 36.00
5.4 10.2 55.08 104.04
43.5 89.8 546.63 1292.92

En remplaçant dans les équations les résultats obtenus, nous avons : 43,50 = 8a + 89,8b
546,63 = 89,8a + 1292,92b
nous multiplions la première équation par (-89,8) et la deuxième par (8) comme ceci :
43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8)
-3906.30 = -718.4a - 8064.04b 4373.04 = 718.4a + 10343.36b
466.74 = -0- 2279.32b

Cevaleurnous remplaçons b dans n'importe quelle des équations pour obtenir a ainsi :

Remplaçant b = 0,20477 dans la première équation normale

43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 - 18.3880 = 8a 25.1120 = 8a

Nous avons donc que les coefficients de régression sont : a = 3.139 et b = 0.20477. Par
la équation de régression nous donne :

Cela signifie donc que pour chaque augmentation d'une unité dans X, la valeur de se augmente de
0,20477
Cette équation permet d'estimer la valeur de pour n'importe quelle valeur de X, par exemple : Une
ville qui a un pourcentage de diplômés de l'enseignement supérieur de 28 % la médiane de revenu
pour la ville ce sera :
Les valeurs a et b peuvent également être obtenues de la manière suivante : en partant des
nous avons des équations normales :

Si nous divisons tous les termes de l'équation (1) par n, il nous reste :

Nous avons donc que le premier terme est le deuxième terme est l'inconnue à et le
le troisième terme est l'inconnue b multipliée par il nous reste donc :

alors

En remplaçant a dans l'équation (2) nous avons


a = 5,4375 – 0,20477 (11,2250) = 5,4375 – 2,2985 = 3,139
Il faut tenir compte de la différence entre la valeur obtenue avec l'équation de
régression et la valeur de Y observée. Tandis que c'est une estimation et sa qualité dans la
l'estimation dépend de la proximité de la relation entre les deuxvariablesque se
étudient ; Et c'est la valeur effective, véritable obtenue parobservationsupprimer
investigateur. Dans l'exemple Y c'est la valeur médiane du revenu que l'investigateur a obtenu

utilisant tous lesrevenusobservés dans chaque ville et c'est la valeur estimée sur la base
dans le modèle linéaire utilisé pour obtenir l'équation de régression
Les valeurs estimées et observées peuvent ne pas être identiques, par exemple la première ville
il a un revenu médian observé de Y = 4.2 en remplaçant dans l'équation le pourcentage
de diplômés nous obtenons une estimation de

Graphiquement, ce qui précède peut être montré comme suit :

Il est clairement visible sur le graphique qu'il y a une différence entre la valeur effective de Y y.
la valeur estimée ; cette différence est connue sous le nom d'erreur d'estimation, cette erreur peut être
mesurer. Ci-après, le processus sera présenté.
Erreur standard dans l'estimation
L'erreur standard de l'estimation désignée par sYX mesure la disparité "moyenne" entre
les valeurs observées et les valeurs estimées de. La formule suivante est utilisée.

Nous devons donc calculer les valeurs de pour chaque ville en substituant dans l'équation
les valeurs des pourcentages de diplômés de chaque ville étudiée.

Y X

4.2 7,2 4.6 -0.4 0,16


4.9 6,7 4,5 0,4 0,16
7.0 17,0 6,6 0,4 0,16
6.2 12,5 5,7 0,5 0,25
3.8 6.3 4.4 -0,6 0,36
7.6 23,9 8,0 -0,4 0,16
4.4 6.0 4.4 0,0 0,00
5.4 10,2 5,2 0,2 0,04
1,29

Syx = 0,46 (dizaines de milliers $)

Comme cette mesure vise à résumer l'écart entre ce qui est observé et ce qui est estimé, c'est-à-dire,
essaye de mesurer la différence moyenne entre ce qui est observé et ce qui est estimé ou attendu de
Selon le modèle, il peut être considéré comme un indicateur du degré de précision avec lequel la
L'équation de régression décrit la relation entre les deux variables. Cette erreur standard se voit
affecté par les unités et leurs changements puisque c'est une mesure absolue, car elle se donne dans la
même unité de mesure que celle donnée par la variable Y ; dans l'exemple 0,46 ce sera des dizaines de
miles de pesos, raison pour laquelle il n'est pas possible de comparer avec les relations de variables
données dans une unité de mesure différente. Il est donc nécessaire de calculer une mesure qui
interpréte ou mesure mieux le degré de relation entre les variables.

Coeficient de détermination.
Lechangementde la variable Y dépend généralement de nombreux facteurs, parfois,
difficiles à identifier ; avec le modèle linéaire simple, nous n'en avons qu'un à l'esprit. Par
exemple, dans notre cas, la médiane du revenu dépend non seulement du pourcentage de
les diplômés au niveau supérieur, c'est-à-dire, le facteur que nous avons en tête, peuvent entrer en jeu
facteurs tels que, ladistributionde l'âge dans lapopulation, la distribution parsexeen la
population, l'industrialisation de la ville, le nombre d'universités et bien d'autres.
Le coefficient de détermination mesure ou interprète la quantité relative de la variation qui a
est expliquée par la droite de régression, c'est-à-dire la proportion de changement dans Y expliquée
par un changement dans la variable X ( X est le facteur qui est utilisé pour calculer la droite d'ajustement
ou équation de régression, dans l'exemple c'est le pourcentage de diplômés au niveau supérieur en
chaque ville).
Pour l'exemple, le coefficient de détermination va mesurer la proportion du changement dans le
revenu moyen de chaque ville, dû ou expliqué par un changement dans le pourcentage de
diplômés de l'enseignement supérieur.
Examinons certains composants de la variabilité dans leanalysede régression :

La différence entre chaque valeur de Y-observé et la moyenne se désigne variation de Y.

La différence entre estimé et média, c'est la variation prise en compte par la


éq uation de régression, raison pour laquelle on l'appelle variation expliquée de Y.

La différence entre Y-observé et estimé, ce sont des variations considérées comme dues à
facteurs différents de ceux pris en compte par l'équation de régression, c'est pourquoi on l'appelle :
variabilité non expliquée de Y.

La différence entre Y-observé et estimé est due à des variations considérées comme étant attribuées à
facteurs différents de ceux pris en compte par l'équation de régression, c'est pourquoi on l'appelle :
variabilité inexpliquée de Y.
La somme des différences dans chacune des formes de variation peut être
représenter ainsi :

Graphiquement, cette relation peut être représentée ainsi :

Il a été dit précédemment que le coefficient de détermination est la proportion de changement


expliqué en Y, par changement en X, c'est-à-dire la proportion qui représente la variation
expliquée de la variation totale. N'oubliez pas qu'une proportion est la relation d'une partie avec le
total, par conséquent, le coefficient de détermination sera :

En d'autres termes, le coefficient de détermination est la relation entre la variation expliquée.


et la variation totale. Sa valeur sera toujours
Pour son calcul, on procède ainsi :

4,2 5,44 -1,24 1,54 4,6 -0,4 0,16


4.9 5,44 -1,24 0,29 4.5 -0.84 0.88 0,4 0,16
7.0 5,44 1.56 2,43 6,6 1,16 1.35 0,4 0,16
6.2 5,44 0,76 0,58 5.7 0.26 0,07 0,5 0,25
3.8 5,44 1,64 2,69 4,4 -1,04 1,08 -0,6 0,36
7,6 5,44 2.16 4,66 8,0 2,56 6,55 -0,4 0,16
4.4 5,44 1,04 1.08 4.4 -1.04 1.08 0.0 0,00
5.4 5,44 0,4 0,001 5,2 -0,24 0,06 0,2 0,04
43.5 13.271 11,78 1,29

Généralement, cette proportion s'exprime en pourcentage, donc nous pouvons dire que

r² = 88,76%

En conclusion, nous pouvons dire que 88,76 % de la variation du revenu médian des
Les villes de l'échantillon sont liées ou expliquées par la variation du pourcentage de
diplômés enenseignement supérieurdans chaque ville.

Coefficient de corrélation
Ce coefficient, comme déjà mentionné, mesureforcede la relation entre les variables. Le
le coefficient a le signe de b et sa valeur sera Le signe moins dans le
Un indice signifie une relation négative et un signe plus une corrélation positive. Le
le coefficient est obtenu en prenant la racine carrée du coefficient de détermination et se
simbolise par 'r'.
Dans ce cas, le coefficient r a une valeur positive car il prend la valeur de b obtenue avec les
Les équations normales prennent une valeur positive.
Voici, à titre d'orientation, comment les valeurs de r pourraient être interprétées.
(positif ou négatif)

0.0 0,2 Corrélation très faible, négligeable


0,2 0,4 Corrélation faible. bas
0,4 un 0.7 Corrélation modérée
0,7 0,9 Corrélation forte, élevée, importante
0,9 a 1.0 Corrélation très forte, très élevée

La corrélation entre les valeurs de deux variables est un fait. Que nous le considérions
satisfaisant ou non, cela dépend de lainterprétation. Un autre problème que représente la corrélation
c'est quand on se demande si une variable cause ou détermine d'une certaine manière l'autre.
la corrélation n'implique pas la causalité. Si les variables X et Y sont corrélées, cela peut
est de savoir si X cause Y, ou si Y cause X, ou si une autre variable affecte à la fois
X comme Y, ou pour une combinaison de toutes ces raisons ; ou il se peut que la relation soit
une coïncidence.

Modèle de régression linéaire utilisant des matrices.


En ajustant un modèle derégression linéaire multiple, en particulier lorsque le nombre de
variables passe de deux, leconnaissancede lathéoriematriciel peut faciliter les
manipulationsmathématiquesde manière considérable. Supposons que l'expérimentateur ait k
variables indépendantes x1, x2,....,xk, y n observations y1, y2,...., yn, chacune des
quelles peuvent s'exprimer par l'équation
yi = b0 + b1x1i + b2x2i + … + bkxki + ei
Ce modèle représente essentiellement n équations qui décrivent comment les valeurs sont générées
de réponse en leprocessusscientifique. Avec l'utilisation de la notation matricielle, nous pouvons écrire
l'équation
y=Xb + e

Alors la solution des moindres carrés pour l'estimation de b qui est illustrée dans la
section Estimation des coefficients, "Régression linéaire multiple" implique de trouver b pour le
que
SSE = (y - Xb)'(y - Xb)
se minimise. Ce processus de minimisation implique de résoudre pour b dans l'équation

Nous ne présenterons pas les détails concernant lessolutionsdes équations précédentes.


Le résultat se réduit à la solution de b en
(X'X)b = X'y

N'hésitez pas ànaturede


lamatriceX. À part l'élément initial, la i-ème ligne
Représente les valeurs x qui donnent lieu à la réponse yi. En écrivant

y
les équations normales peuvent être écrites sous forme matricielle
AB=g
Si la matrice A est non singulière, nous pouvons écrire la solution pour le coefficient de régression.
comme
b = A-1g =(X’X)-1X’y
De cette manière, on peut obtenir l'équation de prédiction ou l'équation de régression à
résoudre un ensemble de k + 1 équations avec un nombre égal d'inconnues. Cela implique
lainvestissementde la matrice X'X de k + 1 par k + 1. Lestechniquespour inverser cette matrice, il faut
expliquent dans la plupart deslivresdetextesur les déterminants et les matrices élémentaires.
Pour supposé se dispose de beaucoup paquets deordinateurde
hauteurvitesseparaproblèmesde régression multiple, des paquets qui n'impriment pas seulement
estimations des coefficients de régression, mais fournissent également
autreinformationpertinente pour faire des inférences concernant l'équation de régression.
Exemple 1
On a mesuré le pourcentage de survie d'un certain type de sperme animal, après
delstockage, dans plusieurs combinaisons de concentrations de troismatériauxque se
ils utilisent pour augmenter leur chance de survie. Les données sont les suivantes :

y(% de survie)
25,5 1,74 5,30 10,80

31,2 6,32 5,42 9,40


25,9 6,22 8,41 7,20
38,4 10,52 4,63 8,50
18,4 1,19 11,60 9,40

26,7 1,22 5,85 9,90


26,4 4,10 6,62 8
25,9 6,32 8,72 9,10
32 4,08 4,42 8,70
25,2 4,15 7,60 9,20

39,7 10,15 4,83 9,40


35,7 1,72 3,12 7,60
26,5 1,70 5,30 8,20

Estime le modèle de régression linéaire multiple pour les données fournies.


SOLUTION :
Les équations d'estimation des moindres carrés, (X'X)b = X'y, sont

=
Des résultats d'un ordinateur, nous obtenons les éléments de la matrice inverse
et ensuite, en utilisant la relation b = (X’X)-1 X’y, les coefficients estimés de
régression sont
39,1574
De ici notre équation de régression estimée est

Pour le cas d'une seule variable indépendante, le degré du polynôme de meilleur ajustement à
il est possible de déterminer en traçant un diagramme de dispersion des données qui se
ils obtiennent d'une expérience qui donne n paires d'observations de la forme {(xi, yi); i = 1,
2, .... n}.

=
En résolvant ces r + 1 équations, nous obtenons les estimations b0, b1,....., br et par conséquent
nous générons l'équation de prédiction de régression polynomiale

La procédure pour ajuster un modèle de régression polynomiale peut être généralisée à


cas de plusieurs variables indépendantes. En fait, l'étudiant en analyse de régression
à ce stade, il doit avoir la facilité d'ajuster n'importe quel modèle linéaire en, disons, k
variables indépendantes. Supposons, par exemple, que nous avons une réponse Y avec k = 2
variables indépendantes et un modèle quadratique du type
yi = b 0 + b 1x1i + b 2x2i + b 11x21i + b 22x22i + b 12x1i x2i + e I
où yi, i = 1, 2, ..., n, est la réponse pour la combinaison (x1i, x2i) des variables
indépendants dans l'expérience. Dans cette situation, n doit être d'au moins 6, car il y en a six
paramètres à estimer par la méthode des moindres carrés.
De plus, comme le modèle contient des termes quadratiques dans les deux variables, il faut utiliser
au moins trois niveaux de chaque variable. Le lecteur doit vérifier facilement que les
Les équations normales des moindres carrés (X'X)b = X'y sont données par :

Exemple 2
Les données suivantes représentent le pourcentage d'impuretés qui se produisent à plusieurs
températures et temps de stérilisation pendant une réaction associée à la fabrication
d'une certaine boisson.

Temps de stérilisation, x2 (min)


75 100 125

15 14,05 10.55 7.55

14,93 9.48 6,59

20 16,56 13,63 9.23


15,85 11,75 8,78

25 22.41 18.55 15,93

21,66 17,98 16,44

Estimer les coefficients de régression dans le modèle


m Y|x = b 0 + b 1 x1 + b 2 x2 + b 11 x12 + b 22 x22 + …….. + b 12 x1 x2
SOLUCIÓN:
56,4668 0,00081
b1 = -0,36235 0,08171
b2 = -2,75299 0,00314

et notre équation de régression estimée est

Beaucoup desprincipesyprocéduresassociés à l'estimation defonctionsde


la régression polynomiale tombe dans la catégorie de laméthodologiede réponse superficielle, un
ensemble de techniques que les scientifiques et les ingénieurs ont utilisées avec assezsuccèsen
beaucoup de champs. Des problèmes comme lasélectionde undesignexpérimental approprié, en
particulièrement pour les cas où il y a un grand nombre de variables dans le modèle, et le choix
des conditions "optimales" d'opération sur x1, x2, ..., xk se rapprochent souvent de
à travers l'utilisation de ces méthodes. Pour une exposition plus large, le lecteur est renvoyé à
Méthodologie de surface de réponse : optimisation des processus et des produits à l'aide de conceptions
Expériences de Myers et Montgomery.
Régression linéaire multiple.
Dans la plupart des problèmes derechercheoù s'applique l'analyse de régression
Il faut plus d'une variable indépendante dans le modèle de régression. La complexité
de la plupart des mécanismes scientifiques est tel que pour être capables de prédire une
réponse importante, un modèle de régression multiple est nécessaire. Lorsque ce modèle est
lineaire dans les coefficients est appelé modèle de régression linéaire multiple. Pour le cas de k
les variables indépendantes X1, X2,....,Xk, la moyenne de Y| X1, X2,....,XK est donnée par le
modèle de régression linéaire multiple
m Y|x1, x2 ,………, xk = b 0 + b 1 x1 +……..+ b k xk

et la réponse estimée est obtenue à partir de l'équation de régression de l'échantillon

où chaque coefficient de régression b i est estimé par bi des données de l'échantillon avec le
utilisation de la méthode des moindres carrés. Comme dans le cas d'une seule variable indépendante,
le modèle de régression linéaire multiple peut souvent être une représentation adéquate de
unestructureplus compliquée dans certaines plages des variables indépendantes.
Des techniques de moindres carrés similaires peuvent également être appliquées pour estimer les
coefficients lorsque le modèle linéaire implique, disons, des puissances etproduitsdes
variables indépendantes. Par exemple, quand k = 1, l'expérimentateur peut penser que
les moyennes m Y|x1 ne tombent pas en ligne droite mais sont décrites de manière plus appropriée
avec le modèle de régression polynomiale

m Y|x = b 0 + b 1 x + b 2 x2 + …….. + b r xr

et la réponse estimée est obtenue à partir de l'équation de régression polynomiale

En parfois surgit de la confusion lorsque nous parlons d'un modèle polynomial comme d'un
modèle linéaire. Cependant, les statisticiens font généralement référence à un modèle linéaire
comme un dans lequel les paramètres se produisent linéairement, peu importe comment ils entrent les
variables indépendantes au modèle. Un exemple d'un modèle non linéaire est la relation
exponentiel
m Y|x = a b x,
que l'on estime avec l'équation de régression

Il existe de nombreux phénomènes dansla


science et dans laingénieriequ'ils ne sont pas inhérents
linéaires par nature et, lorsqu'on connaît la structure réelle, il faut bien sûr faire un
tentative pour ajuster le modèle actuel. Lelittératuresur l'estimation par moindres carrés
carrés demodèlesnon linéaires est volumineux. L'étudiant qui veut une bonne
explication de certains aspects de ce sujet doit consulter Classique et Moderne
Régression avec applications de Myers.

Estimation des coefficients.


Dans cette section, nous obtenons les estimateurs des moindres carrés des paramètres b 0 + b
0, b 1,...., b k par l'ajustement du modèle de régression linéaire multiple

m Y|x1 , x2,......, xk = b 0 + b 1x1 + b 2x2 + b kxk


aux points de données
i= 1,2,...,n et n >k }
où yi est la réponse observée pour les valeurs x1i, x2i, ..., xki, des k variables
indépendants x1, x2,......, xk. Chaque observation (x1i, x2i,......,xki, yi) satisfait la
équation

yi = b 0 + b 1x1i + b 2x2i + ... + b kxki + e i


o
yi = b0 + b1x1i + b2x2i + …. + bkxki + ei
donde e i y ei sont l'erreur aléatoire et résiduelle, respectivement, associées à la réponse
yi. En utilisant leconceptde moindres carrés pour obtenir les estimations b0, b1,...
bk, nous minimisons l'expression

En différenciant SSE par rapport à b0, b1, b2, ......, bk, et en égalisant à zéro, nous générons un
ensemble de k + 1 équations normales
Ces équations peuvent être résolues pour b0, b1, b2, ..., bk par n'importe quelle méthode.
approprié pour résoudresystèmesd'équations linéaires.
Exemple 1
Une étude a été réalisée sur un camion de livraison léger à diesel pour voir si la
humiditétempératuredelairypressionbarométrique influencent l'émission d'oxyde
nitroso (en ppm). Les mesures des émissions ont été prises à différents moments, avec
conditions expérimentales variantes. Les données sont les suivantes :

Oxyde Pression Oxyde


nitroso, x1 x2 x3 nitroso x1 x2 x3
y y
0,90 72,4 76,3 29,18 1,07 23,2 76,8 29,38
0,91 41,6 70,3 29,35 0,94 47,4 86,6 29,35
0,96 34,3 77,1 29,24 1,10 31,5 76,9 29,63
0,89 35,1 68,0 29,27 1,10 10,6 86,3 29,56
1,00 10,7 79,0 29,78 1,10 11,2 86,0 29,48
1,10 12,9 67,4 29,39 0,91 73,3 76,3 29,40
1,15 8,3 66,8 29,69 0,87 75,4 77,9 29,28
1,03 20,1 76,9 29,48 0,78 96,6 78,7 29,29
0,77 72,2 77,7 29,09 0,82 107,4 86,8 29,03
1,07 24,0 67,7 29,60 0,95 54,9 70,9 29,37

Le modèle est :
m Y|x1, x2, x3 = b 0 + b 1 x1 + b 2 x2 +……..+ b 3 x3
Ajustez ce modèle de régression linéaire multiple aux données fournies et ensuite estimez la
quantité de protoxyde d'azote pour les conditions où l'humidité est de 50 %, la température
76°F

SOLUTION
Pour les équations normales, nous avons trouvé que

La solution de cet ensemble d'équations donne les estimations uniques


-3.507778
Par conséquent, l'équation de régression est

Pour 50 % d'humidité, une température de 76 °F et une pression barométrique de 29,30,


quantité estimée d'oxyde nitreux est
Régression polynomiale.
Supposons maintenant que nous souhaitons ajuster l'équation polynomiale
m Y|x = b 0 + b 1 x + b 2 x2 + …….. + b r xr
aux n paires d'observations {(xi, yi); i = 1,2,..., n}. Chaque observation, yi satisfait
équation
yi = b 0 + b 1xi + b 2xi2 + …….. + b r xi2 + e i
o
yi = b0 + b1xi + b2xi2 + …….. + br xir + ei
où r est le degré du polynôme, et e i, et ei sont de nouveau l'erreur aléatoire et résiduelle
associés à la réponse yi. Ici, le nombre de paires, n, doit être au moins aussi grand
comme r + 1, le nombre de paramètres à estimer. Notez que le modèle polynomial peut être
considérer comme un cas particulier du modèle de régression linéaire multiple plus général,
où nous faisons x1 = x, x2 = x2, ..., xr. = xr. Les équations normales prennent la forme :

que se résout comme auparavant pour b0, b1,.........., br

Exemple 2 Donnés les données


x 0 1 2 3 4 5 6 7 8 9
y 9,1 7,3 3,2 4,6 4,8 2,9 5,7 7,1 8,8 10,2
Ajuster une courbe de régression de la forme
m Y|x = b 0 + b 1 x + b 2 x2 et ensuite estimez m Y|x

SOLUCIÓN:

À partir des données fournies, nous trouvons que

En résolvant les équations normales, nous obtenons


8,697
Par conséquent :
Inférences dans la régression linéaire multiple.
Une des inférences les plus utiles qui peuvent être faites concernant lequalitéde la
la réponse prédite y0 qui correspond aux valeurs x10, x20,...., xk0, est l'intervalle de
confiance sur la réponse moyenne m | x10, x20,...., xk0 . Nous souhaitons construire un
intervalle de confiance sur la réponse moyenne pour l'ensemble des conditions données par
X’0 = [x10, x20,...., xk0]
Nous avons augmenté les conditions sur les x par le nombre 1 afin de faciliter l'utilisation de la
notación matricial. Como en el caso k = 1 si hacemos la suposición adicional de que los
les erreurs sont indépendantes et se distribuent de manière normale, alors les Bj sont normales,
avec moyennes, variances et covariances.

est également normalement distribué et est en fait un estimateur sans biais pour le
réponse moyenne sur laquelle nous essayons de joindre les intervalles de confiance. La variance de
écrite en notation matricielle simplement comme fonction de (X'X)1, et le vecteur de
condition x’0, est

Si cette expression est développée pour un cas donné, disons k = 2, il est facilement visible que
explique de manière appropriée les variances et covariances des Bi. Après
remplacer par s2, l'intervalle de confiance de 100(1 — α)% sur m | x10, x20,...., xk0
On peut construire à partir de la statistique :

qui a une distribution t avec n - k - 1 degrés deliberté.

Intervalle d'un intervalle de confiance de (1 — α)100% pour la réponse moyenne m | x10,


confiance x20,...., xk0 es
pour :
m | x10,
x20,...., xk0

d'où ta /2 est une valeur de la distribution t avec n-k degrés de liberté.

La quantité on l'appelle souvent erreur standard de prédiction et en général


apparaît sur l'imprimé de nombreux paquets de régression pour ordinateur.

Exemple 1
Avec l'utilisation des données de l'exemple 1 correspondant au "Modèle de régression linéaire avec le
utilisation des matrices", construisez un intervalle de confiance de 95% pour la réponse moyenne
quand x1 = 3%, x2 = 8%, et x3 = 9%.
SOLUTION
De l'équation de régression de l'exemple 1 correspondant au 'Modèle de régression linéaire'
con el uso de matrices", el porcentaje estimado de sobrevivencia cuando x1 = 3%, x2 = 8%,
y x3 = 9% es

A la suite, nous trouvons que :

Avec l'utilisation du carré moyen de l'erreur, s2 = 4.298 ou s = 2.073, et du tableau A.4, nous voyons
que t0.025 = 2.262 pour 9 degrés de liberté. Par conséquent, un intervalle de confiance de 95%
pour le pourcentage moyen de survie pour x1 = 3 %, x2 = 8 %, et x3 = 9 % est donné par

ou simplement
.
Comme dans le cas de la régression linéaire simple, nous devons faireune distinction claire entre
l'intervalle de confiance de la réponse moyenne et l'intervalle de prédiction sur une
réponse observée. Ce dernier fournit une limite dans laquelle nous pouvons dire avec
un degré de certitude préétabli selon lequel une nouvelle réponse observée tombera.
Un intervalle de prédiction pour une seule réponse prognostiquée se rétablit de nouveau au
considérer les différences de la variable aléatoire .
On peut montrer que la distribution d'échantillonnage est normale avec une moyenne

et variance

De cette manière, l'intervalle de prédiction de (1 — α)100% pour une seule valeur de prédiction
y0 peut être construit à partir de la statistique

qui a une distribution t avec n - k - 1 degrés de liberté.

Intervalle Un intervalle de prévision de (1-α)100% pour une seule réponse y0 est


prédiction donné par :
pour y0
où tα/2 est une valeur de la distribution t avec n – k – 1 degrés de liberté.

Exemple 2
Avec l'utilisation des données de l'exemple 1 correspondant au sujet 'Modèle de régression'
ligneaire avec l'utilisation de matrices" construisez un intervalle de prédiction de 95% pour un
réponse individuelle du pourcentage de survie lorsque x1 = 3%, x2 = 8%, et x3 = 9%.
SOLUTION :
En référence aux résultats de l'exemple 1 de cette section, nous constatons que l'intervalle
de prédiction de 95 % pour la réponse y0 lorsque x1 = 3 %, x2 = 8 %, et x3 = 9 % est

que se réduit à . Notez, comme prévu, que l'intervalle de


la prédiction est considérablement moins étroite que l'intervalle de confiance pour le
pourcentage de survie moyen dans l'exemple 1.
Une connaissance des distributions des estimateurs des coefficients individuels
permet à l'expérimentateur de construire des intervalles de confiance pour les coefficients et
essayerhypothèseà leur sujet.
De cette manière, nous pouvons utiliser la statistique

avec n — k — 1 degrés de liberté pour tester les hypothèsesthèseet construire des intervalles de
confiance sur βj. Par exemple, si nous souhaitons tester :

nous calculons la statistique :

et nous ne rejetons pas H0 si où il a n - k - 1 degrés de liberté.


Exemple 3
Pour le modèle de l'exemple 1 correspondant au "Modèle de régression linéaire avec l'utilisation de"
matrices", testez l'hypothèse que β2 = -2,5 au niveau de signification 0.05 contre la
alternative de que β2 > -2,5.
SOLUTION
Calculs :

Décision : rejeter H0 et conclure que β2 > -2,5


PRÉDICTION.
Il existe plusieurs raisons de construire une régression linéaire. L'une d'elles, bien sûr, est de prédire.
valeurs de réponse à une ou plusieurs valeurs de la variable indépendante. Dans cet extrait, nous
nous nous concentrons sur les erreurs associées à la prédiction.
L'équation ŷ= a +bx peut être utilisée pour prédire ou estimer la réponse moyenne µy‫ן‬x‫ ס‬en x =
xo n'est pas nécessairement l'une des valeurs prédéfinies, ou peut être utilisé pour
prédire une seule valeur de la variable Yo lorsque x = xo. Nous nous attendrions à ce que l'erreur de
la prédiction serait plus élevée dans le cas d'une seule valeur prédite dans le cas où il est prédit
une moyenne. Cela, donc, affectera la largeur de nos intervalles pour les valeurs qui se
prédisez.
Supposez que l'expérimentateur souhaite construire un intervalle de confiance pour µy‫ן‬x‫ס‬.
Nous utiliserons l estimateur ponctuel Ŷo = A + Bxo pour estimer µy‫ן‬x‫ס‬. = a + b c ou cela peut
montrer que la distribution d'échantillonnage de Ŷo est normale avec une moyenne :

Y variance :
La dernière découle du fait que Cov(Ŷ, B) = 0. De cette manière, l'intervalle de confiance de
(1 - a )100% sur la réponse moyenne µy‫ן‬x‫ס‬On peut construire à partir de la statistique :

Qui a une distribution t avec n - 2 degrés de liberté

Intervalle de confiance pour µy‫ן‬x‫ס‬.:

CORRÉLATION.
Jusqu'à présent, nous avons supposé que la variable de régression indépendante x est une
variablephysiqueo scientifique mais pas une variable aléatoire. En fait, dans ce contexte, x à
menudo s'appelle variablemathématiques, que, dans le processus deéchantillonnage, se mesure avec une erreur
insignifiant. Dans de nombreuses applications des techniques de régression, il est plus réaliste de supposer
que X et Y sont des variables aléatoires et que les mesures {(Xi, Yi) ; i= 1, 2, ..., n} sont
observations d'une population qui a la fonction dedensitéconjointe f(x, y).
Considérons le problème de mesurer la relation entre les deux variables X et Y. Par exemple,
si X et Y représentent la longueur et la circonférence d'uneclasseparticulier d'os dans le
corps d'un adulte, nous pouvons réaliser une étude anthropologique pour déterminer si les
de grandes valeurs de X sont associés à de grandes valeurs de Y, et vice versa. L'analyse de
la corrélation tente de mesurer la force de telles relations entre deux variables par le biais d'un
seul numéro appelé coefficient de corrélation.

En
La théorie suppose souvent que la distribution conditionnelle f(y½ x) de Y, pour des valeurs fixes
de X, c'est normal avec une moyenne µy‫ן‬x = a + b c o y variance s ²y‫ן‬x = s² y X aussi se
distribue normalement avec µx et variance s ²x. La densité conjointe de X et Y est
alors:
Où X est maintenant une variable aléatoire indépendante de l'erreur aléatoire E. Comme la moyenne
du hasard d'erreur E est nul, il s'ensuit que :

En remplaçant a et s² dans l'expression précédente pour f(x, y), nous obtenons la distribution
normal bivariée

La constante r (rho) est appelée coefficient de corrélation populationnel et joue un rôle


important dans de nombreux problèmes d'analyse de données à deux variables. La valeur de r est 0
quand b = 0, que se produit lorsque, en essence, il n'y a pas de régression linéaire; c'est-à-dire la ligne
la régression est horizontale et toute connaissance de X n'est pas deutilitépour prédire Y.
Comme nous devons avoir s ² et ³ s ², et r ² £ 1 pour cela -1£ r £ 1. Les valeurs de r = ± 1 seulement
se produisent lorsque s ² = 0, auquel cas nous avons une relation linéaire parfaite entre les deux
des variables. De cette manière, une valeur de r égale à +1 implique une relation linéaire parfaite avec
une pente positive, tandis qu'une valeur de r égale à -1 résulte d'une relation linéaire
parfaite avec une pente négative. On peut alors dire que les estimations d'échantillon
Des valeurs proches de l'unité en magnitude impliquent une bonne corrélation ou une association
linéaire entre X et Y, tandis que des valeurs proches de zéro indiquent peu ou pas de
corrélation.
Il convient de noter que dans les études de corrélation, comme dans
problèmes de régression linéaire, les résultats obtenus ne sont aussi bons que le
modèle supposé. Dans les techniques de corrélation étudiées ici, on suppose un
densité normale bivariée pour les variables X et Y, avec la valeur moyenne de Y à chaque valeur
x linéairement lié à x. Pour observer la commodité de l'hypothèse de
la linéarité, il est souvent utile de réaliser un graphique préliminaire des données expérimentales. Un
un coefficient de corrélation d'échantillon proche de zéro résultera de données montrant
un effet strictement aléatoire comme indiqué dans la figure a :

où l'on peut observer peu ou pas de relation causale. Il est important de rappeler que le
Le coefficient de corrélation entre deux variables est une moyenne de leur relation linéaire, et qu'un
la valeur de r* = 0 implique un manque de linéarité et non un manque d'association. C'est pourquoi, si
il existe une forte relation quadratique entre X et Y comme indiqué dans la figure b, nous pouvons
obtenir une corrélation nulle qui indique une relation non linéaire.
* formule du calcul de r

Lire plus[Link]
[Link]#ixzz4SIDndMLw

Vous aimerez peut-être aussi