Moindres Carrés
Moindres Carrés
Les moindres carrés sont une technique deanalyse numérique enmarquée dans
laoptimisation mathématique, dans laquelle, étant donné un ensemble de paires ordonnées —variable
indépendante, variable dépendante— et une famille de fonctions, on essaie de trouver
lafonction continue, au sein de cette famille, qui se rapproche le mieux des données (une "meilleure
ajuste), conformément au critère de l'erreur quadratique minimale.
Dans sa forme la plus simple, essaieminimiserla somme des carrés des différences dans les
ordonnées(appeléesdéchets) entre les points générés par la fonction choisie et les
valeurs correspondantes dans les données. Spécifiquement, cela s'appellemoindres carrés
moyenne(LMS) lorsque le nombre de données mesurées est 1 et que la méthode dedescente
par gradientpour minimiser le résidu au carré. On peut démontrer que LMS minimise
le résidu carré attendu, avec un minimum d'opérations (par itération), mais nécessite
un grand nombre d'itérations pour converger.
D'un point de vue statistique, une condition implicite pour que la méthode fonctionne est que
Les moindres carrés signifient que les erreurs de chaque mesure soient distribuées de manière aléatoire.
Elthéorème de Gauss-Markovpreuve que les estimateurs des moindres carrés manquent de
biais et que l'échantillonnage des données ne doit pas s'ajuster, par exemple, à undistribution
normal. Il est également important que les données à traiter soient bien choisies, afin que
permettant la visibilité sur les variables qui doivent être résolues (pour donner plus de poids à une donnée
en particulier, voirmínimos cuadrados ponderados).
La technique des moindres carrés est couramment utilisée dans leajustement de courbesBeaucoup d'autres
les problèmes d'optimisation peuvent également s'exprimer sous forme de moindres carrés,
minimisant laénergieou en maximisant leentropie.
INTRODUCTION
Le présenttravailfait partie desobjectifset contenus deapprentissagede la
chaireSTATISTIQUE, qui vise à développer les compétences pour l'utilisation de
lesméthodeslinéaires et estimation des moindres carrés.
Pour atteindre cet objectif, une consultation a été réalisé[Link]ásique qui a permis
développer les concepts et les exemples, comme base pour réaliser uneexpositionadéquate en
la salle de classe.
Dans ce travail, il s'agit essentiellement de comment développer l'application des méthodes
linéaires et estimation par les moindres carrés, ainsi que l'inférence, la prédiction et
correlation.
Une série d'exemples a été développée pour tenter de présenter de manière plus
c'est simple d'utiliser ces méthodes.
L'équipe n° 4
∑y = na + b∑x
∑xy = a∑x + b∑x²
En remplaçant dans les équations les résultats obtenus, nous avons : 43,50 = 8a + 89,8b
546,63 = 89,8a + 1292,92b
nous multiplions la première équation par (-89,8) et la deuxième par (8) comme ceci :
43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8)
-3906.30 = -718.4a - 8064.04b 4373.04 = 718.4a + 10343.36b
466.74 = -0- 2279.32b
Cevaleurnous remplaçons b dans n'importe quelle des équations pour obtenir a ainsi :
Nous avons donc que les coefficients de régression sont : a = 3.139 et b = 0.20477. Par
la équation de régression nous donne :
Cela signifie donc que pour chaque augmentation d'une unité dans X, la valeur de se augmente de
0,20477
Cette équation permet d'estimer la valeur de pour n'importe quelle valeur de X, par exemple : Une
ville qui a un pourcentage de diplômés de l'enseignement supérieur de 28 % la médiane de revenu
pour la ville ce sera :
Les valeurs a et b peuvent également être obtenues de la manière suivante : en partant des
nous avons des équations normales :
Si nous divisons tous les termes de l'équation (1) par n, il nous reste :
Nous avons donc que le premier terme est le deuxième terme est l'inconnue à et le
le troisième terme est l'inconnue b multipliée par il nous reste donc :
alors
utilisant tous lesrevenusobservés dans chaque ville et c'est la valeur estimée sur la base
dans le modèle linéaire utilisé pour obtenir l'équation de régression
Les valeurs estimées et observées peuvent ne pas être identiques, par exemple la première ville
il a un revenu médian observé de Y = 4.2 en remplaçant dans l'équation le pourcentage
de diplômés nous obtenons une estimation de
Il est clairement visible sur le graphique qu'il y a une différence entre la valeur effective de Y y.
la valeur estimée ; cette différence est connue sous le nom d'erreur d'estimation, cette erreur peut être
mesurer. Ci-après, le processus sera présenté.
Erreur standard dans l'estimation
L'erreur standard de l'estimation désignée par sYX mesure la disparité "moyenne" entre
les valeurs observées et les valeurs estimées de. La formule suivante est utilisée.
Nous devons donc calculer les valeurs de pour chaque ville en substituant dans l'équation
les valeurs des pourcentages de diplômés de chaque ville étudiée.
Y X
Comme cette mesure vise à résumer l'écart entre ce qui est observé et ce qui est estimé, c'est-à-dire,
essaye de mesurer la différence moyenne entre ce qui est observé et ce qui est estimé ou attendu de
Selon le modèle, il peut être considéré comme un indicateur du degré de précision avec lequel la
L'équation de régression décrit la relation entre les deux variables. Cette erreur standard se voit
affecté par les unités et leurs changements puisque c'est une mesure absolue, car elle se donne dans la
même unité de mesure que celle donnée par la variable Y ; dans l'exemple 0,46 ce sera des dizaines de
miles de pesos, raison pour laquelle il n'est pas possible de comparer avec les relations de variables
données dans une unité de mesure différente. Il est donc nécessaire de calculer une mesure qui
interpréte ou mesure mieux le degré de relation entre les variables.
Coeficient de détermination.
Lechangementde la variable Y dépend généralement de nombreux facteurs, parfois,
difficiles à identifier ; avec le modèle linéaire simple, nous n'en avons qu'un à l'esprit. Par
exemple, dans notre cas, la médiane du revenu dépend non seulement du pourcentage de
les diplômés au niveau supérieur, c'est-à-dire, le facteur que nous avons en tête, peuvent entrer en jeu
facteurs tels que, ladistributionde l'âge dans lapopulation, la distribution parsexeen la
population, l'industrialisation de la ville, le nombre d'universités et bien d'autres.
Le coefficient de détermination mesure ou interprète la quantité relative de la variation qui a
est expliquée par la droite de régression, c'est-à-dire la proportion de changement dans Y expliquée
par un changement dans la variable X ( X est le facteur qui est utilisé pour calculer la droite d'ajustement
ou équation de régression, dans l'exemple c'est le pourcentage de diplômés au niveau supérieur en
chaque ville).
Pour l'exemple, le coefficient de détermination va mesurer la proportion du changement dans le
revenu moyen de chaque ville, dû ou expliqué par un changement dans le pourcentage de
diplômés de l'enseignement supérieur.
Examinons certains composants de la variabilité dans leanalysede régression :
La différence entre Y-observé et estimé, ce sont des variations considérées comme dues à
facteurs différents de ceux pris en compte par l'équation de régression, c'est pourquoi on l'appelle :
variabilité non expliquée de Y.
La différence entre Y-observé et estimé est due à des variations considérées comme étant attribuées à
facteurs différents de ceux pris en compte par l'équation de régression, c'est pourquoi on l'appelle :
variabilité inexpliquée de Y.
La somme des différences dans chacune des formes de variation peut être
représenter ainsi :
Généralement, cette proportion s'exprime en pourcentage, donc nous pouvons dire que
r² = 88,76%
En conclusion, nous pouvons dire que 88,76 % de la variation du revenu médian des
Les villes de l'échantillon sont liées ou expliquées par la variation du pourcentage de
diplômés enenseignement supérieurdans chaque ville.
Coefficient de corrélation
Ce coefficient, comme déjà mentionné, mesureforcede la relation entre les variables. Le
le coefficient a le signe de b et sa valeur sera Le signe moins dans le
Un indice signifie une relation négative et un signe plus une corrélation positive. Le
le coefficient est obtenu en prenant la racine carrée du coefficient de détermination et se
simbolise par 'r'.
Dans ce cas, le coefficient r a une valeur positive car il prend la valeur de b obtenue avec les
Les équations normales prennent une valeur positive.
Voici, à titre d'orientation, comment les valeurs de r pourraient être interprétées.
(positif ou négatif)
La corrélation entre les valeurs de deux variables est un fait. Que nous le considérions
satisfaisant ou non, cela dépend de lainterprétation. Un autre problème que représente la corrélation
c'est quand on se demande si une variable cause ou détermine d'une certaine manière l'autre.
la corrélation n'implique pas la causalité. Si les variables X et Y sont corrélées, cela peut
est de savoir si X cause Y, ou si Y cause X, ou si une autre variable affecte à la fois
X comme Y, ou pour une combinaison de toutes ces raisons ; ou il se peut que la relation soit
une coïncidence.
y
les équations normales peuvent être écrites sous forme matricielle
AB=g
Si la matrice A est non singulière, nous pouvons écrire la solution pour le coefficient de régression.
comme
b = A-1g =(X’X)-1X’y
De cette manière, on peut obtenir l'équation de prédiction ou l'équation de régression à
résoudre un ensemble de k + 1 équations avec un nombre égal d'inconnues. Cela implique
lainvestissementde la matrice X'X de k + 1 par k + 1. Lestechniquespour inverser cette matrice, il faut
expliquent dans la plupart deslivresdetextesur les déterminants et les matrices élémentaires.
Pour supposé se dispose de beaucoup paquets deordinateurde
hauteurvitesseparaproblèmesde régression multiple, des paquets qui n'impriment pas seulement
estimations des coefficients de régression, mais fournissent également
autreinformationpertinente pour faire des inférences concernant l'équation de régression.
Exemple 1
On a mesuré le pourcentage de survie d'un certain type de sperme animal, après
delstockage, dans plusieurs combinaisons de concentrations de troismatériauxque se
ils utilisent pour augmenter leur chance de survie. Les données sont les suivantes :
y(% de survie)
25,5 1,74 5,30 10,80
=
Des résultats d'un ordinateur, nous obtenons les éléments de la matrice inverse
et ensuite, en utilisant la relation b = (X’X)-1 X’y, les coefficients estimés de
régression sont
39,1574
De ici notre équation de régression estimée est
Pour le cas d'une seule variable indépendante, le degré du polynôme de meilleur ajustement à
il est possible de déterminer en traçant un diagramme de dispersion des données qui se
ils obtiennent d'une expérience qui donne n paires d'observations de la forme {(xi, yi); i = 1,
2, .... n}.
=
En résolvant ces r + 1 équations, nous obtenons les estimations b0, b1,....., br et par conséquent
nous générons l'équation de prédiction de régression polynomiale
Exemple 2
Les données suivantes représentent le pourcentage d'impuretés qui se produisent à plusieurs
températures et temps de stérilisation pendant une réaction associée à la fabrication
d'une certaine boisson.
où chaque coefficient de régression b i est estimé par bi des données de l'échantillon avec le
utilisation de la méthode des moindres carrés. Comme dans le cas d'une seule variable indépendante,
le modèle de régression linéaire multiple peut souvent être une représentation adéquate de
unestructureplus compliquée dans certaines plages des variables indépendantes.
Des techniques de moindres carrés similaires peuvent également être appliquées pour estimer les
coefficients lorsque le modèle linéaire implique, disons, des puissances etproduitsdes
variables indépendantes. Par exemple, quand k = 1, l'expérimentateur peut penser que
les moyennes m Y|x1 ne tombent pas en ligne droite mais sont décrites de manière plus appropriée
avec le modèle de régression polynomiale
m Y|x = b 0 + b 1 x + b 2 x2 + …….. + b r xr
En parfois surgit de la confusion lorsque nous parlons d'un modèle polynomial comme d'un
modèle linéaire. Cependant, les statisticiens font généralement référence à un modèle linéaire
comme un dans lequel les paramètres se produisent linéairement, peu importe comment ils entrent les
variables indépendantes au modèle. Un exemple d'un modèle non linéaire est la relation
exponentiel
m Y|x = a b x,
que l'on estime avec l'équation de régression
En différenciant SSE par rapport à b0, b1, b2, ......, bk, et en égalisant à zéro, nous générons un
ensemble de k + 1 équations normales
Ces équations peuvent être résolues pour b0, b1, b2, ..., bk par n'importe quelle méthode.
approprié pour résoudresystèmesd'équations linéaires.
Exemple 1
Une étude a été réalisée sur un camion de livraison léger à diesel pour voir si la
humiditétempératuredelairypressionbarométrique influencent l'émission d'oxyde
nitroso (en ppm). Les mesures des émissions ont été prises à différents moments, avec
conditions expérimentales variantes. Les données sont les suivantes :
Le modèle est :
m Y|x1, x2, x3 = b 0 + b 1 x1 + b 2 x2 +……..+ b 3 x3
Ajustez ce modèle de régression linéaire multiple aux données fournies et ensuite estimez la
quantité de protoxyde d'azote pour les conditions où l'humidité est de 50 %, la température
76°F
SOLUTION
Pour les équations normales, nous avons trouvé que
SOLUCIÓN:
est également normalement distribué et est en fait un estimateur sans biais pour le
réponse moyenne sur laquelle nous essayons de joindre les intervalles de confiance. La variance de
écrite en notation matricielle simplement comme fonction de (X'X)1, et le vecteur de
condition x’0, est
Si cette expression est développée pour un cas donné, disons k = 2, il est facilement visible que
explique de manière appropriée les variances et covariances des Bi. Après
remplacer par s2, l'intervalle de confiance de 100(1 — α)% sur m | x10, x20,...., xk0
On peut construire à partir de la statistique :
Exemple 1
Avec l'utilisation des données de l'exemple 1 correspondant au "Modèle de régression linéaire avec le
utilisation des matrices", construisez un intervalle de confiance de 95% pour la réponse moyenne
quand x1 = 3%, x2 = 8%, et x3 = 9%.
SOLUTION
De l'équation de régression de l'exemple 1 correspondant au 'Modèle de régression linéaire'
con el uso de matrices", el porcentaje estimado de sobrevivencia cuando x1 = 3%, x2 = 8%,
y x3 = 9% es
Avec l'utilisation du carré moyen de l'erreur, s2 = 4.298 ou s = 2.073, et du tableau A.4, nous voyons
que t0.025 = 2.262 pour 9 degrés de liberté. Par conséquent, un intervalle de confiance de 95%
pour le pourcentage moyen de survie pour x1 = 3 %, x2 = 8 %, et x3 = 9 % est donné par
ou simplement
.
Comme dans le cas de la régression linéaire simple, nous devons faireune distinction claire entre
l'intervalle de confiance de la réponse moyenne et l'intervalle de prédiction sur une
réponse observée. Ce dernier fournit une limite dans laquelle nous pouvons dire avec
un degré de certitude préétabli selon lequel une nouvelle réponse observée tombera.
Un intervalle de prédiction pour une seule réponse prognostiquée se rétablit de nouveau au
considérer les différences de la variable aléatoire .
On peut montrer que la distribution d'échantillonnage est normale avec une moyenne
et variance
De cette manière, l'intervalle de prédiction de (1 — α)100% pour une seule valeur de prédiction
y0 peut être construit à partir de la statistique
Exemple 2
Avec l'utilisation des données de l'exemple 1 correspondant au sujet 'Modèle de régression'
ligneaire avec l'utilisation de matrices" construisez un intervalle de prédiction de 95% pour un
réponse individuelle du pourcentage de survie lorsque x1 = 3%, x2 = 8%, et x3 = 9%.
SOLUTION :
En référence aux résultats de l'exemple 1 de cette section, nous constatons que l'intervalle
de prédiction de 95 % pour la réponse y0 lorsque x1 = 3 %, x2 = 8 %, et x3 = 9 % est
avec n — k — 1 degrés de liberté pour tester les hypothèsesthèseet construire des intervalles de
confiance sur βj. Par exemple, si nous souhaitons tester :
Y variance :
La dernière découle du fait que Cov(Ŷ, B) = 0. De cette manière, l'intervalle de confiance de
(1 - a )100% sur la réponse moyenne µyןxסOn peut construire à partir de la statistique :
CORRÉLATION.
Jusqu'à présent, nous avons supposé que la variable de régression indépendante x est une
variablephysiqueo scientifique mais pas une variable aléatoire. En fait, dans ce contexte, x à
menudo s'appelle variablemathématiques, que, dans le processus deéchantillonnage, se mesure avec une erreur
insignifiant. Dans de nombreuses applications des techniques de régression, il est plus réaliste de supposer
que X et Y sont des variables aléatoires et que les mesures {(Xi, Yi) ; i= 1, 2, ..., n} sont
observations d'une population qui a la fonction dedensitéconjointe f(x, y).
Considérons le problème de mesurer la relation entre les deux variables X et Y. Par exemple,
si X et Y représentent la longueur et la circonférence d'uneclasseparticulier d'os dans le
corps d'un adulte, nous pouvons réaliser une étude anthropologique pour déterminer si les
de grandes valeurs de X sont associés à de grandes valeurs de Y, et vice versa. L'analyse de
la corrélation tente de mesurer la force de telles relations entre deux variables par le biais d'un
seul numéro appelé coefficient de corrélation.
En
La théorie suppose souvent que la distribution conditionnelle f(y½ x) de Y, pour des valeurs fixes
de X, c'est normal avec une moyenne µyןx = a + b c o y variance s ²yןx = s² y X aussi se
distribue normalement avec µx et variance s ²x. La densité conjointe de X et Y est
alors:
Où X est maintenant une variable aléatoire indépendante de l'erreur aléatoire E. Comme la moyenne
du hasard d'erreur E est nul, il s'ensuit que :
En remplaçant a et s² dans l'expression précédente pour f(x, y), nous obtenons la distribution
normal bivariée
où l'on peut observer peu ou pas de relation causale. Il est important de rappeler que le
Le coefficient de corrélation entre deux variables est une moyenne de leur relation linéaire, et qu'un
la valeur de r* = 0 implique un manque de linéarité et non un manque d'association. C'est pourquoi, si
il existe une forte relation quadratique entre X et Y comme indiqué dans la figure b, nous pouvons
obtenir une corrélation nulle qui indique une relation non linéaire.
* formule du calcul de r
Lire plus[Link]
[Link]#ixzz4SIDndMLw