Régression linéaire
Les points Mi paraissent alignés. On peut alors tenter une régression linéaire, c'est-à-dire chercher la droite D dont l'équation est y = ax + b qui passe au plus près des points Mi.
Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme :
des distances des points expérimentaux originaux à la droite calculées comme la meilleure. Cela revient donc à déterminer les valeurs des paramètres a et b, qui sont respectivement le coefficient angulaire de la droite et son ordonnée à l'origine qui minimise la somme ci-dessus.
| Sommaire |
Formules à connaître
- La moyenne des
- La moyenne des
- Le point moyen G a pour coordonnées
- La variance des
- l'écart type des
- La variance des
- l'écart type des
- La covariance des
Résultat de la régression
La droite rendant minimale la somme précédente passe par le point G et a pour coefficient directeur
. Son équation est donc:
Coefficient de corrélation linéaire
On peut aussi chercher la droite D' : x=a'y + b' qui rende minimale la somme :
On trouve alors une droite qui passe aussi par le point moyen G et telle que a' =
. On souhaite évidemment tomber sur la même droite. Ce sera le cas si et seulement si a' = 1/a, c'est-à-dire si aa' = 1.
Les droites sont confondues si et seulement si
c'est-à-dire si et seulement si
On appelle cette quantité
le coefficient de corrélation linéaire entre x et y. On peut démontrer que ce nombre est toujours compris entre -1 et 1.
En pratique sa valeur absolue est rarement égale à 1, mais on estime généralement que l'ajustement est valide dès que ce coefficient a une valeur absolue supérieure à
Démonstration des formules par étude d'un minimum
Pour tout réel a, on pose
. Il suffit de développer et ordonner ce polynôme du second degré en b. On obtient:
Ce polynôme atteint son minimum si
Ce qui signifie que la droite passe par le point moyen G
Il reste à remplacer dans la somme de départ, b par cette valeur.
Pour tout réel a,
. Il suffit de développer et ordonner ce polynôme du second degré en a. On obtient
.
Ce polynôme atteint son minimum si et seulement si
La droite de régression est bien la droite passant par G et de coefficient directeur
.
Démonstration des formules grâce aux espaces vectoriels de dimension n
Dans l'espace
, muni du produit scalaire canonique, on considère le vecteur X de coordonnées (x1,x2,...,xn), le vecteur Y de coordonnées (y1,y2,...,yn), le vecteur U de coordonnées (1, 1, ..., 1).
On peut remarquer que
On note alors
le vecteur
et
le vecteur
Le vecteur Z de coordonnées (ax1 + b,ax2 + b,...,axn + b) appartient à l'espace vectoriel engendré par X et U.
La somme
représente le carré de la norme du vecteur Y − Z.
Cette norme est minimale si et seulement si Z est le projeté orthogonal de Y dans l'espace vectoriel vect(X,U).
Z est le projeté de Y dans l'espace vectoriel vect(X,U) si et seulement si (Z − Y).U = 0 et
.
Or
donc (Z-Y).U=0 signifie que
.
En remplaçant dans
, on obtient
donc
signifie que
Enfin le coefficient de corrélation linéaire s'écrit alors
. Cette quantité représente le cosinus de l'angle formé par les vecteurs
et
.
On retrouve alors les résultats suivants:
- si le coefficient de corrélation linéaire est 1 ou -1, les vecteurs
et
sont colinéaires de coefficient de colinéarité a et
. L'ajustement linéaire est parfait.
- si le coefficient de corrélation linéaire est en valeur absolue supérieur à
alors l'angle formé par les deux vecteurs est compris entre − π / 6 et π / 6 ou entre 5π / 6 et 7π / 6.
