Analyse de la variance
| Image manquante Math.png | Cet article est une ébauche concernant les mathématiques, vous pouvez partager vos connaissances en le modifiant. |
L'analyse de la variance (ANalysis Of VAriance en anglais, d'où l'abréviation ANOVA, couramment utilisée) est une technique statistique permettant de comparer les moyennes de plus de deux populations.
| Sommaire |
|
|
Introduction à l'ANOVA
Définition
Contrairement à ce que laisse penser son nom, l'analyse de la variance n'est pas une méthode qui permet d'étudier les différences de variances entre populations. Il s'agit non pas de s'intéresser à un paramètre de dispersion (variance, ou écart type), mais à un paramètre de position (en l'occurrence, la moyenne), en se basant sur des tests qui font appel à des comparaisons de variances entre populations.
Il s'agit par conséquent d'une généralisation à k populations du classique test de comparaison de moyennes de deux échantillons : le célèbre test de T.
Dans les cas simples (ANOVA à un facteur fixe), l'hypothèse nulle H0 est : les moyennes des différents groupes sont égales, i.e.μ1 = μ2 = ... = μk
Principe
Idée générale
L'idée de l'analyse de la variance repose sur un modèle qu'on se donne a priori des données. On suppose ainsi, par exemple, qu'une variable mesurée Y vérifie une relation linéaire avec un ensemble de n variables explicatives dénotées Xi. La relation est du type suivant :
avec :
- α un paramètre commun à toutes les observations, c’est-à-dire une ordonnée à l'origine (dont on pourra tester éventuellement la nullité plus tard)
- n variables explicatives au total
- ε représente la variabilité aléatoire du modèle, non contrôlable.
On s'attache ensuite à l'étude de la variance de ces différents termes dans une décomposition justement dite de « l'analyse de la variance ».
Il est important de comprendre que l'ANOVA n'est pas un test permettant de « classer » des moyennes par exemple. Le but ici est beaucoup plus « humble », il s'agit de comparer des moyennes de différents groupes et de dire si, parmi l'ensemble, au moins une d'entre elles diffère des autres, mais on ne sait pas laquelle ni combien d'entre elles. Déterminer quel groupe a un effet différentiel, c’est-à-dire quel groupe présente une moyenne de la variable étudiée différente des autres, est un problème tout à fait différent. Il peut se poser après une ANOVA et les tests associés sont dits « tests de comparaison multiples », ou MCP pour Multiple Comparison Test. Ces tests obligent en général à augmenter les risques de l'analyse (en terme de risque statistique).
Première approche technique
Nous allons ici réaliser une première décomposition très intuitive. Elle permet cependant de mettre en place tout le schéma de l'analyse de variance On la présente ici pour une ANOVA à un facteur contrôlé (c’est-à-dire qu'on a un seul groupe discriminant dans lequel « ranger » nos valeurs). Dans la relation linéaire présentée plus haut, cela revient à avoir une seule variable explicative X. On aura donc un modèle du type :
Yi = α + βXi + ε
Il s'agit en pratique de décomposer la variabilité selon (au moins) deux critères :
- Variabilité non expliquée, ou résiduelle, entre un terme estimé et la vraie valeur mesurée, qu'on appellera Sr, pour la variance résiduelle
- Variabilité expliquée par le modèle, c’est-à-dire la différence entre l'estimation de moyenne d'une classe et la moyenne totale des observations, qu'on appellera Sa, pour la variance due au facteur A
À partir de cette définition, on va comparer les espérances des variances Sa et Sr en faisant leur rapport. Il se trouve (comme on peut le voir dans la décomposition mathématique, voir plus loin) que les deux termes sont tous les deux une estimation de la variabilité résiduelle si le facteur A n'a pas d'effet. De plus, ces deux termes suivent chacun une loi de khi-deux, leur rapport suit donc une loi de F (voir plus loin pour les degrés de liberté de ces lois). Résumons :
- Si le facteur A n'a pas d'effet, le rapport de Sa et Sr suit une loi de F et il est possible de vérifier si la valeur du rapport est « étonnante » pour une loi de F
- Si le facteur A a un effet, le terme Sa n'est plus une estimation de la variabilité résiduelle et la rapport
ne suit plus une loi de F. On peut comparer la valeur du rapport à la valeur attendue pour une loi de F et voir, là aussi, à quel point le résultat est « étonnant ».
Résumer les choses ainsi permet de clarifier l'idée mais renverse la démarche : on obtient en pratique une valeur du rapport
qu'on compare à une loi de F, en se donnant un risque α (voir l'article sur les tests et leurs risques). Si la valeur obtenue est trop grande, on en déduit que le rapport ne suit vraisemblablement pas une loi de F et que le facteur A a un effet. On conclue donc à une différence des moyennes.
Un exemple concret
Imaginons qu'on mesure par exemple la production journalière de lait de vaches. Les différentes vaches peuvent être rangées dans différents groupes selon leur race. On se pose la question suivante : la production de lait d'une vache dépend-elle de la race de ladite vache ?
Pour répondre à cette question, l'ANOVA est la plus appropriée (à partir du moment où on a plus de deux races, sinon on se contentera du test de T).
Le facteur A sera donc la race de la vache et on va chercher à vérifier s'il y a des différences de moyenne entre les différents groupes.
Pour résumer le principe de l'ANOVA, on va comparer la variabilité entre :
- la moyenne d'un groupe moins la moyenne générale de toutes les vaches, c'est le terme Sa
- la production d'une vache donnée moins la production moyenne du groupe, c'est le terme Sr
