Analyse de la variance

Image manquante
Math.png


Cet article est une ébauche concernant les mathématiques, vous pouvez partager vos connaissances en le modifiant.

L'analyse de la variance (ANalysis Of VAriance en anglais, d'où l'abréviation ANOVA, couramment utilisée) est une technique statistique permettant de comparer les moyennes de plus de deux populations.

Sommaire

Introduction à l'ANOVA

Définition

Contrairement à ce que laisse penser son nom, l'analyse de la variance n'est pas une méthode qui permet d'étudier les différences de variances entre populations. Il s'agit non pas de s'intéresser à un paramètre de dispersion (variance, ou écart type), mais à un paramètre de position (en l'occurrence, la moyenne), en se basant sur des tests qui font appel à des comparaisons de variances entre populations.

Il s'agit par conséquent d'une généralisation à k populations du classique test de comparaison de moyennes de deux échantillons : le célèbre test de T.

Dans les cas simples (ANOVA à un facteur fixe), l'hypothèse nulle H0 est : les moyennes des différents groupes sont égales, i.e.μ1 = μ2 = ... = μk

Principe

Idée générale

L'idée de l'analyse de la variance repose sur un modèle qu'on se donne a priori des données. On suppose ainsi, par exemple, qu'une variable mesurée Y vérifie une relation linéaire avec un ensemble de n variables explicatives dénotées Xi. La relation est du type suivant :

Y_{i}=\alpha+\sum_{k=0}^{n}X_{i}+\epsilon_{i} avec :

On s'attache ensuite à l'étude de la variance de ces différents termes dans une décomposition justement dite de « l'analyse de la variance ».

Il est important de comprendre que l'ANOVA n'est pas un test permettant de « classer » des moyennes par exemple. Le but ici est beaucoup plus « humble », il s'agit de comparer des moyennes de différents groupes et de dire si, parmi l'ensemble, au moins une d'entre elles diffère des autres, mais on ne sait pas laquelle ni combien d'entre elles. Déterminer quel groupe a un effet différentiel, c’est-à-dire quel groupe présente une moyenne de la variable étudiée différente des autres, est un problème tout à fait différent. Il peut se poser après une ANOVA et les tests associés sont dits « tests de comparaison multiples », ou MCP pour Multiple Comparison Test. Ces tests obligent en général à augmenter les risques de l'analyse (en terme de risque statistique).

Première approche technique

Nous allons ici réaliser une première décomposition très intuitive. Elle permet cependant de mettre en place tout le schéma de l'analyse de variance On la présente ici pour une ANOVA à un facteur contrôlé (c’est-à-dire qu'on a un seul groupe discriminant dans lequel « ranger » nos valeurs). Dans la relation linéaire présentée plus haut, cela revient à avoir une seule variable explicative X. On aura donc un modèle du type :
Yi = α + βXi + ε

Il s'agit en pratique de décomposer la variabilité selon (au moins) deux critères :

À partir de cette définition, on va comparer les espérances des variances Sa et Sr en faisant leur rapport. Il se trouve (comme on peut le voir dans la décomposition mathématique, voir plus loin) que les deux termes sont tous les deux une estimation de la variabilité résiduelle si le facteur A n'a pas d'effet. De plus, ces deux termes suivent chacun une loi de khi-deux, leur rapport suit donc une loi de F (voir plus loin pour les degrés de liberté de ces lois). Résumons :

Résumer les choses ainsi permet de clarifier l'idée mais renverse la démarche : on obtient en pratique une valeur du rapport \frac{S_{a}}{S_{r}} qu'on compare à une loi de F, en se donnant un risque α (voir l'article sur les tests et leurs risques). Si la valeur obtenue est trop grande, on en déduit que le rapport ne suit vraisemblablement pas une loi de F et que le facteur A a un effet. On conclue donc à une différence des moyennes.

Un exemple concret

Imaginons qu'on mesure par exemple la production journalière de lait de vaches. Les différentes vaches peuvent être rangées dans différents groupes selon leur race. On se pose la question suivante : la production de lait d'une vache dépend-elle de la race de ladite vache ?

Pour répondre à cette question, l'ANOVA est la plus appropriée (à partir du moment où on a plus de deux races, sinon on se contentera du test de T).

Le facteur A sera donc la race de la vache et on va chercher à vérifier s'il y a des différences de moyenne entre les différents groupes.

Pour résumer le principe de l'ANOVA, on va comparer la variabilité entre :

Décomposition mathématique

See also: Analyse de la variance, Mathématiques, Moyenne, Population, Statistique, Variance, Écart type