Les sources d'erreurs
Afin d'aborder les sources d'erreurs en statistique, nous allons prendre
l'exemple d'un sondage sur un référendum. D'une part parce que cela concerne
tous les citoyens, et d'autre part le nombre de réponse possible, égale à deux,
simplifie grandement l'étude.
Les erreurs statistiques
Si le sondeur interroge uniquement une personne, le résultat du sondage indique un résultat de 100% pour le choix de l'unique sondé. Ce qui est aberrant. On ne peut pas interpolé le résultat d'un échantillon infime à l'ensemble de la population. Seul la consultation de l'ensemble des électeurs permettra de connaître la vrai répartition. Malheureusement en pratique on peut uniquement sondé un échantillon de cette population. Il faut alors entaché le résultat du sondage par une erreur dite statistique. Cette erreur sera d'autant plus petite que le nombre de sondé tendra vers la population entière. Noté que pour une mesure physique le nombre de mesure idéal est infini.
Un référendum consiste à répondre par oui ou non. Soit deux possibilités. On
peut donc modéliser le référendum par la loi binomiale. Imaginons que r = 255
sondés répondent oui sur un totale de n = 500 personnes. On obtient alors une
probabilité pour le oui de
. La variance sur
r vaut V(r) = np(1 − p). Donc la variance sur p est
. On retrouve d'un point de vue mathématique le
comportement intuitif précédant. Si n = 1 la variance est maximale, si n tend
vers l'infini la variance devient nulle. Dans notre cas on a un écart type de 2.2%
pour une probabilité pour le oui de 51%, soit une probabilité comprise entre
48.8% et 53.2% pour le oui, et comprise entre 46.8% et 51.2% pour le non. On ne
peut donc tirer aucune conclusion valable sur ce sondage, le nombre de sondé étant
manifestement choisie trop petit.
Les erreurs systématiques
Nous avons vue que la principale difficulté pour un sondage est de choisir un échantillon suffisant. Mais cela n'est pas la seul source d'erreur. Il faut aussi tenir compte de biais à caractère systématique. Dans le cas d'un sondage nous pouvons énuméré les sources d'erreurs suivante:
- l'échantillon n'est pas représentatif de la population
- le sondé ment par gène de son choix
- le sondé répond n'importe quoi pour ce débarrasser au plus vite du sondeur
Le premier est intéressant, car il interfère avec les erreurs statistiques. En effet les erreurs statistiques sont due à des fluctuations statistiques dans l'échantillonnage de la population. Autrement dit, les erreurs statistiques sont la conséquence de l'impossibilité de choisir l'échantillon parfait. Une autre façon d'étudier ce phénomène consisterai à calculer la probabilité de souiller un échantillon parfait en intervertissant un, deux, trois etc sondé entre le oui et le non. Imaginé un bac de bille contenant 51% de bille rouge et 49% de bille bleu. Quelle serait la configuration d'un sac de bille en fonction de sa taille, remplit à partir d'une infime partie du bac? Ceci est toutefois un effet de second ordre. Le sondeur doit prendre garde à ne pas sondé uniquement un groupe d'individu orienté pour le oui ou le non, sinon le résultat serait absolument biaisé. Toutefois, cela n'est si facile en pratique.
Il est beaucoup plus difficile d'évaluer ce type d'erreurs. Ce qui nous amène à douter encore plus du résultat précédant sur notre sondage.
