Loi normale
| Densité de probabilité / Fonction de masse Image manquante Normal_distribution_pdf.png Densité La courbe verte correspond à une distribution normale | |
| Fonction de répartition Image manquante Normal_distribution_cdf.png Fonction de masse pour les distributions correspondantes | |
| Paramètres | μ moyenne (nombre réel) σ2 > 0 variance (nombre réel) |
| Support |
|
| Densité de probabilité (fonction de masse) |
|
| Fonction de répartition |
|
| Espérance | μ |
| Médiane (centre) | μ |
| Mode | μ |
| Variance | σ2 |
| Asymétrie (skewness) | 0 |
| Kurtosis | 0 |
| Entropie |
|
| Fonction génératrice des moments |
|
| Fonction caractéristique |
|
Une variable aléatoire d'espérance m et d'écart type σ suit une loi normale (ou loi normale gaussienne, loi de Laplace-Gauss) si sa densité de probabilité est :
Une telle variable aléatoire est dite variable gaussienne.
| Sommaire |
Calcul de p(a < X < b)
La densité précédente n'a pas de primitive simple dans R. Son intégrale sur R se calcule en utilisant la théorie des résidus. Son intégrale sur [a ; b] se calcule par valeur approchée. Si certaines calculatrices ou tableurs donnent maintenant ces valeurs, il est encore fréquent d'utiliser des tables numériques. Il n'est pas possible d'avoir autant de tables que de lois normales. On utilise alors la seule table d'une loi normale centrée réduite d'espérance nulle et d'écart type 1.
Par changement de variable, on remarque que si T =
et si X est gaussienne, alors T est aussi gaussienne d'espérance nulle et d'écart type 1, bref T suit une loi de probabilité gaussienne centrée réduite.
Si on pose
et
Alors p(a < X < b) = p(a' < T < b'). Il suffit donc de connaître p(a' < T < b') pour tout a' et b'..
Gaussienne centrée réduite
Une loi normale gaussienne centrée réduite a pour espérance 0 et pour écart type 1.
Sa densité de probabilité est :
La représentation graphique de f est une courbe en cloche.
Gauss_reduite.png
Image:Gauss_reduite.png
Des tables numériques fournissent les valeurs de la fonction F définie pour t > 0 par:
- F(t)= p([0 ; t]=
.
| t | ,0 | ,1 | ,2 | ,3 | ,4 | ,5 | ,6 | ,7 | ,8 | ,9 |
| 0 | 0 | 0,0398 | 0,0793 | 0,1179 | 0,1554 | 0,1915 | 0,2257 | 0,2580 | 0,2881 | 0,3159 |
| 1 | 0,3413 | 0,3643 | 0,3849 | 0,4032 | 0,4192 | 0,4332 | 0,4452 | 0,4554 | 0,4641 | 0,4713 |
| 2 | 0,4772 | 0,4821 | 0,4861 | 0,4893 | 0,4918 | 0,4938 | 0,4953 | 0,4965 | 0,4974 | 0,4981 |
| 3 | 0,4987 | 0,4990 | 0,4993 | 0,4995 | 0,4997 |
Par exemple la probabilité que T soit compris entre 0 et 1,7 est :
- F(1,7) =0,4554
Il est alors possible de calculer, pour tout t, p(]- ∞ ; t])
- si t > 0 cela vaut 0,5 + F(t)
- si t < 0 cela vaut 0,5 - F(-t)
Si T est une gaussienne centrée réduite, p(a' < T < b') vaut alors :
- p(]- ∞ ; b'[)- p(]- ∞ ; a'[)
Plages de normalité
Grâce au tableau précédent, on peut lire que la probabilité
est de 68,26%. c'est aussi la probabilité
si X est une gaussienne. En statistique, cet intervalle est appelé plage de normalité de niveau de confiance 68%, c'est l'intervalle dans lequel se trouve 68% de la population si la distribution est gaussienne.
De même,
= 95,44%, et l'intervalle [E(X) − 2σ;E(X) + 2σ] est la plage de normalité à niveau de confiance 95%.
Enfin,
= 99,74%, et l'intervalle [E(X) − 3σ;E(X) + 3σ] est la plage de normalité à niveau de confiance 99,7%.
Champ d'application
La loi normale s'utilise comme approximation d'une loi binomiale de paramètres (n ; p) pour n grand et p et 1-p de même ordre de grandeur. C'est une loi normale d'espérance np et d'écart type
On a dessiné ci-dessous un diagramme en bâtons d'un loi binomiale de paramètres (12 ; 1/3) et la loi normale correspondante d'espérance 4 et d'écart type
Bernoulli12.png
Image:Bernoulli12.png
puis un diagramme en bâtons d'un loi binomiale de paramètres (60 ; 1/3) et la loi normale correspondante d'espérance 20 et d'écart type
Bernoulli60.png
Image:Bernoulli60.png
Gauss initialement a utilisé cette distribution pour le calcul d'erreurs.
En statistiques, de nombreux phénomènes suivent des distributions gaussiennes : données biométriques des individus (Adolphe Quételet), mesure du Quotient intellectuel, à compléter par des spécialistes...
Critères de normalité
Le recours à distribution gaussienne est tellement fréquent qu'il peut finir par être abusif. Il faut alors rechercher des critères de normalité.
Le premier et plus simple critère consiste à tracer l'histogramme ou le diagramme en bâtons de la distribution et à vérifier si le diagramme est en forme de « cloche ». C'est un critère subjectif qui permet cependant d'éliminer une partie des distributions jugées alors non gaussiennes.
Le critère suivant consiste à utiliser les plages de normalite ou intervalles de confiance. Si une distribution est gaussienne, 68% de la population est dans l'intervalle
, 95% de la population est dans l'intervalle
et 99% de la population dans l'intervalle
. Si ces pourcentages ne sont pas respectés, il est fort à parier que la distribution n'est pas gaussienne.
On peut aussi utiliser la droite de Henry,en particulier si l'on possède peu de renseignements sur la distribution. La droite de Henry va permettre de porter un diagnostic sur la nature non gaussienne de la distribution, et, dans le cas où celle-ci a des chances d'être gaussienne, elle permet d'en déterminer la moyenne et l'écart type.
Le dernier critère est l'application d'un test d'adéquation (test du χ2) qui valide ou non l'hypothèse de normalité.
Somme de variables gaussiennes
La somme de deux variables gaussiennes indépendantes X et Y est une variable gaussienne d'espérance E(X) + E(Y) et de variance V(X)+ V(Y).
Exemple :Si le contenu d'une boîte de conserve suit une une loi gaussienne de moyenne 400 g et d'écart type 5 g, si le contenant de la boîte de conserve suit une loi gaussienne de moyenne 60 g et d'écart type 2g, la boîte de conserve suit une loi gaussienne de moyenne 460 g et d'écart type
.
Mélange de populations
Il ne faut pas confondre la somme de deux variables gaussienne qui reste une variable gaussienne et le mélange de deux populations gaussiennes qui n'est pas une population gaussienne.
Un mélange constitué de
- 2/3 d'individus dont la taille suit une loi normale de moyenne 160 cm et d'écart type 15 cm, de densité f
- 1/3 d'individus dont la taille suit une loi normale de moyenne 130 cm et d'écart type 10 cm, de densité g
suit une loi de moyenne (2/3)×160+(1/3)×130 = 150 cm mais non gaussienne, de densité
- h = (2/3)f + (1/3)g.
Sur la représentation graphique, on peut apercevoir une double bosse, soit une distribution bimodale.
Double_Gauss.png
Image:Double_Gauss.png
Simulation
Il est possible de simuler un tirage aléatoire dans une loi normale, par exemple par ordinateur.
Loi normale
Pour une seule variable aléatoire, on peut utiliser la méthode de Box-Muller. Si x1 et x2 sont des variables aléatoires suivant une distribution uniforme sur ]0,1[, alors les variables :
suivent une loi normale réduite.
On en déduit que les variables
et
suivent une loi normale d'espérance m et d'écart-type s.
Loi multinormale
La loi multinormale correspond à l'extension de la loi normale pour plusieurs variables
, elle est caractérisée par un vecteur de moyennes m et une matrice de variance-covariance V.
Chaque élément mi de m représente l'espérance de xi. La matrice V est symétrique définie positive. L'élément (diagonal) Vii de V représente la variance
de la variable xi. L'élément (non diagonal) Vij représente la covariance des variables xi et xj.
Pour simuler une loi multinormale de paramètres m et V, on utilise la méthode suivante :
- soit u un vecteur constitué de n nombres distribués selon la loi normale centrée-réduite,
- soit L la matrice résultant de la factorisation de Cholesky de la matrice V,
- le vecteur y = m + Lu suit la loi multinormale de moyenne m et de variance-covariance V.
Voir aussi
Lien externe
- wikisource:Table de la loi normale centrée réduite
