Loi normale

Distribution gaussienne
Densité de probabilité / Fonction de masse
Image manquante
Normal_distribution_pdf.png
Densité


La courbe verte correspond à une distribution normale
Fonction de répartition
Image manquante
Normal_distribution_cdf.png
Fonction de masse pour les distributions correspondantes


Paramètres μ moyenne (nombre réel)
σ2 > 0 variance (nombre réel)
Support x \in (-\infty;+\infty)\!
Densité de probabilité (fonction de masse) \frac1{\sigma\sqrt{2\pi}}\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right) \!
Fonction de répartition \frac12 \left(1 + \mathrm{erf}\,\frac{x-\mu}{\sigma\sqrt2}\right) \!
Espérance μ
Médiane (centre) μ
Mode μ
Variance σ2
Asymétrie (skewness) 0
Kurtosis 0
Entropie \ln\left(\sigma\sqrt{2\,\pi\,e}\right)\!
Fonction génératrice des moments M_X(t)= \exp\left(\mu\,t+\sigma^2 \frac{t^2}{2}\right)
Fonction caractéristique \phi_X(t)=\exp\left(\mu\,i\,t-\frac{\sigma^2 t^2}{2}\right)

Une variable aléatoire d'espérance m et d'écart type σ suit une loi normale (ou loi normale gaussienne, loi de Laplace-Gauss) si sa densité de probabilité est :

f(x)=\frac{1}{\sigma \sqrt{2\pi}}\mathrm{e}^{-\frac{1}{2}\left(\frac{x-m}{\sigma}\right)^2}

Une telle variable aléatoire est dite variable gaussienne.

Sommaire

Calcul de p(a < X < b)

La densité précédente n'a pas de primitive simple dans R. Son intégrale sur R se calcule en utilisant la théorie des résidus. Son intégrale sur [a ; b] se calcule par valeur approchée. Si certaines calculatrices ou tableurs donnent maintenant ces valeurs, il est encore fréquent d'utiliser des tables numériques. Il n'est pas possible d'avoir autant de tables que de lois normales. On utilise alors la seule table d'une loi normale centrée réduite d'espérance nulle et d'écart type 1.

Par changement de variable, on remarque que si T = \frac{X - E(X)}{\sigma} et si X est gaussienne, alors T est aussi gaussienne d'espérance nulle et d'écart type 1, bref T suit une loi de probabilité gaussienne centrée réduite.

Si on pose a'=\frac{a - E(X)}{\sigma} et b'=\frac{b - E(X)}{\sigma}

Alors p(a < X < b) = p(a' < T < b'). Il suffit donc de connaître p(a' < T < b') pour tout a' et b'..

Gaussienne centrée réduite

Une loi normale gaussienne centrée réduite a pour espérance 0 et pour écart type 1.

Sa densité de probabilité est :

f(t)=\frac{1}{\sqrt{2\pi}}\mathrm{e}^{-\frac{t^2}{2}}

La représentation graphique de f est une courbe en cloche.

Image manquante
Gauss_reduite.png
Image:Gauss_reduite.png

Des tables numériques fournissent les valeurs de la fonction F définie pour t > 0 par:

F(t)= p([0 ; t]=\int_0^tf(t).dt.
t ,0 ,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9
0 0 0,0398 0,0793 0,1179 0,1554 0,1915 0,2257 0,2580 0,2881 0,3159
1 0,3413 0,3643 0,3849 0,4032 0,4192 0,4332 0,4452 0,4554 0,4641 0,4713
2 0,4772 0,4821 0,4861 0,4893 0,4918 0,4938 0,4953 0,4965 0,4974 0,4981
3 0,4987 0,4990 0,4993 0,4995 0,4997

Par exemple la probabilité que T soit compris entre 0 et 1,7 est :

F(1,7) =0,4554

Il est alors possible de calculer, pour tout t, p(]- ∞ ; t])

Si T est une gaussienne centrée réduite, p(a' < T < b') vaut alors :

p(]- ∞ ; b'[)- p(]- ∞ ; a'[)

Plages de normalité

Grâce au tableau précédent, on peut lire que la probabilité p(T \in [-1 ; 1]) est de 68,26%. c'est aussi la probabilité p(X \in [E(X) - \sigma ; E(X) + \sigma]) si X est une gaussienne. En statistique, cet intervalle est appelé plage de normalité de niveau de confiance 68%, c'est l'intervalle dans lequel se trouve 68% de la population si la distribution est gaussienne.

De même, p(T \in [-2 ; 2]) = 95,44%, et l'intervalle [E(X) − 2σ;E(X) + 2σ] est la plage de normalité à niveau de confiance 95%.

Enfin, p(T \in [-3 ; 3]) = 99,74%, et l'intervalle [E(X) − 3σ;E(X) + 3σ] est la plage de normalité à niveau de confiance 99,7%.

Champ d'application

La loi normale s'utilise comme approximation d'une loi binomiale de paramètres (n ; p) pour n grand et p et 1-p de même ordre de grandeur. C'est une loi normale d'espérance np et d'écart type \sqrt{np(1-p)}

On a dessiné ci-dessous un diagramme en bâtons d'un loi binomiale de paramètres (12 ; 1/3) et la loi normale correspondante d'espérance 4 et d'écart type \sqrt{8/3}

Image manquante
Bernoulli12.png
Image:Bernoulli12.png

puis un diagramme en bâtons d'un loi binomiale de paramètres (60 ; 1/3) et la loi normale correspondante d'espérance 20 et d'écart type \sqrt{40/3}

Image manquante
Bernoulli60.png
Image:Bernoulli60.png

Gauss initialement a utilisé cette distribution pour le calcul d'erreurs.

En statistiques, de nombreux phénomènes suivent des distributions gaussiennes : données biométriques des individus (Adolphe Quételet), mesure du Quotient intellectuel, à compléter par des spécialistes...

Critères de normalité

Le recours à distribution gaussienne est tellement fréquent qu'il peut finir par être abusif. Il faut alors rechercher des critères de normalité.

Le premier et plus simple critère consiste à tracer l'histogramme ou le diagramme en bâtons de la distribution et à vérifier si le diagramme est en forme de « cloche ». C'est un critère subjectif qui permet cependant d'éliminer une partie des distributions jugées alors non gaussiennes.

Le critère suivant consiste à utiliser les plages de normalite ou intervalles de confiance. Si une distribution est gaussienne, 68% de la population est dans l'intervalle [\overline{x}-\sigma ; \overline{x}+\sigma], 95% de la population est dans l'intervalle [\overline{x}-2\sigma ; \overline{x}+2\sigma] et 99% de la population dans l'intervalle [\overline{x}-3\sigma ; \overline{x}+3\sigma]. Si ces pourcentages ne sont pas respectés, il est fort à parier que la distribution n'est pas gaussienne.

On peut aussi utiliser la droite de Henry,en particulier si l'on possède peu de renseignements sur la distribution. La droite de Henry va permettre de porter un diagnostic sur la nature non gaussienne de la distribution, et, dans le cas où celle-ci a des chances d'être gaussienne, elle permet d'en déterminer la moyenne et l'écart type.

Le dernier critère est l'application d'un test d'adéquation (test du χ2) qui valide ou non l'hypothèse de normalité.

Somme de variables gaussiennes

La somme de deux variables gaussiennes indépendantes X et Y est une variable gaussienne d'espérance E(X) + E(Y) et de variance V(X)+ V(Y).

Exemple :Si le contenu d'une boîte de conserve suit une une loi gaussienne de moyenne 400 g et d'écart type 5 g, si le contenant de la boîte de conserve suit une loi gaussienne de moyenne 60 g et d'écart type 2g, la boîte de conserve suit une loi gaussienne de moyenne 460 g et d'écart type \sqrt{29}.

Mélange de populations

Il ne faut pas confondre la somme de deux variables gaussienne qui reste une variable gaussienne et le mélange de deux populations gaussiennes qui n'est pas une population gaussienne.

Un mélange constitué de

suit une loi de moyenne (2/3)×160+(1/3)×130 = 150 cm mais non gaussienne, de densité

h = (2/3)f + (1/3)g.

Sur la représentation graphique, on peut apercevoir une double bosse, soit une distribution bimodale.

Image manquante
Double_Gauss.png
Image:Double_Gauss.png

Simulation

Il est possible de simuler un tirage aléatoire dans une loi normale, par exemple par ordinateur.

Loi normale

Pour une seule variable aléatoire, on peut utiliser la méthode de Box-Muller. Si x1 et x2 sont des variables aléatoires suivant une distribution uniforme sur ]0,1[, alors les variables :

y_{1}=\sqrt{-2\ln x_{1}}\cos2\pi x_{2}
y_{2}=\sqrt{-2\ln x_{1}}\sin2\pi x_{2}

suivent une loi normale réduite. On en déduit que les variables z_1=m+s\cdot y_1 et z_2=m+s\cdot y_2 suivent une loi normale d'espérance m et d'écart-type s.

Loi multinormale

La loi multinormale correspond à l'extension de la loi normale pour plusieurs variables x_1,x_2,\dots,x_n, elle est caractérisée par un vecteur de moyennes m et une matrice de variance-covariance V. Chaque élément mi de m représente l'espérance de xi. La matrice V est symétrique définie positive. L'élément (diagonal) Vii de V représente la variance \sigma^2_i de la variable xi. L'élément (non diagonal) Vij représente la covariance des variables xi et xj.

Pour simuler une loi multinormale de paramètres m et V, on utilise la méthode suivante :

  1. soit u un vecteur constitué de n nombres distribués selon la loi normale centrée-réduite,
  2. soit L la matrice résultant de la factorisation de Cholesky de la matrice V,
  3. le vecteur y = m + Lu suit la loi multinormale de moyenne m et de variance-covariance V.

Voir aussi

Lien externe

See also: Loi normale, Calculatrice, Carl Friedrich Gauss, Covariance, Densité de probabilité, Droite de Henry, Entropie, Espérance, Factorisation de Cholesky