next up previous contents
suivant: Fréquence monter: Estimation par intervalle de précédent: Estimation par intervalle de   Table des matières

Moyenne

$ \; $

Dans la situation de l'exemple [*], plutôt que d'estimer à 774,7 grammes la moyenne inconnue $ m$ des masses des 500 pièces, nous allons mettre en oeuvre une méthode permettant d'obtenir des intervalles qui, dans un grand pourcentage de cas choisi à l'avance, par exemple 95% ou 99%, contiennent la moyenne inconnue $ m$ de la population.

Imaginons, que dans la population des 500 pièces, on prélève au hasard et avec remise une succession d'échantillons de même effectif $ n=36$ dont on calcule les moyennes respectives $ \overline{x_{1}}$ pour le premier échantillon, $ \overline{x_{2}}$ pour le deuxième échantillon, et ainsi de suite. De plus, on suppose que l'écart-type $ \sigma $ de cette population est connu et égal à 12,5 grammes. Soit $ \overline{X}$ la variable aléatoire qui, à chacun de ces échantillons de taille 36 associe la moyenne de cet échantillon. $ \overline{X}$ prend successivement les valeurs $ \overline{x_{1}}$ , $ \overline{x_{2}}$, ...

On suppose que les conditions sont réunies pour pouvoir utiliser une conséquence du théorème [*] de la limité centrée et faire l'approximation que la variable aléatoire $ \overline{X}$ suit la loi normale $ \mathcal{N}\left(m,\frac{\sigma }{\sqrt{n}}\right)$ . Dans ce cas, la variable aléatoire

$\displaystyle \frac{\overline{X}-m}{\frac{\sigma }{\sqrt{n}}}=\frac{\sqrt{n}}{\sigma }\left(\overline{X}-m\right)$

suit la loi normale centrée réduite. Dans ce cas, on a pour tout $ t\geqslant 0$ :

$\displaystyle P\left(-t\leqslant T\leqslant t\right)=2\Pi (t)-1$

Par exemple, $ 2\Pi (t)-1=0,95\Leftrightarrow \Pi (t)=0,975\Leftrightarrow t\backsimeq 1,96$. On en déduit donc ;

$\displaystyle P\left(-1,96\leqslant \frac{\sqrt{n}}{\sigma }\left(\overline{X}-...
...t{n}}\leqslant \overline{X}\leqslant m+1,96\frac{\sigma }{\sqrt{n}}\right)=0,95$

Cette égalité signifie que, avant de prélever un échantillon de taille $ n$ dans la population, il y a 95 chances sur 100 pour que la variable aléatoire $ \overline{X}$ prenne une valeur comprise dans l'intervalle

$\displaystyle \left[m-1,96\frac{\sigma }{\sqrt{n}};m+1,96\frac{\sigma }{\sqrt{n}}\right]$

Comme le nombre $ m$ est inconnu, on utilise les résultats précédents pour encadrer $ m$ :

$\displaystyle P\left(-1,96\leqslant \frac{\sqrt{n}}{\sigma }\left(\overline{X}-...
...t{n}}\leqslant m\leqslant \overline{X}+1,96\frac{\sigma }{\sqrt{n}}\right)=0,95$

Dans cette égalité, $ m$ est une constante inconnue et la probabilité 0,95 concerne la variable aléatoire $ \overline{X}$ qui permet de définir les variables aléatoires $ \overline{X}-1,96\frac{\sigma }{\sqrt{n}}$ et $ \overline{X}+1,96\frac{\sigma }{\sqrt{n}}$. Ainsi, avant de prélever un échantillon, de taille $ n$ dans la population, il y a 95 chances sur 100 pour que, d'une part la variable aléatoire $ \overline{X}-1,96\frac{\sigma }{\sqrt{n}}$ prenne une valeur inférieure à $ m$, et d'autre part, que la variable aléatoire $ \overline{X}+1,96\frac{\sigma }{\sqrt{n}}$ prenne une valeur supérieure à $ m$.

En revanche, après le prélèvement d'un échantillon, il n'y a plus de probabilités à envisager. Il est vrai ou faux de dire que la moyenne $ m$ de la population est située dans l'intervalle fixe

$\displaystyle \left[\overline{x}-1,96\frac{\sigma }{\sqrt{n}};\overline{x}+1,96\frac{\sigma }{\sqrt{n}}\right]$

Dans le cas de l'exemple [*], on a $ n=36$, $ \overline{x}\backsimeq 774,7$ et $ \sigma \backsimeq 12,5$ donc

$\displaystyle \left[\overline{x}-1,96\frac{\sigma }{\sqrt{n}};\overline{x}+1,96\frac{\sigma }{\sqrt{n}}\right]=\left[770,61;778,79\right]$

Définition 19   Cet intervalle est appelé intervalle de confiance de la moyenne de la population avec le coefficient de confiance 95 % ( ou avec le risque de 5 % ).

Remarquons que cet intervalle de confiance de la moyenne $ m$ de la population a pour centre la moyenne $ \overline{x}$ de l'échantillon qui sert à le définir. Avec d'autres échantillons, on obtiendrait de nouveaux intervalles de confiance.

Si on prélevait un très grand nombre de tels échantillons, environ 95 pour 100 d'entre eux contiendraient la moyenne inconnue $ m$ de la population. En fait, on n'en prélève qu'un seul, et on ne peut pas savoir si celui-ci contient ou non le nombre $ m$, mais la méthode mise en oeuvre permet d'obtenir un intervalle contenant $ m$ dans 95 cas sur 100.

De manière générale, on peut donc énoncer :

Définition 20   L'intervalle

$\displaystyle \left[\overline{x}-t\frac{\sigma }{\sqrt{n}};\overline{x}+t\frac{\sigma }{\sqrt{n}}\right]$

est l'intervalle de confiance de la moyenne $ m$ de la population avec le coefficient de confiance $ \left(2\Pi (t)-1\right)$, ayant pour centre la moyenne $ \overline{x}$ de l'échantillon considéré.

Lorsque l'effectif $ n$ de l'échantillon est suffisamment grand, on peut prendre pour valeur de $ \sigma ,$ si on ne le connait pas, son estimation ponctuelle.

Dans le cas où $ n$ n'est pas petit par rapport à l'effectif $ N$ de la population et où le tirage des éléments d'un échantillon se fait sans remise, l'écart-type de $ \overline{X}$ est

$\displaystyle \frac{\sigma }{\sqrt{n}}\times \sqrt{\frac{N-n}{N-1}}$

On ne peut pas savoir si la moyenne $ m$ de la population appartient ou non à l'intervalle de confiance associé au seul échantillon prélevé. D'autre part, si $ m$ appartient à cet intervalle, $ m$ n'a pas plus de raison d'être près du centre $ \overline{x}$ de l'intervalle que près d'une de ses extrémités ou en tout autre endroit de l'intervalle.


next up previous contents
suivant: Fréquence monter: Estimation par intervalle de précédent: Estimation par intervalle de   Table des matières
Michel 2002-07-27