Estimateurs biaisés : focus sur les indicateurs de dispersion

Introduction

 

Un des objectif d’une étude statistique est d’estimer des quantités (ex : moyenne, variance, écart-type, …) permettant de décrire une population afin d’en étudier les caractéristiques. Pour estimer ces quantités, il est nécessaire de définir des fonctions mathématiques qu’on appelle des estimateurs. Ces estimateurs sont ensuite appliqués sur les données d‘échantillons issus de la population d’étude. Ainsi, si on souhaite estimer l’âge moyen des patients d’une population d’étude (noté ), on utilise l’estimateur de la moyenne arithmétique, en notant X la variable aléatoire représentant l’âge des patients : 

Estimation de la variance d’une variable aléatoire

 

Pour reprendre l’exemple précédent, imaginons que l’objectif soit d’estimer la variance de l’âge des patients dans la population. Pour ce faire, il est nécessaire de construire un estimateur de la variance. Une première proposition serait d’estimer de manière naïve la variance à l’aide de l’estimateur suivant :

Il est possible de démontrer que cet estimateur est en réalité biaisé, malgré son apparence intuitive. On propose alors l’estimateur de la variance suivant :

Il est possible de démontrer que cet estimateur est un estimateur sans biais de la variance de l’âge des patients dans la population d’étude*.

Pour illustrer cela, des simulations ont été effectuées. Le graphique suivant présente les estimations pour différentes tailles d’échantillon considérées.

Les résultats permettent de constater que pour des tailles d’échantillon faibles (inférieures ou égales à 10) le biais de l’estimateur naïf de la variance peut être assez élevé. En revanche pour des tailles d’échantillon plus importantes (supérieures ou égales à 100) le biais devient négligeable. L’estimateur corrigé de la variance est lui toujours sans biais, quelle que soit la taille d’échantillon considérée. La correction de l’estimateur n’étant pas complexe, il est bon de conserver cet estimateur corrigé, quelle que soit la taille d’échantillon considérée.

Estimation de l’écart-type d’une variable aléatoire

 

Il a été démontré précédemment que l’estimateur  était un estimateur non-biaisé de la variance d’une variable aléatoire. Pour estimer l’écart-type, il serait alors tentant de calculer . Il est cependant possible de démontrer que  est un estimateur biaisé de l’écart-type dans la population.

Il est également possible de démontrer que  devrait être un estimateur encore plus biaisé*.

Contrairement à l’estimateur de la variance, il est ici impossible de définir un estimateur de l’écart-type qui soit sans biais, quelle que soit la distribution de la variable X. En revanche, dans le cas où X suit une loi normale, il est possible d’exprimer le biais de . Il s’agit d’un biais multiplicatif noté  par convention*.

Ainsi, dans le cas où X suit une loi normale, il est possible de calculer l’estimateur sans biais suivant :

Pour illustrer les trois estimateurs de l’écart-type présentés ci-dessus, une étude de simulation similaire à la précédente a été menée. Le graphique suivant présente les estimations pour les différentes tailles d’échantillon considérées.

Les résultats permettent de constater que pour des tailles d’échantillon faibles (inférieures ou égales à 10) le biais de l’estimateur  peut être assez élevé. En revanche pour des tailles d’échantillon plus importantes (supérieures ou égales à 50) le biais devient négligeable. L’estimateur corrigé de l’écart-type (par la quantité ) est lui toujours sans biais, quelle que soit la taille d’échantillon considérée. Concernant l’estimateur , celui-ci n’a aucun intérêt car il est toujours plus biaisé que .

La correction de l’estimateur se fait au travers d’une quantité assez complexe (), c’est pour cela que l’estimateur biaisé de l’écart-type est conservé pour des tailles d’échantillons assez grandes, en revanche il est important d’apporter la correction pour des échantillons de petite taille.

Conclusion

 

Ce court article avait pour objectif de sensibiliser les lecteurs à la notion de biais d’un estimateur, et de rappeler à la vigilance de chacun. L’exemple de l’estimateur de l’écart-type démontre de manière assez efficace que les intuitions peuvent parfois jouer des tours en statistiques.

 

Y.BLANGERO

 

*démonstration disponible sur demande

Pour plus d’information sur la version longue de cet article, vous pouvez nous contacter à l’adresse contact@soladis.fr.

stats.soladis-blanc

Soladis - France (siège)
6-8 rue Bellecombe
69006 LYON - FRANCE
Tél: +33(0)4.72.83.86.70

Soladis GmbH - Suisse
Lange Gasse 15
CH-4052 Basel
Phone: +41(0)58.258.15.80

Soladis Inc. - USA
185 Alewife Brook Pkwy, Unit 210
Cambridge, MA 02138-1100
Phone: +1(347).417.4008

    NOUS CONTACTER


    Avant de valider, merci de recopier ce code captcha

    dans le champ suivant :

    RECHERCHER

    Inscrivez-vous à notre newsletter

    By clicking on the link below, you will be redirected to Youtube. Third-party cookies may then be installed on your browser. These cookies are not implemented directly by the Soladis Statistics site but by the site to which you connect.
    Important: these cookies are subject to their own privacy policies and are in no way the responsibility of Soladis.
    You can view Youtube's cookie policy by clicking on the following link: Google – Privacy & terms

      Follow Soladis on Youtube

    By clicking on the link below, you will be redirected to LinkedIn. Third-party cookies may then be installed on your browser. These cookies are not implemented directly by the Soladis Statistics site but by the social network site to which you connect.
    These cookies are subject to their own privacy policies and are in no way the responsibility of Soladis.
    You can view LinkedIn's cookie policy by clicking on the following link :  LinkedIn – Cookie Policy

    Follow Soladis on LinkedIn

    En cliquant sur le lien ci-dessous, vous allez être redirigé vers Youtube. Des cookies tiers peuvent alors être installés sur votre navigateur. Ces cookies ne sont pas implémentés directement par le site Soladis Statistics mais par le site auquel vous vous connectez.
    Important : ces cookies sont soumis à leurs propres politiques de confidentialité et ne relèvent en aucun cas de la responsabilité de Soladis.
    Vous pouvez consulter la politique de Youtube en matière de cookies en cliquant sur le lien suivant : Google – Règles de confidentialité et conditions d’utilisation

      Suivre Soladis sur Youtube

    En cliquant sur le lien ci-dessous, vous allez être redirigé vers LinkedIn. Des cookies tiers peuvent alors être installés sur votre navigateur. Ces cookies ne sont pas implémentés directement par le site Soladis Statistics mais par le site de réseau social auquel vous vous connectez.
    Ces cookies sont soumis à leurs propres politiques de confidentialité et ne relèvent en aucun cas de la responsabilité de Soladis.
    Vous pouvez consulter la politique de LinkedIn en matière de cookies en cliquant sur le lien suivant : LinkedIn – Politique relative aux cookies

      Suivre Soladis sur LinkedIn