Mathématiques > Probabilités et Statistiques > Statistiques > Paramètres de dispersion (étendue, variance, écart-type)

Paramètres de dispersion : Étendue, Variance et Écart-type

Comprendre et calculer l'étendue, la variance et l'écart-type. Découvrez comment ces mesures de dispersion permettent d'analyser la distribution des données et de mieux les interpréter.

Introduction aux paramètres de dispersion

Dans le domaine des statistiques, les paramètres de dispersion sont essentiels pour comprendre comment les données sont réparties autour de leur valeur centrale (comme la moyenne). Contrairement à la moyenne, qui nous donne une idée de la valeur typique, les paramètres de dispersion nous indiquent à quel point les données sont regroupées ou dispersées. Les trois principaux paramètres de dispersion que nous allons explorer sont l'étendue, la variance et l'écart-type.

L'étendue

L'étendue est la mesure de dispersion la plus simple. Elle est calculée en soustrayant la valeur la plus petite de la valeur la plus grande dans un ensemble de données.

Formule : Étendue = Valeur maximale - Valeur minimale

Exemple : Considérons l'ensemble de données suivant : 4, 6, 9, 3, 7. La valeur maximale est 9 et la valeur minimale est 3. Donc, l'étendue est 9 - 3 = 6.

Avantages : Facile à calculer et à comprendre.

Inconvénients : Très sensible aux valeurs extrêmes (outliers) et ne tient pas compte de la distribution des données entre les valeurs maximale et minimale.

La variance

La variance mesure la dispersion des données autour de la moyenne. Elle calcule la moyenne des carrés des écarts à la moyenne. Un écart est simplement la différence entre une donnée individuelle et la moyenne de l'ensemble de données.

Formule :

Variance (population) : σ² = Σ(xi - μ)² / N

Où:

  • σ² est la variance de la population
  • xi est chaque valeur de l'ensemble de données
  • μ est la moyenne de la population
  • N est le nombre total de valeurs dans la population
  • Σ désigne la somme

Variance (échantillon) : s² = Σ(xi - x̄)² / (n - 1)

Où:
  • s² est la variance de l'échantillon
  • xi est chaque valeur de l'ensemble de données
  • x̄ est la moyenne de l'échantillon
  • n est le nombre total de valeurs dans l'échantillon
  • Σ désigne la somme

Étapes pour calculer la variance :
  1. Calculer la moyenne de l'ensemble de données.
  2. Pour chaque donnée, calculer l'écart à la moyenne (xi - μ ou xi - x̄).
  3. Élever chaque écart au carré.
  4. Calculer la somme de tous les écarts au carré (Σ(xi - μ)² ou Σ(xi - x̄)²).
  5. Diviser cette somme par N (pour la population) ou (n - 1) (pour l'échantillon). On divise par (n-1) pour l'échantillon afin d'obtenir une estimation non biaisée de la variance de la population.

Exemple : Considérons l'ensemble de données suivant : 4, 6, 9, 3, 7.
  1. Moyenne : (4 + 6 + 9 + 3 + 7) / 5 = 5.8
  2. Écarts à la moyenne : -1.8, 0.2, 3.2, -2.8, 1.2
  3. Écarts au carré : 3.24, 0.04, 10.24, 7.84, 1.44
  4. Somme des écarts au carré : 3.24 + 0.04 + 10.24 + 7.84 + 1.44 = 22.8
  5. Variance (échantillon) : 22.8 / (5 - 1) = 5.7

Interprétation : Une variance élevée indique que les données sont très dispersées autour de la moyenne, tandis qu'une variance faible indique que les données sont regroupées autour de la moyenne.

Inconvénients : La variance est exprimée en unités au carré, ce qui peut rendre son interprétation difficile.

L'écart-type

L'écart-type est la racine carrée de la variance. Il mesure également la dispersion des données autour de la moyenne, mais il est exprimé dans la même unité que les données originales, ce qui le rend plus facile à interpréter.

Formule :

Écart-type (population) : σ = √σ² = √[Σ(xi - μ)² / N]

Écart-type (échantillon) : s = √s² = √[Σ(xi - x̄)² / (n - 1)]

Étapes pour calculer l'écart-type :

  1. Calculer la variance.
  2. Prendre la racine carrée de la variance.

Exemple : En utilisant l'exemple précédent, la variance (échantillon) est de 5.7. Donc, l'écart-type (échantillon) est √5.7 ≈ 2.39.

Interprétation : Un écart-type élevé indique une plus grande dispersion des données autour de la moyenne, tandis qu'un écart-type faible indique un regroupement plus étroit des données autour de la moyenne.

Avantages : Facile à interpréter car il est exprimé dans la même unité que les données originales. Largement utilisé en statistique pour diverses analyses.

Importance du choix entre Variance Population et Variance Échantillon

Il est crucial de bien distinguer quand utiliser la variance de la population (σ²) et quand utiliser la variance de l'échantillon (s²).

Variance de la population (σ²) :

  • Utilisée lorsque vous avez accès à l'ensemble complet de la population.
  • Permet de calculer une variance précise pour cette population.

Variance de l'échantillon (s²) :
  • Utilisée lorsque vous travaillez avec un échantillon prélevé d'une population plus grande.
  • Fournit une estimation de la variance de la population basée sur les données de l'échantillon.
  • La division par (n-1) au lieu de n dans la formule de l'échantillon corrige un biais et permet d'obtenir une estimation plus précise de la variance de la population.

En résumé, si vous avez les données de toute la population, utilisez la variance de la population. Si vous n'avez qu'un échantillon, utilisez la variance de l'échantillon.

Exemple concret

Prenons l'exemple des notes d'un examen de mathématiques pour une classe de lycée. Supposons que nous ayons les notes suivantes (sur 20) : 10, 12, 14, 11, 13.

Calcul de l'étendue : La note maximale est 14, et la note minimale est 10. Donc l'étendue est 14 - 10 = 4.

Calcul de la variance (échantillon):

  1. Moyenne : (10 + 12 + 14 + 11 + 13) / 5 = 12
  2. Écarts à la moyenne : -2, 0, 2, -1, 1
  3. Écarts au carré : 4, 0, 4, 1, 1
  4. Somme des écarts au carré : 10
  5. Variance (échantillon): 10 / (5 - 1) = 2.5

Calcul de l'écart-type (échantillon): L'écart-type est la racine carrée de la variance. Donc l'écart-type est √2.5 ≈ 1.58.

Interprétation : L'étendue de 4 nous indique que les notes varient sur un intervalle de 4 points. L'écart-type de 1.58 nous indique que les notes sont relativement regroupées autour de la moyenne de 12. Un écart-type plus grand indiquerait une plus grande dispersion des notes.

Ce qu'il faut retenir

  • Étendue : Différence entre la valeur maximale et la valeur minimale. Facile à calculer mais sensible aux valeurs extrêmes.
  • Variance : Mesure la dispersion autour de la moyenne. Exprimée en unités au carré. Formules différentes pour population (σ²) et échantillon (s²).
  • Écart-type : Racine carrée de la variance. Exprimée dans la même unité que les données. Plus facile à interpréter. Formules différentes pour population (σ) et échantillon (s).
  • Choix entre population et échantillon : Utilisez les formules de la population si vous avez toutes les données de la population. Utilisez les formules de l'échantillon si vous travaillez avec un échantillon pour estimer la variance ou l'écart-type de la population.
  • Les paramètres de dispersion fournissent des informations importantes sur la répartition des données et complètent l'information fournie par les mesures de tendance centrale (comme la moyenne).

FAQ

  • Quelle est la différence entre la variance et l'écart-type?

    La variance est la moyenne des carrés des écarts à la moyenne, tandis que l'écart-type est la racine carrée de la variance. L'écart-type est plus facile à interpréter car il est exprimé dans la même unité que les données originales.
  • Quand dois-je utiliser la formule de la variance pour une population et quand dois-je utiliser la formule pour un échantillon?

    Vous devez utiliser la formule pour une population lorsque vous avez les données de toute la population. Vous devez utiliser la formule pour un échantillon lorsque vous travaillez avec un échantillon prélevé d'une population plus grande.
  • Pourquoi divise-t-on par (n-1) et non par n lors du calcul de la variance d'un échantillon?

    Diviser par (n-1), appelé degrés de liberté, fournit une estimation non biaisée de la variance de la population à partir de l'échantillon. Cela corrige une sous-estimation qui se produirait si l'on divisait simplement par n.