Sciences Économiques et Sociales > Méthodologie de la Recherche en SES > Les Méthodes Quantitatives > Analyse statistique descriptive et inférentielle

Introduction à l'Analyse Statistique Descriptive et Inférentielle en SES

Comprendre les bases de l'analyse statistique descriptive et inférentielle pour interpréter des données économiques et sociales. Ce guide couvre les concepts clés, les méthodes de calcul, et l'interprétation des résultats, le tout adapté aux élèves de lycée.

Qu'est-ce que l'Analyse Statistique?

L'analyse statistique est un ensemble de méthodes qui permettent de collecter, d'organiser, de présenter, d'analyser et d'interpréter des données. En SES, elle est essentielle pour comprendre des phénomènes sociaux et économiques, tester des hypothèses, et prendre des décisions éclairées. Il existe deux grandes branches : l'analyse descriptive et l'analyse inférentielle.

L'analyse descriptive vise à résumer et à décrire les principales caractéristiques d'un ensemble de données. Elle utilise des outils tels que les tableaux, les graphiques, les mesures de tendance centrale (moyenne, médiane, mode) et les mesures de dispersion (variance, écart-type).

L'analyse inférentielle, quant à elle, permet de généraliser les résultats observés sur un échantillon à une population plus large. Elle repose sur des techniques d'estimation et de tests d'hypothèses.

Analyse Statistique Descriptive: Mesures de Tendance Centrale

Les mesures de tendance centrale nous indiquent la valeur typique d'un ensemble de données. Les trois principales sont:

  • La Moyenne: La somme de toutes les valeurs divisée par le nombre total de valeurs. Par exemple, la moyenne des notes d'une classe à un examen.
  • La Médiane: La valeur qui sépare un ensemble de données ordonnées en deux parties égales. C'est la valeur centrale. Elle est moins sensible aux valeurs extrêmes que la moyenne.
  • Le Mode: La valeur qui apparaît le plus souvent dans un ensemble de données. Par exemple, la couleur préférée dans un sondage.

Prenons un exemple concret. Imaginons les salaires annuels (en euros) de 5 personnes : 20 000, 22 000, 25 000, 28 000, 100 000.
  • La moyenne est (20 000 + 22 000 + 25 000 + 28 000 + 100 000) / 5 = 39 000€.
  • La médiane est 25 000€ (la valeur au milieu une fois les données ordonnées).
Dans cet exemple, la moyenne est fortement influencée par le salaire élevé de 100 000€, tandis que la médiane donne une meilleure idée du salaire 'typique'.

Analyse Statistique Descriptive: Mesures de Dispersion

Les mesures de dispersion indiquent à quel point les données sont étalées autour de la tendance centrale. Les principales sont:

  • L'Étendue: La différence entre la valeur maximale et la valeur minimale.
  • La Variance: Une mesure de la dispersion des données autour de la moyenne. Elle est calculée en faisant la moyenne des carrés des écarts à la moyenne.
  • L'Écart-type: La racine carrée de la variance. Elle est plus facile à interpréter que la variance car elle est exprimée dans les mêmes unités que les données.

Reprenons l'exemple des salaires. L'étendue est de 100 000€ - 20 000€ = 80 000€. Un écart-type élevé indiquerait que les salaires sont très dispersés autour de la moyenne, tandis qu'un écart-type faible indiquerait qu'ils sont regroupés autour de la moyenne.

Analyse Statistique Inférentielle: Estimation

L'estimation consiste à utiliser les données d'un échantillon pour estimer une caractéristique de la population (par exemple, la moyenne, la proportion).

  • Estimation Ponctuelle: Une seule valeur est utilisée pour estimer la caractéristique de la population. Par exemple, la moyenne de l'échantillon est utilisée pour estimer la moyenne de la population.
  • Estimation par Intervalle: Un intervalle de valeurs est utilisé pour estimer la caractéristique de la population. Cet intervalle est appelé intervalle de confiance. Par exemple, on peut estimer que la moyenne de la population se situe entre deux valeurs, avec un certain niveau de confiance (par exemple, 95%).

L'intervalle de confiance permet de tenir compte de l'incertitude liée à l'échantillonnage. Plus l'échantillon est grand, plus l'intervalle de confiance est étroit et plus l'estimation est précise.

Analyse Statistique Inférentielle: Tests d'Hypothèses

Les tests d'hypothèses permettent de vérifier si une affirmation (une hypothèse) concernant une population est compatible avec les données observées dans un échantillon.

  • Hypothèse Nulle (H0): L'affirmation que l'on cherche à réfuter.
  • Hypothèse Alternative (H1): L'affirmation que l'on accepte si l'on rejette l'hypothèse nulle.

Le test consiste à calculer une statistique de test (par exemple, un t-test ou un chi-deux) et à comparer sa valeur à une valeur critique. Si la statistique de test est suffisamment grande, on rejette l'hypothèse nulle et on accepte l'hypothèse alternative.

Par exemple, on peut tester l'hypothèse que le salaire moyen des femmes est égal au salaire moyen des hommes (H0). Si l'on rejette cette hypothèse, on accepte l'hypothèse alternative selon laquelle il existe une différence de salaire entre les hommes et les femmes (H1).

Erreurs Courantes et Précautions

Il est crucial d'éviter certaines erreurs lors de l'utilisation des méthodes statistiques :

  • Corrélation n'implique pas causalité : Ce n'est pas parce que deux variables sont corrélées que l'une cause l'autre. Il peut y avoir une troisième variable qui influence les deux.
  • Biais d'échantillonnage : Si l'échantillon n'est pas représentatif de la population, les résultats de l'analyse peuvent être biaisés.
  • Interprétation abusive des résultats : Il est important d'interpréter les résultats statistiques avec prudence et de tenir compte du contexte.

Avant de tirer des conclusions, il est important de vérifier la validité des données, la taille de l'échantillon, et les conditions d'application des tests statistiques.

Ce qu'il faut retenir

  • Analyse Descriptive: Résume et décrit les données à l'aide de mesures de tendance centrale (moyenne, médiane, mode) et de dispersion (étendue, variance, écart-type).
  • Analyse Inférentielle: Permet de généraliser les résultats d'un échantillon à une population grâce à l'estimation (ponctuelle et par intervalle) et aux tests d'hypothèses.
  • Mesures de Tendance Centrale: Moyenne, médiane, mode (indiquent la valeur 'typique').
  • Mesures de Dispersion: Étendue, variance, écart-type (indiquent l'étalement des données).
  • Estimation par Intervalle: Donne une plage de valeurs plausibles pour une caractéristique de la population, avec un niveau de confiance associé.
  • Tests d'Hypothèses: Permettent de vérifier si une affirmation est compatible avec les données observées.
  • Erreurs à Éviter: Corrélation n'implique pas causalité, biais d'échantillonnage, interprétation abusive des résultats.

FAQ

  • Quelle est la différence entre la moyenne et la médiane?

    La moyenne est la somme de toutes les valeurs divisée par le nombre de valeurs, tandis que la médiane est la valeur qui sépare un ensemble de données ordonnées en deux parties égales. La moyenne est sensible aux valeurs extrêmes, tandis que la médiane est plus robuste.
  • Pourquoi utiliser un intervalle de confiance plutôt qu'une estimation ponctuelle?

    Un intervalle de confiance tient compte de l'incertitude liée à l'échantillonnage et fournit une plage de valeurs plausibles pour la caractéristique de la population, alors qu'une estimation ponctuelle ne donne qu'une seule valeur.
  • Que signifie un niveau de confiance de 95%?

    Cela signifie que si l'on répète l'échantillonnage un grand nombre de fois, 95% des intervalles de confiance construits contiendront la vraie valeur de la caractéristique de la population.