Sciences Économiques et Sociales > Méthodologie de la Recherche en SES > Les Méthodes Quantitatives > Analyse statistique descriptive et inférentielle
Introduction à l'Analyse Statistique Descriptive et Inférentielle en SES
Comprendre les bases de l'analyse statistique descriptive et inférentielle pour interpréter des données économiques et sociales. Ce guide couvre les concepts clés, les méthodes de calcul, et l'interprétation des résultats, le tout adapté aux élèves de lycée.
Qu'est-ce que l'Analyse Statistique?
L'analyse statistique est un ensemble de méthodes qui permettent de collecter, d'organiser, de présenter, d'analyser et d'interpréter des données. En SES, elle est essentielle pour comprendre des phénomènes sociaux et économiques, tester des hypothèses, et prendre des décisions éclairées. Il existe deux grandes branches : l'analyse descriptive et l'analyse inférentielle.
L'analyse descriptive vise à résumer et à décrire les principales caractéristiques d'un ensemble de données. Elle utilise des outils tels que les tableaux, les graphiques, les mesures de tendance centrale (moyenne, médiane, mode) et les mesures de dispersion (variance, écart-type).
L'analyse inférentielle, quant à elle, permet de généraliser les résultats observés sur un échantillon à une population plus large. Elle repose sur des techniques d'estimation et de tests d'hypothèses.
Analyse Statistique Descriptive: Mesures de Tendance Centrale
Les mesures de tendance centrale nous indiquent la valeur typique d'un ensemble de données. Les trois principales sont:
Prenons un exemple concret. Imaginons les salaires annuels (en euros) de 5 personnes : 20 000, 22 000, 25 000, 28 000, 100 000.
Dans cet exemple, la moyenne est fortement influencée par le salaire élevé de 100 000€, tandis que la médiane donne une meilleure idée du salaire 'typique'.
Analyse Statistique Descriptive: Mesures de Dispersion
Les mesures de dispersion indiquent à quel point les données sont étalées autour de la tendance centrale. Les principales sont:
Reprenons l'exemple des salaires. L'étendue est de 100 000€ - 20 000€ = 80 000€. Un écart-type élevé indiquerait que les salaires sont très dispersés autour de la moyenne, tandis qu'un écart-type faible indiquerait qu'ils sont regroupés autour de la moyenne.
Analyse Statistique Inférentielle: Estimation
L'estimation consiste à utiliser les données d'un échantillon pour estimer une caractéristique de la population (par exemple, la moyenne, la proportion).
L'intervalle de confiance permet de tenir compte de l'incertitude liée à l'échantillonnage. Plus l'échantillon est grand, plus l'intervalle de confiance est étroit et plus l'estimation est précise.
Analyse Statistique Inférentielle: Tests d'Hypothèses
Les tests d'hypothèses permettent de vérifier si une affirmation (une hypothèse) concernant une population est compatible avec les données observées dans un échantillon.
Le test consiste à calculer une statistique de test (par exemple, un t-test ou un chi-deux) et à comparer sa valeur à une valeur critique. Si la statistique de test est suffisamment grande, on rejette l'hypothèse nulle et on accepte l'hypothèse alternative.
Par exemple, on peut tester l'hypothèse que le salaire moyen des femmes est égal au salaire moyen des hommes (H0). Si l'on rejette cette hypothèse, on accepte l'hypothèse alternative selon laquelle il existe une différence de salaire entre les hommes et les femmes (H1).
Erreurs Courantes et Précautions
Il est crucial d'éviter certaines erreurs lors de l'utilisation des méthodes statistiques :
Avant de tirer des conclusions, il est important de vérifier la validité des données, la taille de l'échantillon, et les conditions d'application des tests statistiques.
Ce qu'il faut retenir
FAQ
-
Quelle est la différence entre la moyenne et la médiane?
La moyenne est la somme de toutes les valeurs divisée par le nombre de valeurs, tandis que la médiane est la valeur qui sépare un ensemble de données ordonnées en deux parties égales. La moyenne est sensible aux valeurs extrêmes, tandis que la médiane est plus robuste. -
Pourquoi utiliser un intervalle de confiance plutôt qu'une estimation ponctuelle?
Un intervalle de confiance tient compte de l'incertitude liée à l'échantillonnage et fournit une plage de valeurs plausibles pour la caractéristique de la population, alors qu'une estimation ponctuelle ne donne qu'une seule valeur. -
Que signifie un niveau de confiance de 95%?
Cela signifie que si l'on répète l'échantillonnage un grand nombre de fois, 95% des intervalles de confiance construits contiendront la vraie valeur de la caractéristique de la population.