Td1 exercices de statistiques descriptives - probabilités et

Probabilités et Statistiques : TD1 Exercices de statistiques descriptives

Télécharger PDF

Exercices de Statistiques Descriptives Approfondis

Introduction aux Statistiques Descriptives

Les statistiques descriptives constituent une branche fondamentale de la statistique. Elles ont pour objectif de collecter, organiser, résumer et présenter les données de manière compréhensible. Elles permettent d'extraire les caractéristiques principales d'un ensemble de données pour en faciliter l'interprétation.

A. Statistiques Descriptives Unidimensionnelles

Cette section est dédiée à l'analyse de variables prises isolément. Elle permet de comprendre leur distribution, leur tendance centrale et leur dispersion.

Exercice 1 : La Formule de Koenig pour la Variance

Soit X une série statistique. Démontrer la formule de Koenig pour la variance : Var(X) = E(X²) - (E(X))², où E(X) représente la moyenne de X et E(X²) la moyenne des carrés de X. Cette formule est particulièrement utile pour simplifier les calculs de variance.

Pour la démonstration, nous partons de la définition de la variance : Var(X) = (1/n) * Σ(x_i - E(X))².

En développant le terme au carré, nous obtenons : Var(X) = (1/n) * Σ(x_i² - 2x_iE(X) + (E(X))²).

Par les propriétés de la sommation, cela se décompose en : Var(X) = (1/n) * Σx_i² - (2E(X)/n) * Σx_i + (1/n) * Σ(E(X))².

Sachant que (1/n) * Σx_i = E(X) et (1/n) * Σ(E(X))² = (E(X))², la formule se simplifie en : Var(X) = E(X²) - 2E(X)E(X) + (E(X))², ce qui donne finalement Var(X) = E(X²) - (E(X))².

Exercice 2 : Approximation de la Médiane et des Quartiles par Interpolation Linéaire

Soit une série statistique de taille N, classée suivant k classes [d_k, d_{k+1}[. On note n_k, N_k, a_k respectivement l'effectif, l'effectif cumulé et l'amplitude de la classe [d_k, d_{k+1}[.

Soit [d_j, d_{j+1}[ la première classe contenant au moins 50% des effectifs cumulés (c'est-à-dire N_j ≥ N/2). Démontrer que l'on peut approcher la médiane (Me) par interpolation linéaire en utilisant la formule :

Me ≈ d_j + ((N/2 - N_{j-1}) / n_j) * a_j

De façon analogue, trouver des formules approchées pour le premier quartile (Q1) et le troisième quartile (Q3). Pour Q1, on cherche la classe où N_j ≥ N/4, et pour Q3, la classe où N_j ≥ 3N/4.

Q1 ≈ d_j + ((N/4 - N_{j-1}) / n_j) * a_j

Q3 ≈ d_j + ((3N/4 - N_{j-1}) / n_j) * a_j

Ces méthodes d'interpolation linéaire sont des approximations couramment utilisées lorsque les données sont regroupées en classes, en supposant une répartition uniforme des observations au sein de chaque classe.

Exercice 3 : Analyse du Nombre de Voitures à un Poste de Péage

Au poste de péage, on compte le nombre de voitures se présentant sur une période de 5 minutes. Sur 100 observations de 5 minutes, on obtient les résultats suivants :

Nombre de voitures123456789101112
Nombre d'observations2814201915962311
  1. Construire la table des fréquences et le diagramme en bâtons en fréquences de la série du nombre de voitures.
  2. Calculer la moyenne et l'écart-type de cette série.
  3. Déterminer la médiane, les quartiles et tracer le box-plot (boîte à moustaches).
  4. Étudier la symétrie de la série à l'aide des mesures de tendance centrale et de dispersion.

Cet exercice pratique l'analyse descriptive d'une variable quantitative discrète, en couvrant le calcul des indicateurs de tendance centrale et de dispersion, ainsi que la visualisation graphique de la distribution des données.

Exercice 4 : Répartition du Chiffre d'Affaires dans le Secteur Automobile

On donne une série unidimensionnelle correspondant à la répartition des entreprises du secteur automobile en fonction de leur chiffre d'affaires en millions d'euros (les classes de chiffres d'affaires seraient fournies pour un calcul complet).

  1. Calculer le chiffre d'affaires moyen et l'écart-type de la série.
  2. Construire l'histogramme des fréquences.
  3. Construire les deux polygones des fréquences cumulées (croissantes et décroissantes).
  4. Calculer la médiane et la proportion d'entreprises dont le chiffre d'affaires est supérieur à 3 millions d'euros.

Cet exercice se concentre sur l'analyse de données continues groupées. L'histogramme et les polygones des fréquences cumulées sont des outils graphiques essentiels pour visualiser la distribution et estimer les quantiles de la variable.

Exercice 5 : Distribution des Demandeurs d'Emploi selon le Sexe et la Classe d'Âge

La distribution des demandeurs d'emploi selon le sexe et la classe d'âge dans une localité est la suivante (les données détaillées par classe d'âge et sexe seraient fournies dans le tableau correspondant).

  1. Tracer les deux courbes de fréquences cumulées croissantes, une pour les hommes et une pour les femmes.
  2. Déterminer les quartiles de la variable X associant à chaque demandeur d'emploi masculin son âge. Répondre à la même question pour les demandeuses d'emploi de sexe féminin.
  3. Formuler des conclusions comparatives basées sur les résultats obtenus.

Cet exercice permet de comparer des distributions de variables quantitatives continues pour différentes sous-populations, en utilisant des outils graphiques comme les courbes de fréquences cumulées (ogives) et des indicateurs de position comme les quartiles.

B. Statistiques Descriptives Bidimensionnelles

Cette section explore les relations entre deux variables simultanément, permettant d'identifier des dépendances, des associations ou des corrélations entre elles.

Exercice 6 : Étude de la Relation entre le Nombre d'Enfants et le Salaire d'un Couple

On cherche à étudier la relation entre le nombre d'enfants (X) d'un couple et son salaire (Y). On dispose de la série bidimensionnelle suivante :

Salaire en euros (Y)Nombre d'enfants (X)
5104
5903
9002
14201
20000
6005
8506
13007
22008
  1. Calculer le coefficient de corrélation linéaire entre ces deux variables statistiques. Quelle conclusion peut-on en tirer sur la nature de leur relation ?
  2. Un expert en démographie affirme que les deux caractéristiques (nombre d'enfants et salaire) sont indépendantes. Qu'en pensez-vous à la lumière de vos calculs ?

Le coefficient de corrélation linéaire mesure la force et la direction de la relation linéaire entre deux variables. Sa valeur est comprise entre -1 et 1. Une valeur proche de 1 indique une forte corrélation positive, proche de -1 une forte corrélation négative, et proche de 0 une absence de corrélation linéaire. L'indépendance statistique est une notion plus forte que la simple absence de corrélation linéaire.

Exercice 7 : Évolution d'un Indice de Salaire et Prévision par Régression Linéaire

L'indice moyen d'un salaire a évolué de la façon suivante (les années et les indices correspondants seraient fournis pour l'analyse).

  1. Représenter cette série statistique par un nuage de points.
  2. En utilisant la méthode des moindres carrés, calculer l'équation de la droite de régression représentant l'indice en fonction de l'année.
  3. Comment pourrait-on prévoir l'indice à l'année 9 en utilisant cette droite de régression ?

Cet exercice illustre la régression linéaire simple, une technique statistique permettant de modéliser la relation entre une variable dépendante (ici, l'indice de salaire) et une variable indépendante (l'année). La méthode des moindres carrés minimise la somme des carrés des erreurs entre les valeurs observées et les valeurs prédites par le modèle linéaire.

Exercice 8 : Démonstration de la Décomposition de la Variance : Variances Inter et Intra-Catégories

Soit X une variable statistique qualitative à k modalités et Y une variable statistique quantitative. Chaque modalité de X définit une sous-population : celle des individus ayant cette modalité.

On note n_j l'effectif correspondant à la modalité j de X, y_j (respectivement s_j²(y)) la moyenne (respectivement la variance) des valeurs de la variable Y pour les individus de la modalité j.

Montrer que la variance totale de Y (s_Y²) peut être décomposée comme la somme d'une variance inter-catégories (s_E²) et d'une variance intra-catégories (s_R²) :

s_Y² = s_E² + s_R²

où s_E² (variance inter-catégories ou expliquée) est définie par (1/N) * Σ(n_j * (y_j - y_barre)²) et s_R² (variance intra-catégories ou résiduelle) est définie par (1/N) * Σ(n_j * s_j²(y)). La variance inter-catégories mesure la dispersion des moyennes des groupes, tandis que la variance intra-catégories mesure la dispersion moyenne au sein de chaque groupe.

Exercice 9 : Analyse du Nombre d'Enfants en Fonction du Sexe

On observe le nombre d'enfants Y sur un ensemble de 12 individus répartis entre les sexes (variable X).

Sexe (X)Nombre d'enfants (Y)
F3, 4, 5, 4, 2, 5
H10, 7, 6, 3, 4, 2
  1. Représenter graphiquement cette série (par exemple, à l'aide de diagrammes en bâtons ou de box-plots pour chaque modalité de sexe).
  2. Calculer les moyennes arithmétiques du nombre d'enfants dans chaque classe de sexe.
  3. Calculer les variances inter et intra-catégories pour cette distribution.
  4. Calculer et interpréter le rapport de corrélation (Êta-carré) entre X et Y. Quelle conclusion générale peut-on en tirer sur l'influence du sexe sur le nombre d'enfants observé ?

Le rapport de corrélation (Êta-carré ou η²) quantifie la proportion de la variance totale de la variable quantitative (nombre d'enfants) qui est expliquée par la variable qualitative (sexe). Une valeur élevée indique une forte dépendance entre les deux variables.

Exercice 10 : Démonstration du Coefficient de Corrélation des Rangs de Spearman

Soient x et y deux séries statistiques de taille n. On note r_x et r_y les séries des rangs correspondantes.

  1. Montrer que la moyenne des rangs r_x est (n+1)/2.
  2. Montrer que la variance des rangs s_rx² est (n²-1)/12.
  3. En posant d_i = r_xi - r_yi, la différence entre les rangs pour chaque observation i, montrer que la variance de la différence des rangs peut être liée à la covariance des rangs.
  4. En déduire l'expression du coefficient de corrélation linéaire entre ces deux séries, appelé coefficient de corrélation des rangs de Spearman (ρ) :

    ρ = 1 - (6 * Σ d_i²) / (n * (n² - 1))

Le coefficient de Spearman est une mesure non-paramétrique de la corrélation. Il évalue la force et la direction d'une relation monotone entre deux variables, c'est-à-dire si elles ont tendance à croître ou décroître ensemble, sans nécessairement suivre une relation linéaire.

Exercice 11 : Comparaison des Classements par Coefficients de Corrélation de Spearman et Kendall

Dix échantillons de cidre ont été classés par ordre de préférence par deux gastronomes (A et B).

Cidre12345678910
Gastronome A12345678910
Gastronome B31426598107
  1. Calculer le coefficient de corrélation des rangs de Spearman. Quelle conclusion en tirez-vous sur le degré d'accord entre les classements des deux gastronomes ?
  2. Une autre façon d'évaluer le lien entre les rangs de deux séries consiste à utiliser le coefficient de corrélation des rangs de Kendall (τ). Ce coefficient est défini par : τ = S / (n * (n - 1) / 2).

    Où S est obtenue de la façon suivante : on considère tous les couples d'individus de la série. On note +1 si les individus i et j sont dans le même ordre pour les deux variables (concordants) et -1 si les deux classements sont en désaccord (discordants). S est la somme des valeurs obtenues pour tous les couples distincts.

    Montrer que τ est compris entre -1 et 1 et qu'il est d'autant plus proche de 1 que les classements sont semblables. Calculer τ pour les données fournies.

Les coefficients de Spearman et Kendall sont tous deux des mesures de corrélation de rangs, mais ils sont calculés différemment et interprètent la concordance de manière légèrement distincte. Kendall est souvent considéré comme plus robuste pour certains types de données, notamment en présence d'ex æquo.

Exercice 12 : Étude de l'Association entre l'Âge d'Obtention du Bac et la Durée du DEUG

On considère un échantillon de 797 étudiants d'une université ayant obtenu le DEUG. On étudie le lien entre l'âge d'obtention du Bac (variable Y), à 4 modalités (moins de 18 ans, 18 ans, 19 ans, plus de 19 ans), et la durée d'obtention du DEUG (variable X), à 3 modalités (2 ans, 3 ans, 4 ans).

On a la table de contingence ci-dessous :

Durée DEUG (X) / Âge Bac (Y)Moins de 18 ans18 ans19 ansPlus de 19 ans
2 ans842247319
3 ans351377527
4 ans14593416
  1. Déterminer le tableau des profils colonnes en pourcentage.
  2. Représenter graphiquement le diagramme en barres de ces profils, permettant de visualiser les distributions conditionnelles de la durée du DEUG en fonction de l'âge d'obtention du Bac.
  3. Déterminer le tableau des effectifs théoriques sous l'hypothèse d'indépendance entre les deux variables.
  4. Calculer l'indice du Chi-2 (Khi-deux) et les contributions de chaque cellule au Chi-2. Quelle conclusion peut-on tirer sur l'existence et la nature de l'association entre l'âge d'obtention du Bac et la durée d'obtention du DEUG ?

Cet exercice illustre l'analyse de l'association entre deux variables qualitatives à l'aide d'un tableau de contingence. Le test du Chi-2 permet de vérifier s'il existe une liaison significative, et l'analyse des profils et contributions aide à comprendre où se situent les éventuelles dépendances.

Foire Aux Questions (FAQ)

Qu'est-ce qu'une statistique descriptive unidimensionnelle ?

Une statistique descriptive unidimensionnelle est l'analyse d'une seule variable à la fois. Elle vise à résumer et à présenter les caractéristiques essentielles de cette variable, telles que sa tendance centrale (moyenne, médiane, mode) et sa dispersion (écart-type, variance, étendue, quartiles). Son but est de comprendre la distribution d'une caractéristique spécifique au sein d'une population ou d'un échantillon.

Quand utilise-t-on les statistiques descriptives bidimensionnelles ?

Les statistiques descriptives bidimensionnelles sont utilisées lorsque l'on souhaite étudier la relation ou l'association entre deux variables simultanément. Cela peut inclure l'analyse de la corrélation entre deux variables quantitatives (comme avec le coefficient de Pearson ou Spearman) ou l'association entre deux variables qualitatives (à l'aide de tableaux de contingence et du test du Chi-2). Elles permettent de déceler des liens ou des dépendances qui ne seraient pas apparents en étudiant les variables séparément.

Quelle est la différence entre le coefficient de corrélation de Spearman et celui de Kendall ?

Les coefficients de Spearman et de Kendall sont tous deux des mesures non-paramétriques de corrélation de rang. Le coefficient de Spearman mesure la force et la direction d'une relation monotone (croissante ou décroissante) entre les rangs des observations pour deux variables. Il est basé sur la corrélation de Pearson appliquée aux rangs. Le coefficient de Kendall, quant à lui, mesure la probabilité que deux observations tirées au hasard aient le même ordre de rang pour les deux variables, par rapport à la probabilité qu'elles aient des ordres différents (nombre de paires concordantes versus discordantes). Kendall est souvent considéré comme plus robuste pour les petits échantillons et en présence d'ex æquo.

Cela peut vous intéresser :

Partagez vos remarques, questions , propositions d'amélioration ou d'autres cours à ajouter dans notre site

Enregistrer un commentaire (0)
Plus récente Plus ancienne