Série n◦1 statistique descriptive - probabilités et statisti

Probabilités et Statistiques : Série N◦1 Statistique Descriptive

Télécharger PDF

Exercices de Statistique Descriptive

Introduction aux concepts de base en statistique

Cette série d'exercices est conçue pour renforcer votre compréhension des concepts fondamentaux en statistique descriptive. Elle aborde la collecte de données, leur représentation graphique, le calcul des mesures de tendance centrale et de dispersion, ainsi que l'analyse des relations entre variables.

Exercice 1 : Analyse des températures

L'Université Hassan II Mohammedia a proposé, pour l'année universitaire 2014-2015, dans le cadre du module M147 - S4 - MIP de la Faculté des Sciences et Techniques, au sein du Département de Mathématiques, cette série d'exercices.

La température dans une région A est relevée chaque jour, à la même heure, pendant une année. Les résultats obtenus sont rassemblés dans le tableau statistique suivant :

Température Nombre de jours
2010
2215
2330
2540
2655
2770
2960
3050
3235
  1. Préciser la population étudiée, le caractère étudié et sa nature.

    Explication :

    La population désigne l'ensemble des individus ou des éléments sur lesquels porte l'étude. Le caractère est la propriété étudiée, et sa nature (quantitative discrète, quantitative continue, qualitative nominale, qualitative ordinale) détermine les méthodes d'analyse appropriées.

  2. Tracer les diagrammes qui permettent de représenter cette distribution statistique.

    Explication :

    Pour une variable quantitative discrète, les diagrammes en bâtons ou à points sont les plus adaptés. Le polygone des fréquences est également une option pertinente pour visualiser la forme de la distribution.

  3. Déterminer le mode, la médiane, la moyenne, l'étendue, l'écart-type et l'écart interquartiles des températures dans la région A.

    Explication :

    Ces mesures permettent de caractériser la tendance centrale (mode, médiane, moyenne) et la dispersion (étendue, écart-type, écart interquartiles) des données. Le mode est la valeur la plus fréquente, la médiane divise la série en deux parties égales, et la moyenne est la somme des valeurs divisée par le nombre d'observations.

  4. La même étude a été réalisée dans une autre région B. Les résultats obtenus sont indiqués dans le tableau suivant :
Température Nombre de jours
1620
1830
2045
2235
2430
2620
2810
3010
3225
3465
3640
3825
4010
  1. Reprendre la question 3 pour la région B. Comparer et commenter les résultats obtenus pour chacune des deux régions.

    Explication :

    La comparaison des indicateurs de tendance centrale et de dispersion entre les deux régions permet de déduire des caractéristiques distinctives, par exemple si une région est plus chaude ou si ses températures sont plus stables.

Exercice 2 : Analyse des salaires

Cet exercice se concentre sur l'analyse de la répartition des salaires au sein d'une entreprise, en utilisant des classes de salaires et en examinant l'impact de différentes augmentations.

Le tableau statistique suivant donne la répartition des employés d’une entreprise en fonction de leurs salaires mensuels :

Salaire (en DH) Effectif
[3000; 5000[20
[5000; 7000[30
[7000; 9000[40
[9000; 13000[60
[13000; 17000[50
[17000; 25000[40
  1. Tracer l’histogramme et le polygone des effectifs. Rappeler la relation qui existe entre l’aire des rectangles de l’histogramme et l’aire délimitée par le polygone des effectifs.

    Explication :

    L'histogramme est utilisé pour représenter des données regroupées en classes. Le polygone des effectifs relie les milieux des sommets des rectangles de l'histogramme. L'aire totale sous l'histogramme est proportionnelle à l'effectif total, de même que l'aire sous le polygone des effectifs.

  2. Tracer la courbe cumulative.

    Explication :

    La courbe cumulative (ou fonction de répartition empirique) permet de visualiser le nombre ou la proportion d'observations inférieures ou égales à une certaine valeur, ce qui est utile pour déterminer les quartiles et la médiane graphiquement.

  3. Déterminer graphiquement une valeur approchée du mode et des trois quartiles.

    Explication :

    Le mode graphique est la valeur correspondant au sommet de l'histogramme (ou du polygone des effectifs) pour les données groupées. Les quartiles peuvent être estimés à partir de la courbe cumulative en trouvant les points correspondant à 25%, 50% et 75% de l'effectif total.

  4. Calculer la proportion d’employés qui gagnent moins de 8500 DH, plus de 11500 DH, un salaire compris entre 8500 DH et 11500 DH ?

    Explication :

    Ces calculs nécessitent d'utiliser les effectifs cumulés et de faire des interpolations linéaires si les valeurs ne correspondent pas exactement aux bornes des classes.

  5. Calculer le mode et les quartiles.

    Explication :

    Pour des données groupées, le mode se calcule par la méthode des fréquences maximales, et les quartiles par interpolation linéaire dans la classe correspondante de la fonction de répartition.

  6. Calculer le salaire moyen et l’écart-type.

    Explication :

    La moyenne est calculée en utilisant les centres de classe pondérés par les effectifs. L'écart-type mesure la dispersion des salaires autour de cette moyenne.

  7. L’entreprise prévoit une augmentation des salaires de ses employés. Que deviennent la moyenne et l’écart-type lorsque :
    1. Tous les salaires augmentent de 500,00 DH ?

      Explication :

      Une addition constante à toutes les valeurs déplace la moyenne de la même constante, mais ne modifie pas la dispersion (l'écart-type reste inchangé).

    2. Tous les salaires augmentent de 5% ?

      Explication :

      Une multiplication par un facteur (ici, 1,05 pour une augmentation de 5%) multiplie la moyenne par ce même facteur et l'écart-type également par ce facteur (valeur absolue du facteur).

  8. Quelle est l’augmentation la plus coûteuse pour l’entreprise ?

    Explication :

    Cela dépendra de l'effectif total des employés et du calcul total des montants d'augmentation pour chaque scénario.

  9. Quelle est l’augmentation qui permet de diminuer la dispersion des salaires au sein de l’entreprise ?

    Explication :

    Une augmentation qui réduit l'écart-type ou le coefficient de variation (écart-type/moyenne) permet de diminuer la dispersion relative des salaires.

  10. Dans cette entreprise se rajoute une catégorie d’employés dont les salaires appartiennent à la classe [25000; 30000[. Quel est l’effectif de cette nouvelle catégorie d’employés sachant que le salaire moyen devient 12420 DH ?

    Explication :

    Ce problème nécessite de résoudre une équation où le nouvel effectif est l'inconnue, en utilisant la formule de la moyenne pondérée pour l'ensemble des employés.

Exercice 3 : Distribution conjointe et corrélations

Cet exercice explore la relation entre deux variables : la note en statistique et le nombre d'absences, à travers l'analyse de leur distribution conjointe, des distributions marginales et des mesures de dépendance.

La distribution conjointe d’un groupe d’étudiants selon la note obtenue en module de statistique (caractère X) et le nombre d’absences aux cours et travaux dirigés (caractère Y) est représentée dans le tableau suivant :

Y\X [0; 6[ [6; 10[ [10; 12[ [12; 14[ [14; 16[ [16; 20[
0036789
1478634
23109521
38128300
412187200
  1. Compléter ce tableau avec les distributions marginales des deux caractères X et Y.

    Explication :

    Les distributions marginales sont obtenues en sommant les effectifs sur les lignes (pour Y) et sur les colonnes (pour X), permettant d'analyser chaque variable séparément.

  2. Tracer l’histogramme et calculer le mode de la distribution marginale de X.
  3. Tracer la courbe cumulative et calculer la médiane de la distribution marginale de X.
  4. Quelle est la proportion des étudiants :
    1. ayant validé le module de statistique (note supérieure à 10) ?
    2. n’ayant pas validé le module de statistique (note comprise entre 0 et 7) ?
    3. ayant obtenu un rattrapage (note comprise entre 7 et 10) ?
  5. Calculer la moyenne et la variance de la distribution marginale de X.
  6. Calculer la moyenne et la variance de la distribution marginale de Y.
  7. Calculer les moyennes conditionnelles de X pour chaque valeur de Y. Conclure.

    Explication :

    Les moyennes conditionnelles montrent comment la moyenne d'une variable change en fonction des valeurs de l'autre variable, révélant ainsi une éventuelle dépendance.

  8. Calculer la covariance des deux variables X et Y.

    Explication :

    La covariance mesure la tendance de deux variables à varier ensemble. Une covariance positive indique une tendance à varier dans la même direction, négative dans des directions opposées.

  9. Déterminer la droite de régression de X en fonction de Y.

    Explication :

    La droite de régression linéaire permet de modéliser la relation linéaire entre deux variables et de prédire les valeurs d'une variable en fonction de l'autre.

  10. Calculer le coefficient de corrélation linéaire. Commenter.

    Explication :

    Le coefficient de corrélation linéaire (entre -1 et +1) indique la force et la direction de la relation linéaire entre X et Y. Plus il est proche de 1 ou -1, plus la corrélation est forte.

Exercice 4 : Corrélation et régression linéaire

Cet exercice se concentre sur l'analyse de la performance des stagiaires avant et après une formation, en utilisant les outils de corrélation et de régression linéaire.

On sélectionne 12 personnes inscrites à un stage de formation. Avant le début de la formation, ces stagiaires subissent un test noté de 0 à 20 (variable X). À l’issue de la formation, les stagiaires subissent un autre test noté aussi de 0 à 20 (variable Y). On a obtenu les résultats suivants :

X Y
38
49
610
713
915
1014
913
1116
1213
1319
156
419
  1. Représenter le nuage statistique des variables X et Y. Commenter.

    Explication :

    Le nuage de points permet de visualiser la relation entre les deux variables et d'identifier une tendance (linéaire, non linéaire) ou l'absence de relation.

    1. Déterminer la droite de régression de Y en fonction de X.
    2. Calculer le coefficient de corrélation linéaire. Commenter le résultat.
  2. On décide d’éliminer les deux derniers stagiaires, et donc de ne tenir compte que des 10 premières valeurs du tableau.
    1. Déterminer la nouvelle droite de régression de Y en fonction de X et la représenter sur le même graphique (justifier la construction).

      Explication :

      La suppression de points atypiques (outliers) peut modifier significativement la pente et l'ordonnée à l'origine de la droite de régression, améliorant potentiellement la qualité de l'ajustement.

    2. Calculer le nouveau coefficient de corrélation linéaire. Commenter le résultat.

      Explication :

      Un changement du coefficient de corrélation linéaire après suppression de points peut indiquer que les points éliminés étaient des valeurs extrêmes ou des erreurs, influençant fortement la relation.

Exercice 5 : Données de Galton sur la taille

Cet exercice utilise les célèbres données de Francis Galton sur l'héritabilité de la taille pour étudier les distributions marginales, la proportion d'individus dans certaines catégories et l'indépendance des variables.

En 1885, Francis Galton publie un tableau de données comparant la taille Y des enfants avec la taille X de leurs parents (la taille des parents est égale à la moyenne de la taille du père et de la mère). Les tailles sont exprimées en pouces (1 pouce = 2,54 cm).

Y\X [60; 64[ [64; 66[ [66; 68[ [68; 70[ [70; 74[
[60; 64[33231159
[64; 66[101732168859
[66; 68[836666933893
[68; 70[747990115991
[70; 72[22133858
[72; 74[000320
  1. Préciser la population étudiée, les caractères étudiés et leurs natures.
  2. Compléter le tableau avec les distributions marginales des deux variables X et Y.
  3. Tracer l’histogramme et le polygone des fréquences de la distribution marginale de X.
  4. Tracer la courbe cumulative de la distribution marginale de X et représenter les trois quartiles sur le même graphique.
  5. Quelle est la proportion d’enfants :
    1. dont la taille est inférieure à 70 ?
    2. dont la taille est supérieure à 68 ?
    3. dont la taille est comprise entre 68 et 70 ?
  6. Parmi les enfants dont la taille est comprise entre 70 et 74, quel est le pourcentage des enfants dont les parents ont une taille comprise entre 60 et 64 ?

    Explication :

    Cette question demande une proportion conditionnelle, c'est-à-dire le pourcentage d'une sous-population spécifique.

  7. Quelle est la taille la plus fréquente des enfants ? Convertir le résultat en centimètres.
  8. Quelle est la taille médiane des enfants ? Convertir le résultat en centimètres.
  9. Même question pour la taille moyenne et l’écart-type. (On peut poser le changement de variables : Z = Y - 67)

    Explication :

    Le changement de variable (ou centrage-réduction) peut simplifier les calculs de moyenne et d'écart-type sans altérer la nature de la distribution ni les propriétés de dispersion.

  10. Les variables X et Y sont-elles indépendantes ? Justifier.

    Explication :

    Deux variables sont indépendantes si la distribution conditionnelle de l'une est la même quelle que soit la valeur de l'autre. En pratique, cela se vérifie en comparant les fréquences conditionnelles ou en calculant le coefficient de corrélation.

Foire Aux Questions (FAQ)

Qu'est-ce qu'une population et un caractère en statistique descriptive ?

En statistique, la population est l'ensemble des unités (individus, objets, événements) sur lesquelles porte une étude. Un caractère (ou variable) est une propriété ou une caractéristique que l'on observe sur ces unités. Par exemple, dans une étude sur les salaires des employés, la population est l'ensemble des employés, et le salaire est le caractère étudié.

Quelle est la différence entre une variable quantitative discrète et continue ?

Une variable quantitative discrète est une variable qui ne peut prendre qu'un nombre fini ou dénombrable de valeurs (souvent des entiers), comme le nombre d'enfants ou de voitures. Une variable quantitative continue peut prendre n'importe quelle valeur dans un intervalle donné, comme la taille, le poids ou la température.

Pourquoi calculer la moyenne, la médiane et le mode ?

Ces trois mesures sont des indicateurs de tendance centrale qui décrivent le "centre" ou la valeur typique d'une distribution. La moyenne est sensible aux valeurs extrêmes, la médiane est robuste à ces valeurs et divise la série en deux, tandis que le mode est la valeur la plus fréquente, utile pour identifier les pics de distribution.

Cela peut vous intéresser :

Partagez vos remarques, questions , propositions d'amélioration ou d'autres cours à ajouter dans notre site

Enregistrer un commentaire (0)
Plus récente Plus ancienne