Examen data mining master ii 2015 2016

Ce document académique est destiné aux étudiants universitaires de Master II en Informatique, spécialité Data Mining, de l'Université M'hamed Bougara de Boumerdès.

Il contient une épreuve d'examen du module de Data Mining de l'année 2015/2016, accompagnée de sa correction détaillée. Cette ressource pédagogique couvre des notions essentielles, notamment :

  • Les différences entre segmentation et classification ;
  • La vérification et l'interprétation des modèles de régression linéaire ;
  • Les points forts et inconvénients de l'algorithme Apriori ;
  • L'application et l'interprétation de l'Analyse en Composantes Principales (ACP).
Examen data mining master ii 2015 2016

Examen Data Mining Master II 2015-2016

Télécharger PDF

Examen de Data Mining: Questions et Corrigé (2015-2016)

Ce document présente les questions et le corrigé d'un examen de Data Mining proposé par le Département d'Informatique de la Faculté des Sciences de l'Université M'hamed Bougara de Boumerdès.

Informations sur l'examen :

  • Nature de l'examen : Examen Type Libre et Documenté (ETLD)
  • Durée : 1h30
  • Documents : Non autorisés
  • Module : Data Mining
  • Filière : Master II
  • Année universitaire : 2015/2016
  • Barème : Exercice 1 (9 points), Exercice 2 (11 points)
  • Responsable du module : A. Berrichi

Questions de l'examen (9 points)

1. Différences entre segmentation et classification

La segmentation et la classification sont deux tâches importantes en Data Mining. Quelles sont les principales différences entre elles ? (Citer 3 différences)

2. Vérification de l'ajustement d'un modèle de régression linéaire

Dans un problème de régression linéaire, comment vérifier que le modèle ajuste bien les données ? (2 lignes max)

3. Modèle extrait des données en régression linéaire

Dans un problème de régression linéaire, en quoi consiste le modèle extrait des données ?

4. Points forts de l'algorithme Apriori

Quels sont les points forts de l'algorithme Apriori ? (Citer 2 points)

5. Inconvénients de l'algorithme Apriori

Quels sont les inconvénients de l'algorithme Apriori ? (Citer 2 inconvénients)

6. Interprétation d'une règle Apriori

Interpréter la règle {Imprimante, Toner} → {Rame de papier}, extraite par l'algorithme Apriori, avec un support de 0.6 et une confiance de 100%. (2 lignes)

Exercice (11 points)

On soumet à l'Analyse en Composantes Principales (ACP) normée un tableau de données X représentant p=6 types de productions agronomiques relevées pendant n=8 années consécutives (1961-1968).

Renseignements fournis :

  • Moyennes des variables :
    • X1: 129.8
    • X2: 95.5
    • X3: 129.5
    • X4: 69.0
    • X5: 46.8
    • X6: 115.8
  • Écart-types des variables :
    • X1: 14.0
    • X2: 32.8
    • X3: 54.3
    • X4: 72
    • X5: 17.5
    • X6: 23.9
  • Premières grandes valeurs propres de la matrice de corrélations :
    • λ1 = 3.70216
    • λ2 = 1.32015
    • λ3 = 0.91722
    • λ4 = 0.01294
  • Transposées des vecteurs propres correspondant aux 3 premières valeurs propres (U) :
    • U1 = (0.482, -0.386, -0.510, -0.105, -0.488, -0.323)
    • U2 = (-0.232, -0.341, 0.117, 0.849, -0.062, -0.308)
    • U3 = (-0.247, -0.602, 0.025, -0.067, -0.296, -0.062, -0.308, -0.731)
  • Coordonnées des individus (années) sur les trois premiers axes factoriels (F) :
    Année F1 F2 F3
    612.36-1.21-0.77
    622.08-0.57-0.34
    631.400.700.37
    641.091.790.95
    65-1.080.410.12
    66-2.200.15
    67-1.651.24
    680.14-1.72

1. L'utilisation d'une ACP normée est-elle justifiée ?

2. Compléter le tableau des coordonnées des individus sur les axes factoriels.

3. Quelle est la part de variance expliquée par le premier axe factoriel ?

4. Combien d'axes factoriels faut-il retenir pour l'analyse ?

5. Déterminer les corrélations des variables avec les deux premiers axes.

6. Quels sont les individus (années) les mieux représentés par l'axe 2 ?

7. Faire une représentation simultanée des individus et des variables sur le plan (1,2).

8. Interpréter les deux premiers axes factoriels en résumant les connaissances extraites.

Corrigé des questions

1. Différences entre segmentation et classification

  • Classification : C'est une tâche d'apprentissage supervisé où l'objectif est de construire un modèle capable de prédire la classe d'un nouvel exemple. Elle nécessite des données d'apprentissage étiquetées avec des classes connues.
  • Segmentation (Clustering) : C'est une tâche d'apprentissage non supervisé qui consiste à regrouper des données similaires en "segments" ou "clusters" sans connaissance préalable des classes. L'objectif est de découvrir des structures cachées dans les données.
  • Exigences : La classification requiert un ensemble de données avec des attributs et une variable cible (classe). La segmentation utilise uniquement un ensemble de données avec des attributs, sans variable cible prédéfinie.

2. Vérification de l'ajustement d'un modèle de régression linéaire

Pour vérifier si un modèle de régression linéaire ajuste bien les données, on peut examiner la valeur du coefficient de détermination (R²) et réaliser une visualisation graphique des résidus (par exemple, un nuage de points des résidus en fonction des valeurs prédites).

3. Modèle extrait des données en régression linéaire

Le modèle extrait des données en régression linéaire consiste en la droite de régression linéaire (obtenue par exemple par la méthode des moindres carrés) qui décrit la relation entre la variable dépendante et les variables indépendantes.

4. Points forts de l'algorithme Apriori

Les points forts de l'algorithme Apriori sont :

  1. Il décompose le problème de recherche de règles d'association en sous-problèmes plus gérables (trouver des itemsets fréquents, puis générer des règles).
  2. Il utilise la propriété Apriori qui permet d'élaguer efficacement l'espace de recherche : si un itemset est inféquent, tous ses super-ensembles le sont aussi.

5. Inconvénients de l'algorithme Apriori

Les inconvénients de l'algorithme Apriori sont :

  1. Il peut générer un très grand nombre d'itemsets fréquents et de règles d'association, ce qui entraîne des coûts de calcul et de mémoire élevés, surtout avec de grandes bases de données.
  2. Il nécessite de nombreuses passes sur la base de données, ce qui peut rendre le processus long et inefficace pour les ensembles de données volumineux.

6. Interprétation d'une règle Apriori

Pour la règle {Imprimante, Toner} → {Rame de papier} avec un support de 0.6 et une confiance de 100% :

  • Support (0.6 ou 60%) : Cela signifie que 60% de toutes les transactions (ou des clients) contiennent simultanément les articles "Imprimante", "Toner" et "Rame de papier".
  • Confiance (100%) : Cela indique que parmi toutes les transactions (ou les clients) ayant acheté "Imprimante" et "Toner", 100% ont également acheté "Rame de papier".

Corrigé de l'exercice

1. Justification de l'ACP normée

L'utilisation d'une ACP normée est justifiée en raison des différences importantes entre les ordres de grandeur (et donc les variances/écarts-types) des variables. Par exemple, l'écart-type de la variable X1 est de 14.0, tandis que celui de X4 est de 72. Normaliser les données (centrage et réduction) permet d'éviter que les variables avec de grandes variances ne dominent les premiers axes factoriels, assurant ainsi que chaque variable contribue équitablement à l'analyse.

2. Compléter le tableau des coordonnées des individus sur les axes factoriels

Les valeurs à compléter pour l'année 68 sont F1(68) = -2.00 et F2(68) = 0.54. L'opération de centrage et de réduction des données permet d'obtenir ces coordonnées.

3. Part de variance expliquée par le premier axe factoriel

La part de variance expliquée par un axe factoriel est donnée par le rapport de sa valeur propre (λ) sur la somme totale des valeurs propres (Σλ). Pour une matrice de corrélation, la somme des valeurs propres est égale au nombre de variables (p).

Avec λ1 = 3.70216 et p = 6 variables, la part de variance expliquée par le premier axe est :
(λ1 / p) = (3.70216 / 6) ≈ 0.6170 ou 61.70%.

4. Nombre d'axes factoriels à retenir

Pour décider du nombre d'axes à retenir, on utilise généralement des critères comme le critère de Kaiser (retenir les axes dont la valeur propre est supérieure à 1) ou le critère du coude sur l'éboulis des valeurs propres, ou encore le pourcentage cumulé de variance expliquée.

  • Axe 1 : 61.70% (3.70216 / 6)
  • Axe 2 : (1.32015 / 6) ≈ 22.00%

Le cumul de l'axe 1 et de l'axe 2 est de 61.70% + 22.00% = 83.70%. Ce pourcentage est supérieur aux deux tiers (environ 66.67%) de l'inertie totale. Il est donc pertinent de retenir les deux premiers axes factoriels pour l'analyse, car ils expliquent une part très significative de la variance totale des données.

5. Détermination des corrélations des variables avec les deux premiers axes

Les corrélations des variables avec les axes factoriels sont calculées comme le produit de la racine carrée de la valeur propre de l'axe par le vecteur propre correspondant. Pour une ACP normée, ces valeurs sont directement représentées par les coordonnées des variables dans le cercle des corrélations.

  • Corrélation des variables avec l'axe 1 (G1) : (0.929, -0.743, -0.983, -0.202, -0.939, -0.623)
  • Corrélation des variables avec l'axe 2 (G2) : (-0.267, -0.392, 0.135, 0.976, -0.077, -0.240)

6. Individus (années) les mieux représentés par l'axe 2

Les individus les mieux représentés par un axe sont ceux dont la valeur absolue de la coordonnée sur cet axe est la plus élevée, ou dont le cosinus carré (qualité de représentation) sur cet axe est le plus proche de 1. D'après le Tableau 2 des coordonnées des individus sur les axes factoriels :

  • L'année 64 a la coordonnée la plus élevée sur F2 (1.79).
  • L'année 61 a une coordonnée de -1.21 sur F2, représentant également une forte contribution à cet axe.
  • L'année 63 a une coordonnée de 0.70 sur F2.

L'année 64 est donc la mieux représentée par l'axe 2, suivie de l'année 61.

7. Représentation simultanée des individus et des variables sur le plan (1,2)

Une représentation simultanée (biplot) sur le plan factoriel (Axe 1, Axe 2) permet de visualiser les positions des individus (années) et des vecteurs des variables. On y observerait les groupements d'années ayant des profils de production similaires et les variables qui caractérisent ces groupes. Par exemple, l'opposition entre les années 64 et 67 en fonction de leurs profils de production des variables agronomiques.

8. Interprétation des deux premiers axes factoriels

  • Interprétation de l'axe 1 :

    L'axe 1 est fortement corrélé positivement avec la variable X1 (corrélation de 0.929) et fortement corrélé négativement avec les variables X2 (-0.743), X3 (-0.983), X5 (-0.939) et X6 (-0.623). Cet axe peut être interprété comme un axe d'opposition entre la production de X1 et les productions de X2, X3, X5 et X6. Les années ayant une forte coordonnée sur l'axe 1 (ex: 61, 62, 63, 64) se caractérisent par une production élevée de X1 et une production plus faible des autres variables mentionnées. Inversement, les années avec une faible (négative) coordonnée sur l'axe 1 (ex: 65, 66) montrent le profil inverse.

  • Interprétation de l'axe 2 :

    L'axe 2 est très fortement corrélé positivement avec la variable X4 (corrélation de 0.976). Il est peu corrélé avec les autres variables. L'axe 2 peut être interprété comme un axe reflétant le niveau ou l'intensité de la production de la variable X4. Les années avec une forte coordonnée positive sur cet axe (ex: 64) sont celles où la production de X4 est particulièrement élevée. Les années avec une coordonnée négative (ex: 61) ont une production de X4 plus faible.

Foire Aux Questions (FAQ) sur le Data Mining

Quelles sont les principales différences entre la segmentation et la classification en Data Mining ?

La classification est une tâche d'apprentissage supervisé qui vise à prédire une catégorie préétablie pour de nouvelles données en se basant sur un ensemble de données d'apprentissage étiquetées. La segmentation (ou clustering) est une tâche d'apprentissage non supervisé qui regroupe les données similaires en clusters sans connaissance préalable des catégories, cherchant à découvrir des structures naturelles.

Comment évalue-t-on l'ajustement d'un modèle en régression linéaire ?

L'ajustement d'un modèle de régression linéaire est évalué principalement par le coefficient de détermination (R²), qui mesure la proportion de la variance de la variable dépendante expliquée par le modèle. Une inspection visuelle des résidus (différences entre valeurs observées et prédites) est également cruciale pour détecter des schémas non linéaires ou des violations des hypothèses.

Pourquoi et quand utilise-t-on une Analyse en Composantes Principales (ACP) normée ?

Une ACP normée (ou standardisée) est utilisée lorsque les variables ont des échelles de mesure très différentes ou des variances très hétérogènes. La normalisation (centrage et réduction par l'écart-type) permet de donner un poids égal à toutes les variables dans la construction des axes principaux, évitant ainsi que les variables avec les plus grandes variances ne dominent à elles seules les premiers axes factoriels et faussent l'analyse.

Cela peut vous intéresser :

Partagez vos remarques, questions , propositions d'amélioration ou d'autres cours à ajouter dans notre site

Enregistrer un commentaire (0)
Plus récente Plus ancienne