Examen data mining master 2 2010 2011

Ce document présente un examen de module de Data Mining, destiné aux étudiants universitaires de Master 2 en informatique. Il vise à évaluer leur compréhension des concepts fondamentaux et leur capacité à les appliquer à des problèmes concrets.

Le document couvre principalement les notions suivantes :

L'application du Data Mining pour l'aide à la décision, à travers des techniques comme le clustering, la segmentation et les règles d'association.
L'Analyse en Composantes Principales Normée (ACP normée), incluant ses principes théoriques, le calcul et l'interprétation des résultats pour l'analyse de données multidimensionnelles et la formulation de recommandations.

Examen Data Mining Master 2 2010 2011

Télécharger PDF

Examen de Data Mining (EMD)

Ce document présente un sujet d'examen en Data Mining de l'Université M'hamed Bouguerra de Boumerdès, Faculté des Sciences, Département d'Informatique, pour le Master 2, année universitaire 2010/2011. L'examen est de type EMD, d'une durée de 1h30, sans documents autorisés. Le barème est réparti comme suit : Exercice 1 (6 points) et Exercice 2 (14 points). Responsable : A. Berrichi.

Exercice 1 : Application du Data Mining pour les moteurs de recherche

Supposons que vous êtes employé(e) en tant que consultant en Data Mining pour une compagnie qui développe des moteurs de recherche Internet. Décrivez comment le Data Mining peut aider la compagnie en donnant des exemples précis de la façon dont les techniques, telles que le clustering, la segmentation et les règles d'association peuvent être appliquées.

Clustering (Regroupement) : Cette technique d'apprentissage non supervisé permet de regrouper des objets similaires. Pour un moteur de recherche, le clustering peut être utilisé pour :
- Regrouper des pages web ou des documents par thèmes similaires afin d'améliorer la pertinence des résultats de recherche pour des requêtes génériques.
- Identifier des groupes d'utilisateurs ayant des comportements de recherche similaires, permettant une personnalisation des résultats ou des publicités.
- Détecter des requêtes de recherche connexes ou des synonymes implicites pour affiner la compréhension des intentions des utilisateurs.
Segmentation : La segmentation consiste à diviser une population en sous-groupes distincts et homogènes. Dans le contexte des moteurs de recherche, elle peut servir à :
- Segmenter les utilisateurs en fonction de leurs attributs (géolocalisation, appareil, historique de recherche, préférences linguistiques) pour offrir des expériences de recherche ciblées et adaptées.
- Créer des profils d'utilisateurs détaillés pour mieux comprendre leurs besoins et anticiper leurs futures recherches, améliorant ainsi la fidélisation.
Règles d'association : Ces règles permettent de découvrir des relations ou des co-occurrences fréquentes entre des éléments dans un ensemble de données. Pour un moteur de recherche, elles sont utiles pour :
- Identifier des requêtes de recherche fréquemment associées (par exemple, si un utilisateur recherche "recette gâteau", il pourrait aussi rechercher "ingrédients gâteau"), ce qui peut être utilisé pour les suggestions automatiques ou la section "recherches associées".
- Recommander des contenus ou des produits basés sur les recherches ou les pages consultées par d'autres utilisateurs ayant des profils similaires.
- Optimiser l'architecture du site web en identifiant les chemins de navigation les plus courants entre les pages.

Exercice 2 : Analyse en Composantes Principales (ACP) Normée

Une société étrangère souhaite investir en Algérie. Elle veut réaliser une étude pour choisir les lieux de son implantation. Pour 20 régions du pays, on possède 7 indicateurs économiques (les variables) :

X1: TACT (Taux d'activité)
X2: SUPE (Superficie en Km²)
X3: NENT (Nombre d'entreprises)
X4: NBRE (Nombre de brevets)
X5: CHOM (Taux de chômage)
X6: NTEL (Nombre de lignes téléphoniques)
X7: POPU (Population en milliers)

Le tableau de données X (20 régions x 7 indicateurs économiques) est soumis à une Analyse en Composantes Principales Normée. On vous communique les informations suivantes :

Valeurs propres

Les quatre premières valeurs propres sont : λ1 = 4.157; λ2 = 1.898; λ3 = 0.594; λ4 = 0.204.

Coordonnées des projections des régions sur les deux premiers axes (Tab.1)

Région	F1	F2
R1	-0.847	1.407
R2	0.609	-0.148
R3	-0.619	0.153
R4	-0.805	0.362
R5	-0.391	0.741
R6	0.336	-0.124
R7	0.117	0.945
R8	-0.737	0.251
R9	-0.988	0.588
R10	-0.623	-0.342
R11	0.060	-2.124
R12	-1.1802	0.553
R13	-0.206	-0.470
R14	0.418	0.360
R15	0.624	-2.268
R16	0.467	0.224
R17	-0.530	-0.807
R18	-0.448	-0.233
R19	1.772	-0.829
R20	2.972	1.759

Coordonnées des variables sur les deux premiers axes (Tab.2)

Variable	G1	G2
X1	-0.15	0.85
X2	0.65	0.22
X3	0.96	-0.10
X4	0.85	0.40
X5	0.10	-0.97
X6	0.96	-0.18
X7	0.96	-0.25

Questions détaillées de l'Exercice 2

Parmi les méthodes factorielles, pourquoi l'ACP normée a-t-elle été choisie pour l'analyse ?
L'ACP normée (ou centrée réduite) est privilégiée lorsque les variables initiales sont de natures différentes et/ou exprimées dans des unités de mesure hétérogènes (par exemple, superficie en km² et population en milliers). La normalisation des données (centrage autour de la moyenne et réduction par l'écart-type) permet de donner le même poids à toutes les variables, évitant ainsi que les variables ayant les plus grandes variances ou les plus grandes échelles ne dominent artificiellement l'analyse. Chaque variable contribue équitablement à la construction des axes.
Quelle est la matrice à diagonaliser dans ce cas (qu'on notera par R) ? Décrire cette matrice.
Dans le cas d'une ACP normée, la matrice à diagonaliser est la matrice de corrélation (notée R). Cette matrice est carrée (de dimension 7x7, puisque nous avons 7 variables) et symétrique. Ses éléments diagonaux sont égaux à 1 (représentant la corrélation d'une variable avec elle-même), et ses éléments hors diagonale (Rij) représentent les coefficients de corrélation linéaire de Pearson entre chaque paire de variables (Xi et Xj).
Déterminer les deux premiers vecteurs propres de R.
Les vecteurs propres sont les directions des axes principaux. Bien qu'ils ne soient pas donnés directement, les coordonnées des variables (G1 et G2) dans le tableau 2 sont les corrélations entre les variables initiales et les axes factoriels, souvent appelées les saturations (loadings). Pour obtenir les vecteurs propres unitaires, il faudrait diviser ces coordonnées par la racine carrée des valeurs propres correspondantes.

Le premier vecteur propre serait proportionnel aux valeurs (G1(X1)/√λ1, G1(X2)/√λ1, ..., G1(X7)/√λ1).

Le deuxième vecteur propre serait proportionnel aux valeurs (G2(X1)/√λ2, G2(X2)/√λ2, ..., G2(X7)/√λ2).
Combien de facteurs peut-on prendre pour récupérer au moins 94% de l'information initiale ?
Pour déterminer le nombre de facteurs, nous calculons la variance expliquée par chaque axe et la variance cumulée. Le total de la variance expliquée est la somme des valeurs propres, qui dans une ACP normée est égale au nombre de variables, soit 7.
- Contribution de l'axe 1 : (4.157 / 7) * 100 ≈ 59.39%
- Contribution de l'axe 2 : (1.898 / 7) * 100 ≈ 27.11%
- Contribution de l'axe 3 : (0.594 / 7) * 100 ≈ 8.49%
- Contribution de l'axe 4 : (0.204 / 7) * 100 ≈ 2.91%
Calcul de la variance cumulée :
- Avec 1 facteur (Axe 1) : 59.39%
- Avec 2 facteurs (Axe 1 + Axe 2) : 59.39% + 27.11% = 86.50%
- Avec 3 facteurs (Axe 1 + Axe 2 + Axe 3) : 86.50% + 8.49% = 94.99%
Pour récupérer au moins 94% de l'information initiale, il faut retenir 3 facteurs (les trois premiers axes principaux).
Quelles sont les variables les mieux représentées par l'axe 1 ? par l'axe 2 ? par le plan (1, 2) ?
Une variable est bien représentée par un axe si la valeur absolue de sa coordonnée (loading) sur cet axe est élevée. Pour le plan (1, 2), on considère le cosinus carré (qualité de représentation) qui est la somme des carrés des coordonnées sur les deux axes.
- Variables les mieux représentées par l'axe 1 (G1) : Les variables avec les coordonnées les plus élevées en valeur absolue sur G1 sont X3 (0.96), X6 (0.96), X7 (0.96), X4 (0.85) et X2 (0.65). Elles sont fortement corrélées positivement à l'axe 1.
- Variables les mieux représentées par l'axe 2 (G2) : Les variables avec les coordonnées les plus élevées en valeur absolue sur G2 sont X5 (-0.97) et X1 (0.85). X5 est fortement corrélée négativement et X1 positivement à l'axe 2.
- Variables les mieux représentées par le plan (1, 2) : Calculons le cosinus carré (G1² + G2²) pour chaque variable. Plus cette valeur est proche de 1, meilleure est la représentation.
  - X1: (-0.15)² + (0.85)² = 0.0225 + 0.7225 = 0.745
  - X2: (0.65)² + (0.22)² = 0.4225 + 0.0484 = 0.4709
  - X3: (0.96)² + (-0.10)² = 0.9216 + 0.0100 = 0.9316
  - X4: (0.85)² + (0.40)² = 0.7225 + 0.1600 = 0.8825
  - X5: (0.10)² + (-0.97)² = 0.0100 + 0.9409 = 0.9509
  - X6: (0.96)² + (-0.18)² = 0.9216 + 0.0324 = 0.954
  - X7: (0.96)² + (-0.25)² = 0.9216 + 0.0625 = 0.9841
  Les variables les mieux représentées par le plan (1, 2) sont X7 (0.9841), X6 (0.954), X5 (0.9509), X3 (0.9316) et X4 (0.8825).
Quels sont les 6 régions ayant le plus contribué à l'explication de l'axe 1 ? à l'axe 2 ?
La contribution d'une région à un axe est d'autant plus élevée que la valeur absolue de sa coordonnée sur cet axe est grande. Pour identifier les 6 régions qui ont le plus contribué, nous classons les régions par l'ordre décroissant de la valeur absolue de leurs coordonnées sur chaque axe.
- Pour l'axe 1 (F1) : Les régions avec les plus grandes valeurs absolues de F1 sont : R20 (2.972), R19 (1.772), R12 (-1.1802), R9 (-0.988), R1 (-0.847), R4 (-0.805).
- Pour l'axe 2 (F2) : Les régions avec les plus grandes valeurs absolues de F2 sont : R15 (-2.268), R11 (-2.124), R20 (1.759), R1 (1.407), R19 (-0.829), R17 (-0.807).
Faire une représentation simultanée des individus et des variables sur le premier plan factoriel.
Une représentation simultanée (biplot) permet de visualiser ensemble les régions (individus) et les variables sur le premier plan factoriel (défini par l'axe 1 et l'axe 2). Sur ce graphique :
- Les points représentent les 20 régions. Les régions proches les unes des autres sont similaires en termes de profil économique.
- Les flèches (vecteurs) représentent les 7 variables économiques. La longueur et la direction d'une flèche indiquent la contribution de la variable aux axes et ses corrélations avec les autres variables.
- Un angle aigu entre deux vecteurs de variables signifie une forte corrélation positive. Un angle obtus indique une forte corrélation négative. Un angle droit suggère une faible corrélation.
- Les régions situées dans la direction d'une flèche de variable ont une valeur élevée pour cette variable. Par exemple, les régions dans la direction de X3 (Nombre d'entreprises) sont celles qui ont un nombre élevé d'entreprises.
Faire une interprétation et une synthèse la plus complète possible.
L'interprétation s'appuie sur la signification des axes et le positionnement des variables et des individus :
- Interprétation des axes factoriels :
  - L'axe 1, qui explique près de 59% de la variance, est fortement lié positivement aux variables X3 (Nombre d'entreprises), X6 (Nombre de lignes téléphoniques), X7 (Population) et X4 (Nombre de brevets). Cet axe peut être interprété comme un facteur de "développement socio-économique" ou de "dynamisme démographique et entrepreneurial". Les régions avec des scores élevés sur cet axe (par exemple, R20, R19) sont probablement les plus développées et les plus peuplées.
  - L'axe 2, qui explique environ 27% de la variance additionnelle, est fortement corrélé positivement avec X1 (Taux d'activité) et négativement avec X5 (Taux de chômage). Cet axe peut être interprété comme un facteur lié au "marché du travail" ou à la "dynamique de l'emploi". Les régions avec des scores élevés sur cet axe (par exemple, R1, R7) auraient un taux d'activité élevé et un faible taux de chômage.
- Analyse du positionnement des régions :
  - Des régions comme R20 et R19 se distinguent par des scores très élevés sur l'axe 1, indiquant un fort dynamisme socio-économique. R20 a également un score élevé sur l'axe 2, suggérant un marché du travail favorable.
  - Les régions R11 et R15 ont des scores très faibles sur l'axe 2, ce qui pourrait indiquer un marché du travail moins favorable (potentiellement un chômage élevé).
  - Les régions R12, R9, R4 ont des scores négatifs sur l'axe 1, suggérant un niveau de développement socio-économique inférieur.
- Synthèse pour l'entreprise : Les deux premiers axes expliquent environ 86.5% de l'information totale, offrant une excellente synthèse des données. Le plan factoriel permet de regrouper visuellement les régions en fonction de leurs similarités et de leurs différences sur les facteurs clés de développement et d'emploi. L'entreprise peut identifier des "clusters" de régions avec des profils économiques distincts.
Quelle suggestion peut-on faire pour cette entreprise ?
En se basant sur l'analyse factorielle, la société étrangère devrait concentrer son attention sur les régions qui présentent des scores élevés sur l'axe 1 (dynamisme socio-économique) et un profil favorable sur l'axe 2 (marché du travail). Les régions R20 et R19, en raison de leurs très bons scores sur l'axe du développement, sont des candidats prioritaires. La région R1, avec un très bon score sur l'axe du marché du travail, est également intéressante. Il serait pertinent d'approfondir l'étude de ces régions, ainsi que celles présentant un bon équilibre entre les deux facteurs, pour identifier les meilleures opportunités d'implantation en Algérie.

Foire Aux Questions (FAQ) sur le Data Mining et l'ACP

Qu'est-ce que le Data Mining ?: Le Data Mining, ou l'exploration de données, est un processus qui consiste à découvrir des modèles, des tendances, des règles et des informations utiles et actionnables à partir de grands ensembles de données. Il utilise des techniques multidisciplinaires, notamment les statistiques, l'intelligence artificielle et l'apprentissage automatique, pour transformer les données brutes en connaissances stratégiques.
Quelle est la différence entre le clustering et la segmentation ?: Le clustering est une technique de Data Mining non supervisée qui regroupe automatiquement des points de données similaires en "clusters" ou grappes, sans connaissance préalable des catégories. La segmentation, bien qu'ayant un objectif similaire de division d'une population en sous-groupes, peut être une approche plus large qui inclut des méthodes supervisées ou des critères prédéfinis pour créer des groupes d'intérêt spécifiques, souvent orientés métier ou marketing.
Pourquoi est-il important de normaliser les données avant une Analyse en Composantes Principales (ACP) ?: La normalisation (centrage et réduction) des données avant une ACP est essentielle lorsque les variables ont des unités de mesure ou des ordres de grandeur très différents. Sans normalisation, les variables avec les plus grandes variances (souvent celles ayant les plus grandes valeurs numériques) exerceraient une influence disproportionnée sur les premières composantes principales, masquant ainsi l'impact des variables de plus faible variance. La normalisation garantit que chaque variable contribue équitablement à la construction des axes factoriels.