Ce document académique présente un examen du module de Data Mining, spécifiquement conçu pour les étudiants universitaires de Master II en informatique. Il vise à évaluer et renforcer la compréhension des concepts et méthodes fondamentales de l'exploration de données.
Il couvre principalement les notions suivantes :
- L'extraction de règles d'association, incluant la recherche des ensembles d'items fréquents et l'analyse des règles fortes.
- L'application et l'interprétation de l'Analyse en Composantes Principales (ACP) pour la réduction de dimension et la visualisation de données multidimensionnelles.
Ce travail permet d'approfondir les compétences pratiques en matière d'analyse et d'interprétation des données.
Examen Data Mining Master II 2013-2014
Télécharger PDFModule : Data Mining
Ce document présente des exercices pratiques sur le Data Mining, couvrant les règles d'association et l'analyse en composantes principales (ACP).
EXERCICE 01 : Règles d'Association
Le site web est un site de vente en ligne, proposant entre autres des CD-ROM. Lorsqu'une recherche est effectuée sur un CD particulier, le site affiche les CD qui sont fréquemment achetés ensemble avec le CD recherché.
-
Quelle tâche de Data Mining ?
Quelle est la tâche de Data Mining la plus appropriée utilisée par le site web pour fournir cette information ?
Explication : La détection des produits fréquemment achetés ensemble relève de la découverte de règles d'association, une technique clé en Data Mining pour identifier des relations entre les articles dans de grands ensembles de données transactionnelles.
-
Extraction des ensembles de CD fréquemment achetés
Sur la base des transactions portant sur les achats de CD, données dans le tableau ci-contre, extraire tous les ensembles de CD fréquemment achetés ensemble (min_sup = 2 ou 2/9).
Transactions :
- T1 : C1, C2, C5
- T2 : C2, C4
- T3 : C2, C3
- T4 : C1, C2, C4
- T5 : C1, C3
- T6 : C2, C3
- T7 : C1, C3
- T8 : C1, C2, C3, C5
- T9 : C1, C2, C3
Rappel : Le support minimum (min_sup) est la fréquence minimale qu'un ensemble d'items doit avoir pour être considéré comme fréquent. Ici, un ensemble est fréquent s'il apparaît dans au moins 2 transactions sur 9.
-
Nombre maximal de règles d'association
Quel est le nombre maximal de règles d'association que l'on peut extraire de cette base de transactions ?
Considération : Le nombre maximal de règles dépend du nombre d'items uniques et des combinaisons possibles, avant l'application des seuils de support et de confiance.
-
Règles d'association fortes
Déduire les règles d'association fortes (min_conf = 70%) composées d'un seul item comme antécédent et de deux items comme conséquences. Interpréter l'une des règles découvertes.
Rappel : La confiance minimum (min_conf) est la probabilité conditionnelle minimale qu'une règle doit satisfaire pour être considérée comme forte. Une règle A => B signifie "si A est acheté, alors B est souvent acheté aussi".
EXERCICE 02 : Analyse en Composantes Principales (ACP)
On dispose de données sur 8 individus, désignés par A, B, C, D, E, F, G et H, concernant trois attributs : la taille en cm (TAIL), le poids en kg (POID) et la capacité pulmonaire en litres (CAPU). Le tableau des données obtenu a été soumis à une analyse en composantes principales normée (ACP).
Les deux premiers vecteurs propres normés de la matrice des corrélations, associés aux valeurs propres λ1 = 2.07 et λ2 = 0.93, sont u1 = (0.676, -0.256, -0.691) et u2 = (0.241, 0.963, -0.121) respectivement.
-
Catégorie de méthodes de Data Mining
À quelle catégorie de méthodes de Data Mining appartient l'ACP ?
Explication : L'Analyse en Composantes Principales est une technique de réduction de dimensionnalité, qui fait partie des méthodes d'apprentissage non supervisé en Data Mining. Elle vise à simplifier la description d'un ensemble de données en transformant les variables originales en un nouvel ensemble de variables non corrélées, appelées composantes principales.
-
Calcul de la troisième valeur propre
Calculer la troisième valeur propre. Est-il nécessaire de calculer le troisième vecteur propre ? Justifier.
Indice : Pour une analyse en composantes principales normée, la somme des valeurs propres est égale au nombre de variables (trace de la matrice des corrélations).
-
Corrélations des variables avec les axes
Donner les corrélations des variables avec les deux premiers axes de projection.
-
Composantes principales des individus
Les composantes principales des individus (coordonnées des individus sur les axes) sont données dans le tableau ci-après. Compléter le tableau et justifier.
Individu A B C D E F G H F1(i) -2.40 -1.32 1.32 2.40 -1.37 -0.29 -0.53 -0.53 F2(i) 1.02 -0.29 1.37 0.53 -0.66 -0.83 0.83 -0.44 -
Représentation simultanée
Réaliser une représentation simultanée (sur le même graphe) des individus et des variables.
Conseil : Un biplot est une visualisation appropriée pour cette tâche, affichant les individus et les variables dans le plan formé par les deux premières composantes principales.
-
Interprétation du graphe
Interpréter le graphe en résumant les connaissances extraites des données.
FAQ - Questions Fréquentes sur le Data Mining
Qu'est-ce qu'une règle d'association en Data Mining ?
Une règle d'association est une expression de la forme "Si A alors B", indiquant que si l'item A est présent dans une transaction, l'item B est souvent présent aussi. Elles sont utilisées pour découvrir des relations cachées entre des ensembles d'items dans de grandes bases de données transactionnelles, comme des paniers d'achat.
Comment fonctionne l'Analyse en Composantes Principales (ACP) ?
L'ACP est une technique statistique qui transforme un ensemble de variables possiblement corrélées en un ensemble de variables non corrélées appelées composantes principales. Elle permet de réduire la dimensionnalité des données tout en conservant la majeure partie de la variance, facilitant ainsi la visualisation et l'analyse de données complexes.
Quel est l'intérêt de déterminer le support et la confiance pour les règles d'association ?
Le support mesure la fréquence d'apparition d'un ensemble d'items dans la base de données, tandis que la confiance mesure la force de l'implication d'une règle (la probabilité que B soit acheté si A l'est). Ces métriques permettent de filtrer les règles d'association et de ne retenir que celles qui sont à la fois fréquentes et fiables, garantissant leur pertinence pour la prise de décision.