Ce document académique est un examen d'évaluation (EMD) pour le module de Data Mining B, destiné aux étudiants de Master 2 (ACA et PRO) du Département d'Informatique de l'Université M'hamed Bouguara de Boumerdes. Il vise à évaluer la compréhension et la capacité d'application des concepts fondamentaux en fouille de données.
Il couvre les notions suivantes :
- L'Analyse en Composantes Principales (ACP)
- La régression linéaire
- La distinction entre classification (clustering) et segmentation
Examen 2009-2010 Data Mining
Télécharger PDFLe Data Mining, ou exploration de données, est un domaine essentiel de l'intelligence artificielle et de l'analyse de données, visant à découvrir des motifs, des tendances et des informations exploitables à partir de vastes ensembles de données. Il englobe diverses techniques, de la classification à la régression, en passant par la segmentation et l'analyse dimensionnelle, permettant aux entreprises et aux chercheurs de prendre des décisions éclairées. Ce document présente des exercices pratiques couvrant des méthodes fondamentales du Data Mining.
Introduction au Data Mining
Distinction entre Classification et Segmentation (Clustering)
La question initiale posée concerne la différence entre les méthodes de classification et les méthodes de segmentation (clustering). Bien que parfois confondues, ces deux approches du Data Mining ont des objectifs et des mécanismes distincts :
- Classification : C'est une technique d'apprentissage supervisé. Elle vise à assigner des objets (individus, données) à des catégories prédéfinies ou "classes" basées sur un ensemble d'exemples d'apprentissage déjà étiquetés. Le modèle apprend à partir de données où les résultats sont déjà connus, puis prédit la classe de nouvelles données non étiquetées. Par exemple, classer des emails comme "spam" ou "non-spam".
- Segmentation (Clustering) : C'est une technique d'apprentissage non supervisé. Elle consiste à regrouper des objets similaires en "clusters" ou "segments", sans aucune connaissance préalable des catégories. L'objectif est de trouver des structures cachées dans les données en regroupant des points de données qui partagent des caractéristiques communes. Par exemple, segmenter une clientèle en différents groupes basés sur leurs comportements d'achat.
En résumé, la classification nécessite des données étiquetées pour l'apprentissage et vise à prédire des classes connues, tandis que le clustering travaille avec des données non étiquetées pour découvrir des groupes intrinsèques.
Exercice 01: Analyse en Composantes Principales (ACP)
On souhaite extraire des connaissances à partir des données concernant une population composée de huit catégories d'individus décrits par huit variables. L'application de l'ACP normée au tableau des données [catégories individus X variables] permet d'obtenir les renseignements suivants :
Tableau des Coordonnées des Individus
Tab. 1. Tableau des coordonnées (multipliées par 100) des individus sur les deux premiers axes factoriels.
F1 F2 3.36 -0.20 3.52 -0.76 ? ? -4.28 0.20 -1.77 -0.80 -0.88 0.99 0.56 -0.80 -0.40 2.36
Informations Complémentaires
Les 3 plus grandes valeurs propres de la matrice des corrélations : λ1 = 6.20; λ2 = 0.87; λ3 = 0.41.
Les vecteurs propres associés :
- U1 = (-0.39, 0.34, -0.34, 0.37, -0.24, -0.36, 0.37, 0.36)
- U2 = (0.13, 0.44, 0.20, 0.26, 0.74, 0.12, 0.32, -0.05)
- U3 = (-0.16, -0.32, -0.68, -0.07, 0.56, -0.03, -0.25, 0.16)
Questions sur l'ACP
- Compléter le tableau 1 ci-dessus.
- Combien de facteurs est-il intéressant de retenir pour l'analyse ?
- Faire une représentation simultanée des variables et des individus sur le premier plan factoriel.
- Que représente le centre de ce plan par rapport aux individus ? (Réponse attendue : centre de gravité du nuage de points)
- Quels sont les éléments (individus et variables) sur lesquels doit-on s'appuyer pour interpréter le premier axe factoriel ?
- Faire une interprétation dans le premier plan factoriel, en supposant que les variables sont les consommations des catégories d'individus selon huit produits de consommation courante.
Exercice 02: Régression Linéaire Simple
Le tableau suivant représente l'évolution, pour un certain nombre d'années, de deux grandeurs économiques : X = Production Intérieure Brute et Y (à expliquer) = Consommation des ménages.
Données d'Évolution Économique
| X (Production Intérieure Brute) | Y (Consommation des ménages) |
|---|---|
| 3 | 11 |
| 10 | 14 |
| 25 | 22 |
| 40 | 25 |
| 50 | 27 |
| 60 | 39 |
| 70 | 51 |
| 100 | 54 |
| 125 | 64 |
| 140 | |
| 150 |
Questions sur la Régression Linéaire
- Proposer un modèle qui ajuste au mieux ces données. Justifier.
- En adoptant un modèle linéaire de la forme y = a.x + b + ε, montrer que les estimateurs de a et b au sens des moindres carrés sont :
L'estimateur du coefficient de la pente (a) est :
â = Σ((xi - x̄)(yi - ȳ)) / Σ((xi - x̄)²)L'estimateur de l'ordonnée à l'origine (b) est :
Où
x̄est la moyenne de X etȳest la moyenne de Y. - Calculer les estimations des paramètres de ce modèle. Interpréter.
Foire Aux Questions (FAQ)
Qu'est-ce que l'Analyse en Composantes Principales (ACP) ?
L'ACP est une technique de réduction de dimensionnalité utilisée pour transformer un grand ensemble de variables, potentiellement corrélées, en un ensemble plus petit de variables non corrélées appelées "composantes principales". Ces composantes capturent la majeure partie de la variance des données originales, simplifiant l'analyse et la visualisation sans perdre trop d'informations.
Quelle est la différence fondamentale entre la classification et le clustering en Data Mining ?
La différence fondamentale réside dans la nature de l'apprentissage. La classification est une technique d'apprentissage supervisé, nécessitant des données d'entraînement étiquetées pour assigner de nouvelles données à des catégories prédéfinies. Le clustering (segmentation) est une technique d'apprentissage non supervisé, qui regroupe les données en fonction de leur similarité sans avoir besoin d'étiquettes préalables, découvrant ainsi des structures intrinsèques.
Dans quel contexte utilise-t-on la régression linéaire simple en Data Mining ?
La régression linéaire simple est utilisée pour modéliser la relation entre une variable dépendante (à expliquer) et une seule variable indépendante (explicative). En Data Mining, elle sert à la prédiction de valeurs numériques, à l'identification de tendances et à la compréhension de l'impact d'une variable sur une autre, par exemple pour prévoir les ventes futures en fonction des dépenses publicitaires.