Ce document académique présente un sujet d'examen pour le module d'Analyse des Données, destiné aux étudiants de quatrième année en Génie Informatique de l'Université M'hamed Bougara de Boumerdes.
Il vise à évaluer la maîtrise des concepts fondamentaux et l'application pratique des méthodes d'analyse multidimensionnelle. Le contenu inclut :
- Des questions théoriques sur les méthodes exploratoires et l'Analyse en Composantes Principales (ACP).
- Un exercice pratique détaillé sur l'application de l'ACP-normée à des données réelles.
- L'interprétation des résultats de l'ACP, notamment la représentation des individus et des variables.
Examen Analyse des données Data mining
Télécharger PDFMinistère de l'Enseignement Supérieur et de la Recherche Scientifique
Université M'hamed Bougara - Boumerdès
Faculté des Sciences - Département d'Informatique
Détails de l'Examen
- Module : Analyse des données
- Filière : Génie Informatique
- Année : 4 (2007/2008)
- Responsable : A. BERRICHI
- Nature de l'examen : EMD 2
- Durée : 1h 30min
- Documents autorisés : Non
- Type de document : Sujet
- Barème : Exercice 1 (5 points), Exercice 2 (15 points)
Exercice 01 : Questions théoriques sur les Méthodes Factorielles
- Quel est l'objet des méthodes exploratoires (factorielles) ?
Les méthodes exploratoires factorielles, telles que l'Analyse en Composantes Principales (ACP), ont pour objectif de simplifier et de synthétiser l'information contenue dans de grands ensembles de données. Elles permettent de réduire la dimensionnalité en identifiant des facteurs latents ou des composantes principales qui expliquent la majeure partie de la variance observée, facilitant ainsi la compréhension des structures complexes des données.
- Quel est le rôle des éléments supplémentaires pour une analyse factorielle ?
Les éléments supplémentaires (qu'il s'agisse d'individus ou de variables) sont des entités qui ne sont pas incluses dans le calcul initial des axes factoriels. Ils sont projetés sur ces axes une fois que la structure factorielle principale est établie. Leur rôle est d'aider à interpréter les axes, à valider la robustesse du modèle ou à observer le positionnement de nouvelles données sans altérer la solution factorielle originale.
- Comment mesure-t-on la similitude entre deux individus dans le cas d'une ACP normée ?
Dans le cadre d'une Analyse en Composantes Principales (ACP) normée, où les variables sont centrées et réduites, la mesure de similitude entre deux individus est typiquement la distance euclidienne. Cette distance est calculée sur les données standardisées, assurant que toutes les variables contribuent également à la mesure de la distance, indépendamment de leurs unités ou échelles de mesure initiales.
Exercice 02 : Application de l'Analyse en Composantes Principales (ACP)
Cet exercice consiste à étudier des données de consommations annuelles (exprimées en Euro) de huit denrées alimentaires (les variables) par huit catégories socioprofessionnelles (les individus). Les données sont des moyennes par catégorie socioprofessionnelle et le tableau est soumis à une ACP normée.
Liste des Individus (Catégories Socioprofessionnelles) :
- AGRI : Exploitants agricoles
- SAAG : Salariés agricoles
- PRIN : Professions indépendantes
- CSUP : Cadres supérieurs
- CMOY : Cadres moyens
- EMPL : Employés
- OUVR : Ouvriers
- INAC : Inactifs
Liste des Variables (Denrées Alimentaires) :
- PAO : Pain ordinaire
- PAA : Autre pain
- VIP : Viande de Poulet
- VIA : Autre Viande
- POT : Pomme de terre
- LEG : Légumes secs
- FRE : Fruits Exotiques
- PLP : Plats préparés
Tableau 1 : Données de Consommations Annuelles
Le Tableau 1, qui contient les données de consommations, est malheureusement partiellement illisible en raison d'une extraction corrompue. Seules certaines valeurs ont pu être partiellement reconstituées. La structure du tableau est la suivante :
| Individu | PAO | PAA | VIP | VIA | POT | LEG | FRE | PLP |
|---|---|---|---|---|---|---|---|---|
| AGRI | 157 | 1 | ? | ? | ? | ? | ? | ? |
| SAAG | 162 | 2 | ? | ? | ? | ? | ? | ? |
| PRIN | 119 | 6 | ? | ? | ? | ? | ? | ? |
| CSUP | ? | ? | ? | ? | ? | ? | ? | ? |
| CMOY | ? | ? | ? | ? | ? | ? | ? | ? |
| EMPL | 111 | 14 | 34 | 6 | 10 | 28 | ? | ? |
| OUVR | 130 | 3 | 76 | 52 | 43 | 7 | 7 | 16 |
| INAC | 138 | 17 | 117 | 74 | 53 | 8 | 12 | 20 |
Note : Les '?' indiquent des valeurs manquantes ou indéchiffrables. Pour 'INAC', '11774' a été interprété comme '117' et '74'. Les lignes pour 'CSUP' et 'CMOY' sont particulièrement affectées.
Informations Complémentaires pour l'ACP (Tableau 2)
Le document fournit les trois plus grandes valeurs propres de la matrice de corrélations ainsi que les vecteurs propres associés. Les coordonnées des individus sur les deux premiers axes sont mentionnées comme étant dans un "Tableau 2" mais sont également corrompues.
- Valeurs propres (λ) :
- λ1 = 6.20
- λ2 = 0.87
- λ3 = 0.41
- Vecteurs propres associés (pour les 8 variables) :
- U1 = (+0.39, -0.34, +0.34, -0.37, +0.24, +0.36, -0.37, -0.06) (Interprétation de '-6°' en '-0.06')
- U2 = (0.13, 0.44, 0.20, 0.25, 0.74, 0.12, 0.22, 0) (Correction de '022 0' en '0.22, 0')
- U3 = (-0.16, -0.32, -0.68, -0.07, 0.56, -0.03, -0.25, 0.16) (Suppression de caractères parasites et interprétation de '0.164' en '0.16')
Questions d'Analyse Factorielle
- Combien de facteurs est-il intéressant de retenir pour l'analyse ?
Plusieurs critères peuvent être utilisés pour décider du nombre de facteurs à retenir. Le critère de Kaiser suggère de conserver les facteurs dont la valeur propre est supérieure à 1. Dans ce cas, seule λ1 = 6.20 dépasse 1. Il serait donc pertinent de retenir un seul facteur. Néanmoins, il est courant d'examiner également le deuxième facteur si sa valeur propre est proche de 1 et qu'il contribue de manière significative à l'explication de la variance, ou si un graphique des éboulis (scree plot) justifie sa rétention.
- Calculer la contribution des individus au premier axe factoriel.
La contribution d'un individu i à l'inertie du premier axe factoriel (F1) se calcule par la formule : \(\text{CTR}_{i,1} = \frac{(\text{Coord}_{i,1})^2}{N \times \lambda_1}\), où \(\text{Coord}_{i,1}\) est la coordonnée de l'individu i sur l'axe F1, \(N\) est le nombre total d'individus (ici, 8), et \(\lambda_1\) est la valeur propre du premier axe (6.20). Étant donné les lacunes dans les coordonnées des individus du Tableau 2, un calcul précis pour tous les individus n'est pas réalisable ici.
- Quelle est la variable la mieux représentée par le plan factoriel ?
La qualité de représentation d'une variable par un plan factoriel (ici, le plan F1-F2) est mesurée par la somme de ses cosinus carrés sur ces axes. Un cosinus carré proche de 1 indique une excellente représentation. Les variables les mieux représentées sont celles qui sont le plus proches du cercle de corrélation dans la représentation graphique des variables. Sans les coordonnées des variables sur les axes, il n'est pas possible de déterminer laquelle est la mieux représentée.
- Faire une représentation simultanée des variables et des individus sur le premier plan factoriel.
Une représentation simultanée, ou biplot, permet de visualiser les individus (points) et les variables (vecteurs) sur le même plan factoriel (généralement F1 et F2). Les individus proches ont des profils similaires, tandis que la longueur et l'orientation des vecteurs des variables indiquent leurs corrélations avec les axes et entre elles. Une telle représentation permet une interprétation visuelle des relations entre individus et variables. Sans les coordonnées complètes et fiables pour les individus et les variables, une réalisation graphique précise de ce biplot n'est pas faisable.
- Où se représente le centre de ce plan par rapport aux individus ?
Dans le cadre d'une ACP normée, les données sont centrées et réduites. Cela signifie que le barycentre du nuage de points des individus (leur moyenne) est ramené à l'origine du plan factoriel (aux coordonnées (0,0)). Le centre du plan est donc le point moyen des individus.
- Quels sont les éléments (individus et variables) sur lesquels doit-on s'appuyer pour interpréter le premier axe factoriel ?
Pour interpréter le premier axe factoriel, il convient de s'appuyer sur :
- Les variables : Il faut identifier les variables qui ont les corrélations les plus fortes (en valeur absolue) avec cet axe et une bonne qualité de représentation. Ce sont ces variables qui "donnent un sens" à l'axe.
- Les individus : Les individus qui sont bien représentés sur cet axe (grand cosinus carré) et qui ont des coordonnées élevées (positives ou négatives) sur celui-ci sont également cruciaux. Leurs caractéristiques permettent de comprendre ce que l'axe discrimine entre les individus.
- Faire une interprétation dans le premier plan factoriel.
L'interprétation dans le premier plan factoriel (formé par F1 et F2) consiste à décrire ce que représentent les deux dimensions principales de variabilité des données. Cela implique d'analyser les variables les plus fortement corrélées à chaque axe pour leur donner un nom (par exemple, "niveau de vie", "habitudes alimentaires"). Ensuite, on observe comment les individus se positionnent sur ce plan pour identifier des groupes ou des profils types. Cette interprétation est une synthèse des structures révélées par l'ACP.
- Donner l'expression de la dispersion du nuage projeté sur les axes.
La dispersion du nuage de points projeté sur chaque axe factoriel est quantifiée par la valeur propre (\(\lambda\)) associée à cet axe. Plus la valeur propre est élevée, plus l'axe explique une part importante de la variance totale des données, et donc plus le nuage de points est étalé ou dispersé le long de cet axe. La somme de toutes les valeurs propres est égale à la variance totale du nuage de points dans l'espace initial (ou au nombre de variables si les données sont réduites).
- Quelle est la qualité de représentation de l'individu "CMOY" par le premier axe factoriel ?
La qualité de représentation d'un individu i sur un axe factoriel k est mesurée par son cosinus carré : \(cos^2(i, k) = \frac{(\text{Coord}_{i,k})^2}{D_i^2}\), où \(\text{Coord}_{i,k}\) est la coordonnée de l'individu sur l'axe k et \(D_i^2\) est le carré de la distance de l'individu i à l'origine (son inertie propre). Un \(cos^2\) proche de 1 indique que l'individu est très bien représenté par cet axe. Sans les coordonnées fiables de 'CMOY' sur F1 et sa distance à l'origine, il n'est pas possible de calculer sa qualité de représentation.
Foire Aux Questions (FAQ) sur l'Analyse en Composantes Principales
Qu'est-ce que l'Analyse en Composantes Principales (ACP) ?
L'Analyse en Composantes Principales (ACP) est une méthode statistique descriptive multidimensionnelle. Son objectif est de transformer un ensemble de variables corrélées en un nouvel ensemble de variables non corrélées, appelées composantes principales, afin de réduire la dimensionnalité des données tout en conservant le maximum d'information (variance).
Pourquoi est-il important de normaliser les données avant une ACP ?
La normalisation (centrage et réduction) des données avant une ACP est essentielle lorsque les variables ont des unités de mesure ou des échelles différentes. Elle garantit que toutes les variables contribuent de manière équitable à la construction des axes factoriels, évitant ainsi que les variables avec les plus grandes amplitudes ou variances n'influencent indûment les résultats de l'analyse.
Comment interpréter les axes factoriels d'une ACP ?
L'interprétation des axes factoriels s'effectue en analysant les corrélations entre les variables d'origine et chaque axe. Les variables fortement corrélées à un axe (positivement ou négativement) contribuent le plus à sa définition et permettent de lui attribuer une signification thématique. Par exemple, un axe fortement corrélé avec "prix", "qualité" et "luxe" pourrait être interprété comme un axe de "perception de la valeur".