Ce document pédagogique propose un sujet d'examen détaillé en Analyse des Données, spécifiquement conçu pour les étudiants universitaires, notamment ceux inscrits en Génie Informatique. Il a pour objectif de tester et de consolider les connaissances sur des méthodes statistiques essentielles.
Le document couvre les notions suivantes :
- L'Analyse en Composantes Principales (ACP), incluant les vecteurs et valeurs propres, et la représentation des individus et variables.
- La Régression Linéaire Multiple, abordant l'estimation des coefficients par la méthode des moindres carrés et l'interprétation du coefficient de détermination.
Examen Analyse des données Data mining
Télécharger PDFUniversité M'hamed Bougara - Boumerdès
Faculté des Sciences
Département d'Informatique
Nature de l'examen : Synthèse
Durée : 02 heures
Documents : Non autorisés
Type de document : Sujet d'examen
Module : Analyse des données
Filière : Génie Informatique
Année : 4ème année (2005/2006)
Responsable : A. BERRICHI
Barème : Exercice 1 (12 points) ; Exercice 2 (8 points)
EXERCICE 01: Analyse en Composantes Principales (ACP)
Contexte de l'exercice
Trois voitures (v1, v2, v3) ont été évaluées par six spécialistes automobiles (les individus), désignés par A, B, C, D, E, F. Les notes obtenues ont été consignées dans le tableau R ci-dessous. L'objectif est de réaliser une Analyse en Composantes Principales (ACP) sur ce tableau de données.
| Spécialiste | v1 | v2 | v3 |
|---|---|---|---|
| A | 1 | 6 | 8 |
| B | 4 | 2 | 3 |
| C | 10 | 4 | 8 |
| D | 0 | 0 | 5 |
| E | 7 | 7 | 5 |
| F | 6 | 3 | 2 |
L'Analyse en Composantes Principales est une méthode statistique descriptive utilisée pour simplifier des données multidimensionnelles en projetant les observations sur un ensemble d'axes orthogonaux (composantes principales) qui maximisent la variance des données. Cela permet de réduire la dimensionnalité tout en conservant le maximum d'information.
1. Détermination des valeurs et vecteurs propres
Montrer que les vecteurs u1 = (2, -1, -1) et u2 = (1, 1, 1) sont des vecteurs propres de la matrice à diagonaliser et déterminer les valeurs propres λ1 et λ2 correspondantes. En déduire la troisième valeur propre λ3 et le vecteur propre associé.
En ACP, les vecteurs propres de la matrice de covariance ou de corrélation correspondent aux directions des axes principaux, et les valeurs propres associées représentent l'importance (l'inertie ou la variance expliquée) de chaque axe.
2. Représentation graphique et interprétation
Représenter le nuage des individus et le cercle des corrélations (variables) dans le plan factoriel principal (plan d'inertie maximum). Interpréter le premier axe factoriel.
Le plan d'inertie maximum est le plan formé par les deux premières composantes principales, qui capturent la plus grande proportion de la variance totale des données, offrant ainsi la meilleure visualisation bidimensionnelle des relations entre individus et variables.
3. Projection d'un nouvel individu
Situer le nouveau spécialiste G = (8, 1, 3) parmi les autres spécialistes sur le graphique factoriel établi précédemment.
La projection d'un nouvel individu sur le plan factoriel permet de visualiser sa position par rapport aux individus déjà analysés, sans avoir à recalculer l'intégralité de l'ACP. Cette technique est utile pour l'exploration de nouvelles données.
4. Reconstitution approchée du tableau de données
Reconstituer de façon approchée le tableau de notes à partir du premier facteur. L'information est mesurée en termes d'inertie.
La reconstitution du tableau de données à partir d'un nombre réduit de facteurs permet d'évaluer la qualité de l'approximation et de comprendre quelle part de l'information originale est conservée par les composantes principales sélectionnées.
EXERCICE 02: Régression Linéaire Multiple
Contexte de l'exercice
Neuf observations ont été réalisées sur trois variables Y, X1 et X2. Les résultats sont présentés dans le tableau suivant :
| Observation | Y | X1 | X2 |
|---|---|---|---|
| 1 | 1 | 1 | 6 |
| 2 | 1 | 2 | 5 |
| 3 | 1 | 3 | 4 |
| 4 | 2 | 1 | 4 |
| 5 | 2 | 2 | 3 |
| 6 | 2 | 3 | 2 |
| 7 | 3 | 1 | 2 |
| 8 | 3 | 2 | 1 |
| 9 | 3 | 3 | 0 |
La régression linéaire est une méthode statistique utilisée pour modéliser la relation entre une variable dépendante (Y) et une ou plusieurs variables indépendantes (X).
1. Estimation d'un modèle de régression linéaire simple
On pose comme premier modèle de régression linéaire simple : Y = β0 + β1X1 + ε. Le terme d'erreur ε suit une distribution normale N(0, σ²). Estimer les coefficients β0 et β1.
Dans ce modèle, β0 représente l'ordonnée à l'origine (la valeur de Y lorsque X1 est nulle), et β1 représente la pente de la droite de régression, indiquant le changement moyen de Y pour une unité de changement de X1.
2. Estimation et analyse d'un modèle de régression linéaire multiple
Devant ces résultats, on cherche à expliquer Y par X1 et X2 et l'on pose le modèle de régression linéaire multiple suivant : Y = β0 + β1X1 + β2X2 + ε.
Il est demandé de :
- Démontrer que le vecteur des coefficients β = (β1, ..., βp) peut être exprimé par la formule β = (XᵀXc)⁻¹XᵀcYc et que β0 = Ȳ - X̄β, selon la méthode des Moindres Carrés Ordinaires.
- En déduire que β = Vxx⁻¹Vxy, où Vxx est la matrice de variances-covariances des variables explicatives X et Vxy est le vecteur des covariances entre Y et les X.
- Donner une estimation des coefficients β1 et β2.
- Tester la signification de chaque coefficient (β1 et β2) à un niveau de signification α.
- Calculer le coefficient de détermination (R²).
- Interpréter le coefficient de détermination (R²) et comparer les résultats avec ceux obtenus à la question précédente.
Les notations Xc et Yc désignent respectivement la matrice des variables explicatives centrées et le vecteur de la variable dépendante centrée. Ȳ et X̄ représentent les moyennes. Vxx est la matrice de variances-covariances des variables Xj. Vxy est le vecteur des covariances [cov(Y, X1), cov(Y, X2)].
Questions Fréquentes (FAQ)
Qu'est-ce que l'Analyse en Composantes Principales (ACP) ?
L'Analyse en Composantes Principales (ACP) est une technique statistique descriptive qui vise à transformer un ensemble de variables corrélées en un ensemble de nouvelles variables non corrélées, appelées composantes principales. L'objectif est de réduire la dimensionnalité d'un ensemble de données tout en conservant la majeure partie de la variance, ce qui facilite l'interprétation et la visualisation des données.
Quelle est la différence entre un vecteur propre et une valeur propre en ACP ?
En ACP, les vecteurs propres déterminent la direction des nouveaux axes (composantes principales), tandis que les valeurs propres associées quantifient l'importance ou la quantité de variance expliquée par chaque axe. Un axe avec une valeur propre élevée explique une grande partie de la variabilité des données.
À quoi sert le coefficient de détermination (R²) en régression linéaire ?
Le coefficient de détermination (R²) est une mesure statistique qui indique la proportion de la variance de la variable dépendante qui est prédictible à partir des variables indépendantes dans un modèle de régression linéaire. Un R² de 0,80 signifie par exemple que 80% de la variabilité de Y est expliquée par les variables X incluses dans le modèle. Un R² plus élevé indique un meilleur ajustement du modèle aux données observées.