Ce document universitaire présente l'examen de rattrapage du module d'Analyse des Données, spécifiquement conçu pour les étudiants de 4ème année Génie Informatique de l'Université M'hamed Bougara de Boumerdes. Il a pour objectif d'évaluer la maîtrise des concepts fondamentaux et des techniques d'analyse statistique. Le contenu est structuré autour des notions essentielles suivantes :
- L'Analyse en Composantes Principales (ACP)
- Les modèles de régression linéaire et la méthode des moindres carrés
- Les intervalles de confiance et les tests d'hypothèses statistiques
- L'étude de la validité des modèles et la significativité des coefficients
Ce document constitue une ressource pertinente pour la révision et l'approfondissement des connaissances en analyse des données.
Examen Analyse des données Data mining
Télécharger PDFExamen de Rattrapage : Analyse des Données (Génie Informatique)
Université : M'Hamed Bougara - Boumerdès
Faculté : Sciences
Département : Informatique
Module : Analyse des données
Filière : Génie Informatique
Année : 4ème (2006/2007)
Responsable : A. BERRICH
Nature de l'examen : Rattrapage
Durée : 2h
Documents : Non autorisés
Type de document : Sujet d'examen
Barème : Exercice 1 (points non spécifiés); Exercice 2 (points non spécifiés); Exercice 3 (points non spécifiés).
Exercice 1 : Analyse en Composantes Principales (ACP)
On suppose que pour l'examen de permis de conduire, les candidats sont notés 0 (insuffisant), 1 (moyen) ou 2 (bon) pour les trois épreuves : conduite sur route, code et conduite en ville. Pour dix individus candidats, on obtient un tableau de données.
(Le tableau des données original est incomplet ou illisible dans le document fourni, mais il s'agirait d'une matrice X de 10 observations sur 3 variables : Route, Code, Ville, avec des notes de 0, 1 ou 2 pour chaque épreuve.)
Question 1.1
Effectuer l'Analyse en Composantes Principales (ACP) non normée sur le tableau de données X (10x3).
Question 1.2
Quelle est la matrice à diagonaliser si l'ACP est normée ?
Exercice 2 : Régression Linéaire Simple
Pour une certaine catégorie socio-professionnelle, le revenu (R) et l'épargne nette (E) ont été relevés tous les trimestres pendant trois ans (soit n=12 observations). Les données ont fourni les résultats suivants :
- ΣR = 19.7
- ΣR² = 4827
- ΣE = 61
- ΣE² = 456
- Σ(EiRi) = 1480
- n = 12
On considère le modèle : Ei = a + bRi + ui, avec ui ~ N(0, σ²), pour i = 1, ..., 12.
Question 2.1
Démontrer que les estimateurs de a et b, par la méthode des moindres carrés ordinaires (MCO), sont :
b̂ = Σ(Ri - R̄)(Ei - Ē) / Σ(Ri - R̄)²
â = Ē - b̂R̄
Question 2.2
Donner les intervalles de confiance de niveau 0.95 pour les paramètres a et b (le fractile de la loi de Student t10 = 2.228).
Question 2.3
Étudier la validité du modèle.
Exercice 3 : Optimisation de Variance
On a mesuré les valeurs de deux variables X1 et X2 sur 10 individus.
(Les données pour les variables X1 et X2 sont présentées de manière incomplète ou désordonnée dans le document original et ne peuvent être reproduites fidèlement.)
Question 3.1
Quelle est la combinaison linéaire F = α1X1 + α2X2 qui possède la variance maximale, sachant que les coefficients α1 et α2 vérifient α1² + α2² = 1 ?
Concepts Clés et Applications en Régression Linéaire
Test Global de Significativité (Test F)
Ce test vise à vérifier si au moins l'un des coefficients de régression (hors constante) est significativement différent de zéro. L'hypothèse nulle (H0) est que tous les coefficients des variables explicatives sont nuls (par exemple, H0: β1 = β2 = 0), ce qui signifierait que le modèle n'a pas de pouvoir explicatif. L'hypothèse alternative (H1) est qu'au moins un de ces coefficients est non nul.
En cas de rejet de H0 (par exemple, Fcalculé = 142.735 > Fcritique(12,24) = 3.49), cela indique que le modèle de régression est globalement significatif et qu'au moins une des variables explicatives a un impact significatif sur la variable dépendante.
Intervalles de Confiance des Coefficients de Régression
Les intervalles de confiance permettent d'estimer la plage de valeurs possibles pour un coefficient de régression avec un certain niveau de confiance (par exemple, 95%).
Pour un coefficient β0, l'intervalle de confiance est typiquement de la forme : IC = [β̂0 ± t(α/2, n-p-1) × s(β̂0)], où s(β̂0) est l'erreur standard de l'estimateur.
Si la valeur zéro n'est pas incluse dans l'intervalle de confiance (par exemple, IC = [23.63, 23.76]), cela signifie que le coefficient est significativement différent de zéro. Par conséquent, on rejette l'hypothèse H0: β0 = 0, indiquant que le modèle ne peut pas être simplifié sans constante.
Test de Significativité Individuelle (Test de Student)
Ce test évalue la significativité de chaque coefficient de régression individuellement. L'hypothèse nulle (H0) est que le coefficient est nul (par exemple, H0: β1 = 0), signifiant que la variable explicative associée n'a pas d'influence linéaire significative. L'hypothèse alternative (H1) est que le coefficient est non nul (H1: β1 ≠ 0).
Le calcul de la statistique de Student (t-ratio = β̂ / s(β̂)) permet de prendre une décision. Si |tcalculé| est supérieur à tcritique (par exemple, t(20) = 2.08), on rejette H0. Par exemple, si pour une variable X, |tcalculé| = 10.201 > tcritique, alors le coefficient de la variable X est significativement différent de 0.
La variance estimée d'un coefficient de régression βj est s²(β̂j). Un test de Student H0: βj = 0 contre H1: βj ≠ 0 est ensuite effectué. Si le coefficient de X2 est significativement différent de 0, on rejette H0 pour β2.
Problème de Colinéarité
La colinéarité survient lorsque deux ou plusieurs variables explicatives dans un modèle de régression multiple sont fortement corrélées entre elles.
Lorsqu'une variable (par exemple X1) était significative dans une régression simple, mais qu'elle ne l'est plus lorsqu'elle est combinée avec une autre variable (par exemple X2) dans un modèle multiple, cela peut être une conséquence de la colinéarité entre X1 et X2.
Une forte colinéarité (par exemple, un coefficient de corrélation r(X1, X2) élevé) rend difficile d'estimer les effets uniques de chaque variable explicative. Cela peut entraîner des erreurs standard élevées pour les coefficients et des t-ratios faibles, rendant les coefficients non significatifs individuellement même si le modèle global est significatif.
Métriques d'Évaluation de Modèle en Régression
- R2 ajusté : Il prend en compte le nombre de variables explicatives dans le modèle et pénalise l'ajout de prédicteurs inutiles. Il est utile pour comparer le pouvoir explicatif de plusieurs modèles de régression ayant un nombre différent de variables.
- Statistique F (pour le test global) : La valeur F est cruciale pour évaluer la significativité globale du modèle. Une statistique F élevée avec une p-value faible indique que le modèle dans son ensemble explique une part significative de la variation de la variable dépendante.
- Modèle de régression multiple : Il est représenté par une équation de la forme Ŷ = β0 + β1X1 + ... + βpXp. Son objectif est d'estimer les coefficients (βi) et de prévoir la variable dépendante (Y) en fonction de plusieurs variables explicatives.
Foire Aux Questions (FAQ) sur l'Analyse des Données
Qu'est-ce que l'Analyse en Composantes Principales (ACP) ?
L'Analyse en Composantes Principales (ACP) est une technique statistique descriptive utilisée pour simplifier des ensembles de données complexes. Elle réduit la dimensionnalité d'un ensemble de données en transformant un grand nombre de variables corrélées en un nombre plus petit de variables non corrélées appelées "composantes principales", tout en conservant autant d'informations (variance) que possible.
À quoi servent les tests d'hypothèses en régression linéaire ?
Les tests d'hypothèses en régression linéaire permettent de déterminer si les relations observées entre les variables sont statistiquement significatives et ne sont pas dues au simple hasard. Le test F évalue la significativité globale du modèle, tandis que les tests de Student évaluent la significativité individuelle de chaque variable explicative ou de la constante. Ils aident à décider quelles variables inclure dans le modèle et si le modèle a un pouvoir prédictif utile.
Qu'est-ce que la colinéarité et pourquoi est-elle un problème en régression ?
La colinéarité est un phénomène où deux ou plusieurs variables explicatives dans un modèle de régression multiple sont fortement corrélées entre elles. Cela pose problème car elle rend difficile l'estimation fiable des coefficients de régression individuels, augmentant leurs erreurs standard et diminuant leur significativité statistique. En présence de forte colinéarité, il devient difficile de distinguer l'impact unique de chaque variable sur la variable dépendante.