Ce document, destiné aux étudiants universitaires en informatique ou disciplines connexes, présente un ensemble de questions et d'exercices axés sur les concepts fondamentaux du Data Mining. Il s'agit spécifiquement de l'examen de remplacement du 21-01-2025.
Il couvre des notions essentielles de l'apprentissage automatique, préparant les étudiants à maîtriser les aspects théoriques et pratiques de l'analyse des données. Les sujets abordés incluent :
- La régression logistique et linéaire
- Les principes de la descente de gradient
- L'évaluation des modèles (accuracy, rappel)
- La validation croisée
examen de remplacement DM 2025.pdf
Télécharger PDFExamen de Remplacement Data Mining
Cette section contient des questions et des réponses détaillées sur des concepts fondamentaux du Data Mining, couvrant la régression logistique, la descente de gradient, l'évaluation de modèles et la validation croisée.
1. L'objectif principal de l'apprentissage supervisé
Quel est l'objectif principal de l'apprentissage supervisé ?
- A. Minimiser les erreurs de prédiction
- B. Maximiser l'efficacité d'apprentissage
- C. Prédire les événements futurs et classer de nouvelles données
- D. Apprendre à partir de données non étiquetées
Réponse correcte : C
L'objectif principal de l'apprentissage supervisé est d'apprendre une fonction qui mappe un ensemble d'entrées à un ensemble de sorties désirées (labels) en se basant sur des exemples étiquetés. Cela permet ensuite de prédire les sorties ou de classer de nouvelles données non vues auparavant. Minimiser les erreurs de prédiction (A) est un moyen d'atteindre cet objectif, tandis que l'apprentissage à partir de données non étiquetées (D) est la définition de l'apprentissage non supervisé.
2. Propriété de la droite de régression linéaire
La droite de régression linéaire passe certainement par le centre de gravité du nuage des points (xi, yi) représentant les données d'apprentissage.
- A. Vrai
- B. Jamais
- C. Ça dépend du degré de corrélation entre les variables X et Y.
- D. C'est vrai dans le cas où la constante du modèle θ0 est nulle.
Réponse correcte : A
La droite de régression linéaire obtenue par la méthode des moindres carrés ordinaires possède une propriété fondamentale : elle passe toujours par le point moyen (X̄, Ȳ), également appelé le centre de gravité du nuage de points. Cela est une conséquence directe de la formulation mathématique de la régression linéaire.
3. Descente de gradient pour minimiser une fonction
Supposons que nous utilisions la descente de gradient pour essayer de minimiser une fonction quelconque f(θ0, θ1) en fonction de θ0 et θ1. Parmi les affirmations suivantes, lesquelles sont vraies ?
- A. Si θ0 et θ1 sont initialisés au minimum global, alors une itération ne changera pas leurs valeurs.
- B. Fixer un taux d'apprentissage très faible n'est pas nocif, et ne peut qu'accélérer la convergence de la descente de gradient.
- C. Peu importe comment θ0 et θ1 sont initialisés, tant que le taux d'apprentissage est suffisamment petit, on peut s'attendre à ce que la descente de gradient converge vers la même solution.
- D. Si les premières itérations de descente de gradient provoquent une augmentation de f(θ0, θ1) plutôt qu'une diminution, la cause la plus probable est que nous avons défini une valeur du taux d'apprentissage trop élevée.
Réponses correctes : A et D
- A est vraie : Au minimum (global ou local), le gradient de la fonction est nul. Par conséquent, l'update des paramètres (θ = θ - α * gradient) n'entraînera aucun changement de valeur.
- B est fausse : Un taux d'apprentissage très faible rendra la convergence extrêmement lente, augmentant considérablement le temps nécessaire pour atteindre le minimum, même si cela peut éviter les oscillations.
- C est fausse : Pour des fonctions non convexes (ayant plusieurs minima locaux), le point d'initialisation influence fortement le minimum vers lequel la descente de gradient convergera. Seules les fonctions convexes garantissent la convergence vers le même minimum global quelle que soit l'initialisation (avec un taux d'apprentissage approprié).
- D est vraie : Une augmentation de la fonction de coût pendant la descente de gradient est un signe classique que le taux d'apprentissage est trop élevé, faisant "sauter" l'algorithme par-dessus le minimum et potentiellement diverger.
4. Calculs pour un modèle de régression linéaire
On veut construire un modèle de régression linéaire en utilisant les données d'apprentissage suivantes (xi, yi) pour i = 1, 2, 3 : x = (1, 2, 3) et y = (1.5, 2, 2.5).
a) Calculer la valeur initiale de la fonction de coût avec θ0 = 0 et θ1 = 0.
Le modèle de régression linéaire est h(x) = θ0 + θ1x.
Avec θ0 = 0 et θ1 = 0, le modèle prédit h(x) = 0 pour toutes les valeurs de x.
La fonction de coût (Erreur Quadratique Moyenne - MSE) est J(θ) = (1 / (2m)) Σ(h(xi) - yi)2, où m est le nombre d'exemples (m=3).
- Pour x1=1, y1=1.5 : (h(1) - 1.5)2 = (0 - 1.5)2 = 2.25
- Pour x2=2, y2=2 : (h(2) - 2)2 = (0 - 2)2 = 4
- Pour x3=3, y3=2.5 : (h(3) - 2.5)2 = (0 - 2.5)2 = 6.25
J(0, 0) = (1 / (2 * 3)) * (2.25 + 4 + 6.25)
J(0, 0) = (1 / 6) * 12.5 = 2.0833...
La valeur initiale de la fonction de coût est d'environ 2.0833.
b) Valeurs estimées des paramètres après une itération de la descente de gradient si le taux d'apprentissage α = 1.
Les règles de mise à jour pour la descente de gradient sont :
- θ0 := θ0 - α * (1/m) * Σ(h(xi) - yi)
- θ1 := θ1 - α * (1/m) * Σ((h(xi) - yi) * xi)
Calculons d'abord (h(xi) - yi) :
- (0 - 1.5) = -1.5
- (0 - 2) = -2
- (0 - 2.5) = -2.5
Somme des erreurs : Σ(h(xi) - yi) = -1.5 - 2 - 2.5 = -6
Somme des erreurs pondérées par xi : Σ((h(xi) - yi) * xi) = (-1.5 * 1) + (-2 * 2) + (-2.5 * 3)
= -1.5 - 4 - 7.5 = -13
Mise à jour des paramètres avec α = 1 et m = 3 :
- θ0_nouveau = 0 - 1 * (1/3) * (-6) = 0 - (-2) = 2
- θ1_nouveau = 0 - 1 * (1/3) * (-13) = 0 - (-13/3) = 13/3 ≈ 4.3333
Après une itération, les nouvelles valeurs estimées des paramètres sont θ0 ≈ 2 et θ1 ≈ 4.3333.
5. Assumptions de la régression logistique
La régression logistique assume que :
- A. Une relation positive entre la variable X et la variable cible Y
- B. Une relation négative entre la variable X et la variable cible Y
- C. Une relation linéaire entre le logit de la variable dépendante Y et les variables indépendantes X
- D. Une relation quelconque entre la variable X et la variable cible Y
Réponse correcte : C
La régression logistique modélise la probabilité d'appartenance à une classe. L'hypothèse clé est qu'il existe une relation linéaire entre le logit (le logarithme des cotes, log(p/(1-p))) de la variable dépendante (cible) et les variables indépendantes (prédicteurs). Cela signifie que les paramètres du modèle sont linéairement liés aux prédicteurs, pas directement la variable X et Y elles-mêmes.
6. Forme simplifiée de la fonction de coût de la régression logistique
La forme simplifiée de la fonction de coût globale de la régression logistique est donnée par la formule suivante :
J(θ) = − (1 / m) × Σ [yi × log(hθ(xi)) + (1 − yi) × log(1 − hθ(xi))]
Réponse correcte : B (correspondant à la formule ci-dessus)
Cette formule est la fonction de coût de l'entropie croisée binaire (binary cross-entropy loss), couramment utilisée pour la régression logistique. Elle pénalise fortement les prédictions incorrectes et tend vers zéro pour les prédictions parfaites.
7. Détermination de la limite de décision d'un classificateur logistique
Supposons que vous entraîniez un classificateur logistique hθ(x) = g(θ0 + θ1⋅x1 + θ2⋅x2), où g est la fonction sigmoïde. Supposons que θ0 = -6, θ1 = +1, θ2 = 0. Décrivez la limite de décision trouvée par ce classificateur.
La limite de décision d'un classificateur logistique est définie par l'équation où l'argument de la fonction sigmoïde est égal à zéro, c'est-à-dire :
θ0 + θ1⋅x1 + θ2⋅x2 = 0
Avec les valeurs données (θ0 = -6, θ1 = +1, θ2 = 0) :
-6 + 1⋅x1 + 0⋅x2 = 0
Cela se simplifie en : x1 = 6
La limite de décision est une droite verticale à x1 = 6. Pour toutes les observations où x1 > 6, le classificateur prédira la classe "1" (car -6 + x1 > 0, donc g(argument) > 0.5). Pour toutes les observations où x1 < 6, il prédira la classe "0" (car -6 + x1 < 0, donc g(argument) < 0.5).
Sur un graphique où x1 est sur l'axe horizontal, cette limite serait une ligne verticale passant par 6.
8. Surapprentissage (Overfitting) en régression polynomiale
Après avoir entraîné une régression polynomiale, on se rend compte que l'erreur d'apprentissage est beaucoup plus faible que l'erreur de validation (test). Que se passe-t-il ? Et que peut-on faire ?
Explication : Cette situation est un indicateur clair de surapprentissage (overfitting). Le modèle de régression polynomiale a trop bien appris les spécificités et le bruit des données d'entraînement, au point de ne plus bien généraliser aux nouvelles données. En d'autres termes, il a une faible performance sur l'ensemble d'entraînement mais une performance significativement moins bonne sur l'ensemble de validation ou de test.
Solutions possibles :
- Réduire la complexité du modèle : Diminuer le degré du polynôme dans la régression polynomiale. Un modèle plus simple est moins susceptible de surapprendre.
- Augmenter la quantité de données d'entraînement : Plus de données peuvent aider le modèle à mieux apprendre les vrais motifs sous-jacents plutôt que le bruit.
- Utiliser la régularisation : Appliquer des techniques comme la régularisation L1 (Lasso) ou L2 (Ridge) qui pénalisent les grands coefficients du modèle, encourageant des modèles plus simples.
- Sélection de caractéristiques (Feature Selection) : Identifier et utiliser uniquement les caractéristiques les plus pertinentes pour éviter d'entraîner le modèle sur des variables bruyantes ou non informatives.
- Validation croisée : Utiliser la validation croisée pour évaluer plus robustement la performance du modèle et détecter le surapprentissage plus tôt.
9. Calcul de l'Accuracy et du Rappel pour un classificateur aléatoire
On veut tester un algorithme de classification binaire qui retourne aléatoirement « négatif » ou « positif » avec une probabilité de 0,5 pour chacune des classes. Le jeu d'évaluation (de test) contient 85% d'exemples positifs et 15% d'exemples négatifs. Quels seront l'accuracy et le rappel (recall) ?
Considérons un ensemble de test de N exemples. Il y a 0.85N exemples positifs réels et 0.15N exemples négatifs réels.
Le classificateur prédit "positif" avec une probabilité de 0.5 et "négatif" avec une probabilité de 0.5.
Calcul de l'Accuracy :
L'accuracy est la proportion de prédictions correctes par rapport au total des exemples.
- Vrais Positifs (VP) : Exemples positifs réels prédits comme positifs = 0.85N × 0.5 = 0.425N
- Vrais Négatifs (VN) : Exemples négatifs réels prédits comme négatifs = 0.15N × 0.5 = 0.075N
- Nombre total de prédictions correctes = VP + VN = 0.425N + 0.075N = 0.5N
Accuracy = (Nombre de prédictions correctes) / N = 0.5N / N = 0.5 (ou 50%)
Calcul du Rappel (Recall) pour la classe Positive :
Le rappel (ou sensibilité) est la proportion de vrais positifs correctement identifiés parmi tous les exemples réels positifs.
Rappel = VP / (VP + Faux Négatifs)
- Faux Négatifs (FN) : Exemples positifs réels prédits comme négatifs = 0.85N × 0.5 = 0.425N
Rappel = 0.425N / (0.425N + 0.425N) = 0.425N / 0.85N = 0.5 (ou 50%)
Pour ce classificateur aléatoire sur cet ensemble de données, l'accuracy sera de 0.5 et le rappel (pour la classe positive) sera de 0.5.
10. Utilité de la validation croisée (Cross-validation) en Data Mining
À quoi sert la validation croisée (Cross-validation) dans le Data Mining ?
- A. Entraînement croisé de différents modèles
- B. Évaluation des performances du modèle sur plusieurs ensembles de données
- C. Sélection des hyperparamètres
- D. Tester la capacité de généralisation d'un modèle
Réponses correctes : B, C et D
La validation croisée est une technique essentielle en Data Mining pour plusieurs raisons :
- Évaluation robuste de la performance (B et D) : Elle permet d'obtenir une estimation plus fiable des performances d'un modèle (comme son accuracy, son rappel, etc.) en évaluant le modèle sur plusieurs sous-ensembles de données différents. Cela réduit la variabilité de l'estimation par rapport à une simple division entraînement/test et permet de tester la capacité du modèle à généraliser sur des données non vues.
- Sélection des hyperparamètres (C) : Elle est couramment utilisée pour ajuster les hyperparamètres d'un modèle. En testant différentes combinaisons d'hyperparamètres et en évaluant la performance avec la validation croisée, on peut choisir les hyperparamètres qui donnent les meilleurs résultats généralisables.
L'option A, "Entraînement croisé de différents modèles", n'est pas la définition ou l'objectif principal de la validation croisée. La validation croisée est une méthode d'évaluation et de sélection, pas une méthode d'entraînement de plusieurs modèles simultanément.
Questions Fréquemment Posées (FAQ) sur le Data Mining
Qu'est-ce que le surapprentissage (overfitting) et comment l'éviter ?
Le surapprentissage se produit lorsqu'un modèle apprend trop bien les données d'entraînement, y compris le bruit et les spécificités accidentelles, au point de perdre sa capacité à généraliser sur de nouvelles données. On l'identifie par une performance très élevée sur l'ensemble d'entraînement et une performance nettement inférieure sur l'ensemble de validation ou de test. Pour l'éviter, on peut réduire la complexité du modèle, augmenter la quantité de données d'entraînement, appliquer des techniques de régularisation (L1, L2) ou utiliser la sélection de caractéristiques.
Quelle est la différence entre la régression linéaire et la régression logistique ?
La régression linéaire est utilisée pour prédire une variable cible continue (numérique), tandis que la régression logistique est utilisée pour prédire une variable cible catégorielle (généralement binaire). La régression linéaire modélise une relation linéaire directe entre les variables, alors que la régression logistique modélise la probabilité d'appartenance à une classe en utilisant une fonction sigmoïde pour transformer une combinaison linéaire des prédicteurs en une probabilité.
Pourquoi le taux d'apprentissage est-il crucial dans la descente de gradient ?
Le taux d'apprentissage (learning rate) détermine la taille des pas que la descente de gradient effectue pour se rapprocher du minimum de la fonction de coût. Un taux trop élevé peut faire diverger l'algorithme (il "saute" par-dessus le minimum) ou osciller sans jamais converger. Un taux trop faible peut rendre la convergence extrêmement lente, augmentant le temps d'entraînement de manière significative. Choisir un taux d'apprentissage approprié est donc essentiel pour une convergence efficace et rapide vers un bon minimum.