Examen corrigé remplacement data mining 22 23

Ce document présente la solution de l'examen de remplacement en Data Mining pour l'année universitaire 22-23. Il est destiné aux étudiants universitaires afin de les aider à réviser et à comprendre les concepts fondamentaux de la discipline.

Les sujets abordés incluent :

L'algorithme A Priori et ses propriétés.
Les principes de classification, notamment le sur-apprentissage.
La régression linéaire et logistique.
Les méthodes d'optimisation comme la descente de gradient et les fonctions de coût.

Examen corrigé Remplacement Data Mining 22 23

Télécharger PDF

Solution d'Examen de Remplacement Data Mining 2022-2023

1. Propriété de l'algorithme Apriori

L'algorithme Apriori utilise la propriété d'anti-monotonie. Son expression est : ∀ X ⊆ Y ⇒ s(X) ≥ s(Y), où s(X) est le support de l'itemset X.

Son principe est le suivant : si un itemset est fréquent, alors tous ses sous-ensembles le sont également. Par conséquent, si un itemset n'est pas fréquent, aucun de ses sur-ensembles ne peut l'être. Cette propriété est fondamentale pour l'algorithme Apriori car elle permet d'élaguer efficacement l'espace de recherche des itemsets fréquents.

2. Nature de la variable cible en classification

Dans un problème de classification, la variable cible Y peut avoir seulement :

B- Une Valeur Discrète.

En classification, la variable cible (ou variable dépendante) représente des catégories ou des classes, qui sont par nature discrètes (par exemple, "oui" ou "non", "spam" ou "non-spam", "type A", "type B", "type C"). Si la variable cible avait des valeurs continues, il s'agirait alors d'un problème de régression.

3. Définition du sur-apprentissage (Overfitting)

En Data Mining, le sur-apprentissage (sur-ajustement ou Overfitting) signifie que :

C- Un modèle qui généralise mal.

Le sur-apprentissage se produit lorsqu'un modèle est entraîné de manière trop approfondie sur les données d'apprentissage, au point qu'il apprend le bruit et les spécificités de ces données plutôt que la tendance générale. En conséquence, le modèle performe très bien sur les données d'entraînement, mais échoue à généraliser et à prédire correctement sur de nouvelles données, non vues auparavant.

4. Propriété de la droite de régression linéaire

La droite de régression linéaire passe certainement par le centre de gravité (x̄, ȳ) du nuage des points (xᵢ, yᵢ) représentant les données d'apprentissage.

A- Vrai.

La droite de régression linéaire calculée par la méthode des moindres carrés est unique et passe toujours par le point moyen des données, également appelé centre de gravité (moyenne de X, moyenne de Y). C'est une propriété intrinsèque de cette méthode.

5. Comportement de la descente de gradient

Supposons que nous utilisons la descente de gradient pour essayer de minimiser une fonction quelconque f(θ₀, θ₁) en fonction de θ₀ et θ₁. Parmi les affirmations suivantes, lesquelles sont vraies ?

A- Si θ₀ et θ₁ sont initialisés au minimum global, alors une itération ne changera pas leurs valeurs.

D- Si les premières itérations de descente de gradient provoquent une augmentation de f(θ₀, θ₁) plutôt qu’une diminution, la cause la plus probable est que nous avons défini une valeur du taux d’apprentissage trop élevée.

Si les paramètres sont déjà au minimum global, le gradient est nul, et aucune mise à jour ne se produit (A est vrai). Une augmentation de la fonction de coût suggère que la taille des pas est trop grande, faisant "sauter" l'algorithme par-dessus le minimum ou le menant dans une mauvaise direction (D est vrai). Un taux d'apprentissage très faible ralentit la convergence mais ne l'accélère pas (B est faux). L'initialisation des paramètres peut affecter le point de convergence pour les fonctions non convexes (C est faux).

6. Fonction de coût nulle en régression linéaire

Supposons que pour un problème de régression linéaire, on a réussi à trouver certaines valeurs de θ₀ et θ₁ telles que la fonction de coût J(θ₀, θ₁) = 0. Lesquelles des affirmations ci-dessous sont vraies ?

D- Aucune des trois réponses.

Si la fonction de coût J(θ₀, θ₁) = 0, cela signifie que le modèle de régression linéaire prédit parfaitement toutes les valeurs des données d'apprentissage, c'est-à-dire hθ(x^(i)) = y^(i) pour tous les exemples (i). Cela n'implique pas nécessairement que θ₀ = 0 et θ₁ = 0 (B), ni que toutes les valeurs y^(i) soient égales à 0 (C). De plus, si J=0, le minimum global a été trouvé, donc l'affirmation A est fausse car le problème des minima locaux est plus pertinent pour des fonctions de coût non convexes ou si la convergence n'est pas complète.

7. Ajustement du taux d'apprentissage (α) dans la descente de gradient

Vous exécutez la descente de gradient pendant 15 itérations avec α = 0.3 et vous calculez J(θ) après chaque itération. Vous trouvez que la valeur de J(θ) diminue lentement mais continue de diminuer après 15 itérations. Sur cette base, lesquelles des conclusions suivantes semblent les plus plausibles ?

A- Plutôt que d’utiliser la valeur actuelle de α, il serait plus prometteur d’essayer une valeur plus grande de α.

Si la fonction de coût J(θ) diminue lentement mais de manière constante, cela suggère que le taux d'apprentissage (α) est trop faible. Une valeur de α plus élevée pourrait potentiellement accélérer la convergence vers le minimum sans provoquer de divergence ou d'oscillations.

8. Fonction de coût en régression logistique

La forme simplifiée de la fonction de coût globale de la régression logistique est donnée par la formule suivante : D

La fonction de coût en régression logistique, souvent appelée fonction de coût de la log-vraisemblance ou entropie croisée binaire, est conçue pour pénaliser les prédictions incorrectes et encourager le modèle à produire des probabilités proches des vraies étiquettes. Bien que la formule exacte des options manque ici, elle est généralement exprimée comme :

J(θ) = -(1/m) * Σ[ y^(i)log(hθ(x^(i))) + (1-y^(i))log(1-hθ(x^(i))) ]

où m est le nombre d'exemples d'apprentissage, y^(i) est la vraie étiquette de l'exemple i, et hθ(x^(i)) est la prédiction de la probabilité que y=1 pour l'exemple x^(i).

9. Limite de décision d'un classificateur logistique

Supposons que vous entraînez un classificateur logistique hθ(x) = g(θ₀ + θ₁.x₁ + θ₂.x₂). Supposons que θ₀ = -6, θ₁ = +1, θ₂ = 0. Lesquelles des figures suivantes représentent-t-elles la limite de décision trouvée par votre classifieur ? Justifier.

La limite de décision d'un classificateur logistique est définie par l'équation où θᵀx = 0. C'est-à-dire si θ₀ + θ₁.x₁ + θ₂.x₂ = 0.

Avec les valeurs données (θ₀ = -6, θ₁ = 1, θ₂ = 0), l'équation de la limite de décision devient :

-6 + 1.x₁ + 0.x₂ = 0

Ce qui se simplifie en :

x₁ = 6

Cette limite de décision est une droite verticale à x₁ = 6. Le classificateur prédira y = 1 pour toutes les instances où x₁ ≥ 6 et y = 0 pour les instances où x₁ < 6.

FAQ sur le Data Mining

Q1 : Qu'est-ce que la propriété d'anti-monotonie dans l'algorithme Apriori ?

R1 : La propriété d'anti-monotonie stipule que si un itemset est fréquent, alors tous ses sous-ensembles sont également fréquents. Inversement, si un itemset n'est pas fréquent, aucun de ses sur-ensembles ne peut l'être. Cette propriété est cruciale pour l'algorithme Apriori, lui permettant d'éviter l'exploration de sous-arbres d'itemsets qui ne peuvent pas être fréquents, optimisant ainsi la recherche.

Q2 : Pourquoi le sur-apprentissage est-il un problème en Data Mining ?

R2 : Le sur-apprentissage est un problème majeur car il conduit à des modèles qui mémorisent les données d'entraînement, y compris le bruit et les particularités spécifiques, plutôt que d'apprendre les relations sous-jacentes. Par conséquent, ces modèles perdent leur capacité à généraliser et à faire des prédictions précises sur de nouvelles données, ce qui est l'objectif principal de la plupart des tâches de Data Mining.

Q3 : Comment ajuster le taux d'apprentissage (α) en descente de gradient ?

R3 : Le taux d'apprentissage (α) est un hyperparamètre clé dans la descente de gradient. Si α est trop faible, la convergence sera très lente. S'il est trop élevé, l'algorithme peut diverger ou osciller autour du minimum. Une bonne pratique consiste à commencer avec une valeur modérée et à l'ajuster : si la fonction de coût diminue très lentement, augmentez α ; si elle augmente ou oscille fortement, diminuez α. Des méthodes comme la recherche de grille ou la recherche aléatoire peuvent aider à trouver une valeur optimale.