Examen data mining questions qcm pdf

Ce document présente l'examen de remplacement du module Data Mining, destiné aux étudiants de Master 2 en Informatique pour l'année universitaire 2022/2023. Il a pour objectif d'évaluer l'acquisition des connaissances fondamentales et des compétences analytiques essentielles dans ce domaine.

Les principales notions couvertes incluent :

La régression linéaire et logistique
Les algorithmes d'optimisation comme la descente de gradient
Les concepts de classification et de sur-apprentissage (overfitting)
L'algorithme Apriori.

Examen Data Mining questions QCM

Télécharger PDF

Concepts Clés en Data Mining et Machine Learning : Questions et Explications

Introduction

Ce post explore des concepts fondamentaux en data mining et machine learning à travers une série de questions et explications détaillées. Il est conçu pour clarifier des points essentiels sur la régression linéaire, la régression logistique, la descente de gradient et le sur-apprentissage.

Questions et Explications Détaillées

1. Propriété de l'algorithme Apriori

Question : Citer la propriété utilisée par l'algorithme Apriori ? Quelle est son expression et son principe.

Explication :

L'algorithme Apriori est un algorithme classique de découverte de règles d'association, souvent utilisé pour analyser les paniers d'achats. Il repose sur la propriété d'Apriori, également connue sous le nom de propriété d'anti-monotonie ou de clôture par le bas (downward closure property).

Expression : Si un ensemble d'éléments (itemset) est fréquent, alors tous ses sous-ensembles sont également fréquents.
Principe : Réciproquement, si un sous-ensemble d'un itemset n'est pas fréquent, alors l'itemset lui-même ne peut pas être fréquent. Cette propriété permet à l'algorithme de réduire considérablement l'espace de recherche des itemsets fréquents en élaguant (pruning) les candidats qui ont des sous-ensembles non fréquents. Cela évite d'évaluer de nombreux itemsets qui sont garantis d'être non fréquents, optimisant ainsi le processus de recherche.

2. Variable Cible en Classification

Question : Dans un problème de classification, la variable cible Y peut avoir seulement :

A. Une valeur continue
B. Une valeur discrète
C. Une valeur d'échantillon
D. Une valeur aléatoire

Réponse Correcte : B. Une valeur discrète

Explication : En classification, l'objectif est de prédire une catégorie ou une classe. Par conséquent, la variable cible (Y) est qualitative ou catégorielle, ce qui signifie qu'elle prend des valeurs discrètes (par exemple, "oui/non", "chien/chat/oiseau", "faible/moyen/élevé"). Si la variable cible était continue, il s'agirait d'un problème de régression.

3. Comprendre le Sur-apprentissage (Overfitting)

Question : En data mining, le sur-apprentissage (ou overfitting) signifie que :

A. Un modèle est inadéquat pour résoudre le problème traité.
B. Un modèle sur-généralise exagérément.
C. Un modèle qui généralise mal.
D. 1 et 2 sont correctes.

Réponse Correcte : C. Un modèle qui généralise mal

Explication : Le sur-apprentissage se produit lorsqu'un modèle apprend trop bien les détails et le bruit des données d'entraînement, au point d'en mémoriser les spécificités plutôt que les tendances sous-jacentes. Cela le rend excellent sur les données d'entraînement, mais il échoue à prédire avec précision les nouvelles données (non vues), c'est-à-dire qu'il généralise mal. Un modèle qui "sur-généralise exagérément" (option B) est une autre façon de décrire le processus, mais "généralise mal" (option C) est la conséquence directe et la définition la plus courante de l'overfitting en termes de performance.

4. Propriété de la Droite de Régression Linéaire

Question : La droite de régression linéaire passe certainement par le centre de gravité du nuage de points (xᵢ, yᵢ) représentant les données d'apprentissage.

A. Vrai
B. Jamais
C. Ça dépend de la force de la relation linéaire entre X et Y.
D. Ça dépend du sens (positif ou négatif) de la relation linéaire entre X et Y.

Réponse Correcte : A. Vrai

Explication : Une propriété fondamentale de la droite de régression linéaire obtenue par la méthode des moindres carrés ordinaires est qu'elle passe toujours par le point moyen des données, également appelé centre de gravité du nuage de points (x̄, ȳ). Ce n'est pas une question de force ou de sens de la relation, mais une caractéristique intrinsèque de la méthode de calcul des coefficients de régression.

5. Descente de Gradient et Initialisation

Question : Supposons que nous utilisions la descente de gradient pour minimiser une fonction quelconque f(θ₀, θ₁) en fonction de θ₀ et θ₁. Parmi les affirmations suivantes, lesquelles sont vraies ?

A. Si θ₀ et θ₁ sont initialisés au minimum global, alors une itération ne changera pas leurs valeurs.
B. Fixer un taux d'apprentissage très faible n'est pas nocif, et ne peut qu'accélérer la convergence de la descente de gradient.
C. Peu importe comment θ₀ et θ₁ sont initialisés, tant que le taux d'apprentissage est suffisamment petit, on peut s'attendre à ce que la descente de gradient converge vers la même solution.
D. Si les premières itérations de descente de gradient provoquent une augmentation de f(θ₀, θ₁) plutôt qu'une diminution, la cause la plus probable est que nous avons défini une valeur du taux d'apprentissage trop élevée.

Réponses Correctes : A et D

Explication :

A. Vrai : Au minimum (global ou local), le gradient de la fonction est nul. Par conséquent, l'étape de mise à jour de la descente de gradient (θ = θ - α * gradient) n'aura aucun effet, et les valeurs de θ₀ et θ₁ resteront inchangées.
B. Faux : Un taux d'apprentissage très faible n'est pas "nocif" dans le sens où il ne causera pas de divergence, mais il ralentira considérablement la convergence de l'algorithme, nécessitant un très grand nombre d'itérations pour atteindre le minimum.
C. Faux : Cette affirmation est vraie uniquement pour les fonctions de coût convexes, comme celles de la régression linéaire. Pour une fonction "quelconque" (non nécessairement convexe), la descente de gradient peut converger vers différents minima locaux en fonction de l'initialisation des paramètres.
D. Vrai : Une augmentation de la fonction de coût pendant la descente de gradient est un signe classique que le taux d'apprentissage (α) est trop élevé. Un α trop grand fait "sauter" l'algorithme au-delà du minimum, ou même le fait diverger, entraînant une augmentation de la valeur de la fonction de coût à chaque pas.

6. Fonction de Coût Nulle en Régression Linéaire

Question : Supposons que pour un problème de régression linéaire, on ait réussi à trouver certaines valeurs de θ₀ et θ₁ telles que la fonction de coût J(θ₀, θ₁) = 0. Lesquelles des affirmations ci-dessous sont vraies ?

A. La descente de gradient est susceptible de rester bloquée à un minimum local et de ne pas trouver le minimum global.
B. Pour que cela soit vrai, nous devons avoir θ₀ = 0 et θ₁ = 0 de sorte que hθ(x) = 0.
C. Pour que cela soit vrai, nous devons avoir yᵢ = 0 pour chaque valeur de i = 1, 2,...,m.
D. Aucune des trois réponses.

Réponse Correcte : D. Aucune des trois réponses.

Explication : Si la fonction de coût J(θ₀, θ₁) est égale à zéro en régression linéaire, cela signifie que le modèle de régression prédit parfaitement toutes les valeurs de la variable cible pour les données d'entraînement, c'est-à-dire que hθ(xᵢ) = yᵢ pour tous les exemples d'entraînement i.

A. Faux : La fonction de coût de la régression linéaire est convexe, donc la descente de gradient convergera toujours vers le minimum global (si un minimum existe et qu'il n'y a pas divergence due à un taux d'apprentissage trop élevé). Elle ne peut pas rester bloquée dans un minimum local.
B. Faux : La prédiction hθ(x) = θ₀ + θ₁xᵢ ne serait égale à zéro pour toutes les observations que si toutes les yᵢ étaient égales à zéro, ce qui n'est pas une condition nécessaire pour que J=0. Le modèle peut prédire parfaitement des valeurs non nulles.
C. Faux : Il n'est pas nécessaire que toutes les valeurs réelles yᵢ soient nulles. Si les prédictions hθ(xᵢ) correspondent exactement aux valeurs yᵢ (quelles qu'elles soient), alors le coût sera nul.

7. Optimisation du Taux d'Apprentissage en Descente de Gradient

Question : Vous exécutez la descente de gradient pendant 15 itérations avec un taux d'apprentissage α = 0.3 et vous calculez J(θ) après chaque itération. Vous constatez que la valeur de J(θ) diminue lentement et continue de diminuer après 15 itérations. Sur cette base, lesquelles des conclusions suivantes semblent les plus plausibles ?

A. Plutôt que d'utiliser la valeur actuelle de α, il serait plus prometteur d'essayer une valeur plus grande de α.
B. Plutôt que d'utiliser la valeur actuelle de α, il serait plus prometteur d'essayer une valeur plus petite de α.
C. α = 0.3 est un choix efficace du taux d'apprentissage.

Réponse Correcte : A. Plutôt que d'utiliser la valeur actuelle de α, il serait plus prometteur d'essayer une valeur plus grande de α.

Explication : Si la fonction de coût diminue lentement mais de manière continue, cela indique que le taux d'apprentissage (α) est probablement trop petit. Un faible taux d'apprentissage signifie que l'algorithme prend de très petits pas vers le minimum, ce qui prolonge considérablement le temps de convergence. Essayer une valeur de α plus grande pourrait accélérer la convergence, à condition de ne pas la rendre trop grande au point de provoquer une divergence ou des oscillations autour du minimum.

8. Fonction de Coût en Régression Logistique

Question : La forme de la fonction de coût de la régression logistique est donnée par la formule suivante :

A. J(θ) = (1/m) ∑ [yᵢ log(hθ(xᵢ)) - (1-yᵢ) log(1-hθ(xᵢ))] + 17

B. J(θ) = -(1/m) ∑ [yᵢ log(hθ(xᵢ)) + (1-yᵢ) log(1-hθ(xᵢ))]

C. J(θ) = (1/m) ∑ [yᵢ log(hθ(xᵢ)) + (1-yᵢ) log(1-hθ(xᵢ))]

D. J(θ) = -(1/m) ∑ [yᵢ log(hθ(1-xᵢ)) + (1-yᵢ) log(hθ(xᵢ))]

Réponse Correcte : B. J(θ) = -(1/m) ∑ [yᵢ log(hθ(xᵢ)) + (1-yᵢ) log(1-hθ(xᵢ))]

Explication : La fonction de coût de la régression logistique est la fonction de perte d'entropie croisée (Cross-Entropy Loss). Elle est définie comme la moyenne des pertes pour chaque exemple d'entraînement. La formule correcte inclut un signe négatif devant la somme pour garantir que la fonction est convexe et peut être minimisée. Lorsque yᵢ = 1, seul le terme -yᵢ log(hθ(xᵢ)) reste, et lorsque yᵢ = 0, seul le terme -(1-yᵢ) log(1-hθ(xᵢ)) reste. Le signe négatif global transforme la maximisation de la vraisemblance en une minimisation du coût.

9. Détermination de la Limite de Décision

Question : Supposons que vous entraîniez un classificateur logistique hθ(x) = g(θ₀ + θ₁x₁ + θ₂x₂). Supposons que θ₀ = -6, θ₁ = +1, θ₂ = 0. Lesquelles des figures suivantes représentent-t-elles la limite de décision trouvée par votre classifieur ? Justifier.

Explication :

La limite de décision d'un classificateur logistique est l'endroit où la probabilité de prédire la classe positive (y=1) est égale à 0.5. Cela correspond au moment où l'argument de la fonction sigmoïde g() est égal à zéro.

Donc, la limite de décision est définie par l'équation : θ₀ + θ₁x₁ + θ₂x₂ = 0.

Avec les valeurs données : θ₀ = -6, θ₁ = +1, θ₂ = 0, l'équation devient :

-6 + 1 * x₁ + 0 * x₂ = 0

Ce qui se simplifie en :

x₁ = 6

Cette équation représente une ligne verticale à x₁ = 6 dans un plan x₁-x₂. Les points où x₁ > 6 seraient classés dans une catégorie (par exemple y=1) et les points où x₁ < 6 dans l'autre (y=0).

Étant donné que les figures (A, B, C, D) ne sont pas fournies dans le texte, il n'est pas possible de désigner une figure spécifique. Cependant, la limite de décision mathématiquement correcte est une ligne verticale passant par x₁ = 6.

FAQ sur le Data Mining et le Machine Learning

Qu'est-ce que le sur-apprentissage (overfitting) ?

Le sur-apprentissage est un phénomène où un modèle de machine learning apprend les données d'entraînement avec une précision excessive, y compris le bruit et les particularités aléatoires. Cela conduit à une excellente performance sur les données d'entraînement, mais à une performance médiocre sur de nouvelles données non vues, car le modèle n'a pas réussi à généraliser les véritables motifs sous-jacents.

Comment choisir un taux d'apprentissage efficace pour la descente de gradient ?

Le choix d'un taux d'apprentissage (α) est crucial. Un taux trop faible ralentit la convergence, tandis qu'un taux trop élevé peut faire diverger l'algorithme ou le faire osciller sans atteindre le minimum. Une stratégie courante consiste à commencer avec une valeur modérée, puis à l'ajuster : si le coût diminue lentement, on peut l'augmenter ; si le coût augmente ou oscille fortement, on doit le réduire. Des méthodes plus avancées comme les taux d'apprentissage adaptatifs (ex: Adam, RMSprop) peuvent automatiser ce processus.

Pourquoi la droite de régression linéaire passe-t-elle par le centre de gravité des points ?

La droite de régression linéaire obtenue par la méthode des moindres carrés minimise la somme des carrés des résidus. Il est une propriété mathématique que cette droite d'ajustement optimal passe toujours par le point (x̄, ȳ), où x̄ est la moyenne des valeurs d'entrée (X) et ȳ est la moyenne des valeurs de sortie (Y). Ce point est le centre de gravité du nuage de points et représente l'équilibre des données.

Examen data mining questions qcm pdf

Concepts Clés en Data Mining et Machine Learning : Questions et Explications

Introduction

Questions et Explications Détaillées

1. Propriété de l'algorithme Apriori

2. Variable Cible en Classification

3. Comprendre le Sur-apprentissage (Overfitting)

4. Propriété de la Droite de Régression Linéaire

5. Descente de Gradient et Initialisation

6. Fonction de Coût Nulle en Régression Linéaire

7. Optimisation du Taux d'Apprentissage en Descente de Gradient

8. Fonction de Coût en Régression Logistique

9. Détermination de la Limite de Décision

FAQ sur le Data Mining et le Machine Learning

Qu'est-ce que le sur-apprentissage (overfitting) ?

Comment choisir un taux d'apprentissage efficace pour la descente de gradient ?

Pourquoi la droite de régression linéaire passe-t-elle par le centre de gravité des points ?

Cela peut vous intéresser :

نموذج الاتصال