Examen 2021 2022 data mining pdf

Ce document universitaire constitue une épreuve d'examen du module "Data Mining", spécifiquement conçue pour les étudiants de Master 2 en Informatique à la Faculté des Sciences de l'UMBBoumerdes. Il a pour objectif d'évaluer leur maîtrise des concepts clés du domaine.

Il couvre les notions suivantes:

Les règles d'association et l'algorithme Apriori.
La régression linéaire, incluant la fonction de coût et la descente de gradient.
Les fondements de l'apprentissage supervisé et les propriétés des algorithmes d'optimisation.

Examen 2021-2022 Data Mining

Télécharger PDF

Examen de Data Mining et Apprentissage Automatique - Master 2

Ce document présente des questions tirées d'un examen de Data Mining et d'Apprentissage Automatique, proposé par le Département d'Informatique de la Faculté des Sciences de l'UMBBoumerdes. Destiné aux étudiants de Master 2, il aborde des concepts fondamentaux tels que les règles d'association, la régression linéaire, la descente de gradient et les distinctions entre les différents paradigmes d'apprentissage automatique.

1. Règles d'association et Algorithme Apriori

Soit une base de transactions englobant 8 articles (items) vendus dans un supermarché.

a) Quel est le nombre maximum de 3-itemsets candidats qui peuvent être obtenus de cette base ?

Explication: Le calcul du nombre maximum de k-itemsets candidats à partir d'un ensemble de n articles est une combinaison C(n, k). Pour un 3-itemset (k=3) à partir de 8 articles (n=8), la formule est C(8, 3) = 8! / (3! * (8-3)!).

b) Donner une interprétation à la règle d'association (a2, a4) => (a6, a8) obtenue avec l'algorithme Apriori, avec un support de 0.6 et une confiance de 0.9.

Interprétation: Cette règle signifie que, dans la base de transactions, la présence simultanée des articles a2 et a4 (l'antécédent) est fortement associée à la présence simultanée des articles a6 et a8 (le conséquent). Un support de 0.6 indique que l'ensemble {a2, a4, a6, a8} apparaît dans 60% des transactions de la base. Une confiance de 0.9 signifie que, parmi toutes les transactions qui contiennent les articles a2 et a4, 90% contiennent également les articles a6 et a8.

2. Régression Linéaire et Descente de Gradient

On veut construire un modèle de régression linéaire en utilisant les données d'apprentissage suivantes (x, y), où i = 1, 2, 3, tels que x = (1, 2, 3) et y = (1.5, 2, 2.5).

a) Si on commence par θ₀ = 0 et θ₁ = 0, calculer la valeur initiale de la fonction de coût.

Rappel: En régression linéaire, la fonction de coût est souvent la somme des carrés des erreurs (SSE) ou l'erreur quadratique moyenne (MSE). Elle mesure la différence entre les valeurs prédites par le modèle h_θ(x) = θ₀ + θ₁x et les valeurs réelles y_i de l'ensemble d'apprentissage.

b) Si on commence par θ₀ = 0 et θ₁ = 0, quelles sont les valeurs estimées de ces paramètres après une itération de la descente de gradient si le taux d'apprentissage est égal à 1 ?

Explication: La descente de gradient est un algorithme itératif d'optimisation utilisé pour trouver les valeurs des paramètres θ₀ et θ₁ qui minimisent la fonction de coût. À chaque itération, les paramètres sont ajustés en fonction du gradient de la fonction de coût et du taux d'apprentissage (learning rate), qui détermine la taille du pas.

3. Application de l'Apprentissage Supervisé

Auxquelles des propositions suivantes s'applique l'apprentissage supervisé ?

A. Compte tenu des données historiques sur l'âge et la taille des enfants, prédire la taille en fonction de l'âge.
B. Étant donné 50 articles écrits par des auteurs masculins et 50 articles écrits par des auteurs féminins, apprendre à prédire le sexe de l'auteur d'un nouveau manuscrit (lorsque l'identité de cet auteur est inconnue).
C. Sur une collection de 1000 essais écrits sur l'économie américaine, trouver un moyen de regrouper automatiquement ces essais en un petit nombre de groupes qui sont en quelque sorte "similaires" ou "liés".
D. Examiner une grande collection d'e-mails connus pour être des spams, afin de découvrir s'il existe des sous-types de spams.

Analyse: L'apprentissage supervisé est caractérisé par l'utilisation de données d'entraînement labellisées, c'est-à-dire où la sortie désirée est connue pour chaque entrée. Les options A et B sont des exemples d'apprentissage supervisé (régression pour A, classification pour B) car elles impliquent la prédiction d'une cible basée sur des exemples étiquetés. Les options C et D décrivent des tâches d'apprentissage non supervisé, qui visent à découvrir des structures cachées dans des données non labellisées (regroupement ou détection de motifs).

4. Propriétés de la Descente de Gradient

Supposons que nous utilisions la descente de gradient pour essayer de minimiser une fonction quelconque f(θ₀, θ₁) en fonction de θ₀ et θ₁. Parmi les affirmations suivantes, lesquelles sont vraies ?

A. Si θ₀ et θ₁ sont initialisés au minimum global, alors une itération ne changera pas leurs valeurs.
B. Fixer un taux d'apprentissage très faible n'est pas nocif, et ne peut qu'accélérer la convergence de la descente de gradient.
C. Peu importe comment θ₀ et θ₁ sont initialisés, tant que le taux d'apprentissage est suffisamment petit, on peut s'attendre à ce que la descente de gradient converge vers la même solution.
D. Si les premières itérations de descente de gradient provoquent une augmentation de f(θ₀, θ₁) plutôt qu'une diminution, la cause la plus probable est que nous avons défini une valeur du taux d'apprentissage trop élevée.

Analyse des options:

A est vraie: Au minimum global, le gradient de la fonction de coût est nul. Par conséquent, les mises à jour des paramètres sont nulles, et leurs valeurs ne changent pas.
B est fausse: Un taux d'apprentissage très faible ne cause pas de divergence, mais il ralentit considérablement le processus de convergence, ne l'accélère en aucun cas.
C est fausse: Pour les fonctions de coût non convexes, l'initialisation des paramètres peut influencer le minimum local vers lequel la descente de gradient converge. Pour les fonctions convexes, elle converge toujours vers le minimum global unique, mais l'affirmation est trop générale.
D est vraie: Une augmentation de la fonction de coût après des itérations de descente de gradient est un signe classique d'un taux d'apprentissage trop élevé. L'algorithme "saute" alors par-dessus le minimum au lieu de s'en rapprocher.

5. Régression Linéaire et Fonction de Coût Nulle

Supposons que pour un problème de régression linéaire, on a réussi à trouver certaines valeurs de θ₀ et θ₁ telles que f(θ₀, θ₁) = 0. Lesquelles des affirmations ci-dessous sont vraies ? (Cochez tout ce qui s'applique.)

A. La descente de gradient est susceptible de rester bloquée à un minimum local et de ne pas trouver le minimum global.
B. Pour que cela soit vrai, nous devons avoir θ₀ = 0 et θ₁ = 0 de sorte que h_θ(x) = 0.
C. Pour que cela soit vrai, nous devons avoir y_i = 0 pour chaque valeur de i = 1, 2,...,m.
D. Notre ensemble d'apprentissage peut être parfaitement ajusté par une ligne droite, c'est-à-dire que tous nos exemples d'apprentissage reposent parfaitement sur une ligne droite.

Analyse des options:

A est fausse: Une fonction de coût de 0 signifie que le modèle a parfaitement appris les données d'entraînement, ce qui représente le minimum global absolu (une erreur nulle), et non un blocage à un minimum local.
B est fausse: Avoir θ₀ = 0 et θ₁ = 0 impliquerait que le modèle prédit toujours 0 (h_θ(x) = 0). Ceci ne résulterait en une fonction de coût nulle que si toutes les valeurs y_i étaient également nulles, ce qui n'est pas une condition générale.
C est fausse: Il n'est pas nécessaire que toutes les valeurs y_i soient nulles. Pour que la fonction de coût soit nulle, il faut et il suffit que les prédictions du modèle h_θ(x_i) soient exactement égales aux valeurs réelles y_i pour tous les points d'apprentissage.
D est vraie: Une fonction de coût nulle en régression linéaire signifie que l'erreur entre les prédictions du modèle et les observations réelles est nulle pour tous les points de l'ensemble d'apprentissage. Cela implique que tous les points de données se situent précisément sur la ligne droite définie par le modèle de régression.

Foire Aux Questions (FAQ) sur le Data Mining et l'Apprentissage Automatique

Qu'est-ce qu'une règle d'association en Data Mining ?

Une règle d'association est une expression de la forme "Si X, alors Y" qui révèle une relation entre des ensembles d'articles dans de grandes bases de données. Elle est couramment utilisée dans l'analyse de panier d'achat pour identifier les produits souvent achetés ensemble. Sa force est mesurée par des métriques comme le support et la confiance.

Quelle est la distinction principale entre l'apprentissage supervisé et non supervisé ?

L'apprentissage supervisé repose sur l'utilisation de données labellisées, c'est-à-dire des ensembles où les entrées sont associées aux sorties correctes, pour entraîner un modèle à faire des prédictions (classification ou régression). L'apprentissage non supervisé, quant à lui, explore des données non labellisées pour découvrir des structures, des motifs ou des regroupements inhérents aux données, sans aucune connaissance préalable des résultats.

Pourquoi le choix du taux d'apprentissage est-il si important en descente de gradient ?

Le taux d'apprentissage (ou learning rate) est un hyperparamètre crucial dans la descente de gradient car il détermine la taille des pas effectués à chaque itération pour atteindre le minimum de la fonction de coût. Un taux trop élevé peut faire "sauter" l'algorithme par-dessus le minimum et potentiellement le faire diverger. Inversement, un taux trop faible entraîne une convergence très lente, augmentant considérablement le temps nécessaire pour que le modèle apprenne.