Corrigé data mining 2023 2024

Ce document, destiné aux étudiants universitaires en informatique, propose un corrigé détaillé d'exercices de Data Mining pour l'année académique 2023-2024. Il vise à consolider les connaissances sur les techniques essentielles d'analyse et de traitement des données, en mettant l'accent sur des applications pratiques.

Il couvre les notions suivantes :

Les méthodes de normalisation des données (Standardization, Min-Max).
L'évaluation du clustering (calcul de la distorsion pour K-means).
L'algorithme de classification Naive Bayes et la gestion des probabilités nulles via l'estimateur de Laplace.
La mesure de performance des modèles de classification (exactitude).

Corrigé Data Mining 2023-2024

Télécharger PDF

Corrigé d'Exercices en Data Mining (Année Universitaire 2023-2024)

Questions à choix multiples ou réponses courtes

1. A.
2. D.
4. B.
5. C, D.

Normalisation des données

La normalisation est une étape cruciale en prétraitement des données pour s'assurer que les attributs numériques ont une échelle cohérente, ce qui est souvent nécessaire pour la performance de nombreux algorithmes de machine learning.

Normalisation Standard (Standardization ou Z-score)

Cette méthode transforme les données pour avoir une moyenne de 0 et un écart-type de 1. Pour les valeurs d'exemple : (-4, -2, 0, 2, 4).

Normalisation Min-Max

Cette méthode met les données à l'échelle dans une plage spécifique, généralement entre 0 et 1. Pour les valeurs d'exemple : (0, 2, 4, 6, 8).

Comprendre la distorsion dans le clustering

La distorsion est une mesure clé utilisée pour évaluer la qualité d'une partition de clusters, en particulier dans les algorithmes comme K-Means. Elle représente la moyenne des distances au carré de chaque point de données à son centroïde de cluster correspondant.

Mathématiquement, pour un ensemble de points x_i et leurs centroïdes μ_j associés, la distorsion est calculée comme suit :

D = (1/N) * Σ_i=1^N ||x_i - μ_c(i)||²

Où N est le nombre total de points, et μ_c(i) est le centroïde du cluster auquel le point x_i est affecté. Une distorsion plus faible indique généralement des clusters plus compacts et mieux définis. La valeur "2.4" mentionnée est un exemple de résultat de calcul de la distorsion pour un ensemble de données donné.

EXERCICE 01 : Application de l'algorithme Naive Bayes

Objectif

L'objectif de cet exercice est de classer un nouvel emprunteur pour prédire s'il sera ou non en défaut de paiement. Nous utilisons l'algorithme Naive Bayes pour calculer P(Non|X) et P(Oui|X) et comparer ces probabilités.

Calcul des probabilités conditionnelles et a priori

Les probabilités suivantes sont tirées des données d'entraînement :

P(Non) = 6/9
P(Oui) = 3/9
P(Maison = Oui|Non) = 2/6
P(État = Divorcé|Non) = 0
P(Maison = Oui|Oui) = 0
P(État = Divorcé|Oui) = 1/3

Traitement de l'attribut continu "Revenu"

Pour l'attribut "Revenu", qui est continu, nous utilisons une distribution normale pour estimer les probabilités conditionnelles.

Pour la classe "Non" :

Moyenne (Revenu|Non) = 91
Variance (Revenu|Non) = 685
P(Revenu = 120|Non) ≈ 0.0083 (calculé avec la fonction de densité de probabilité d'une loi normale N(91, 685) pour X=120)

Pour la classe "Oui" :

Moyenne (Revenu|Oui) = 90
Variance (Revenu|Oui) = 25
P(Revenu = 120|Oui) ≈ 1.2 x 10^-90 (calculé avec la fonction de densité de probabilité d'une loi normale N(90, 25) pour X=120)

Application du classifieur Naive Bayes initial

L'algorithme Naive Bayes calcule la probabilité a posteriori P(Classe|X) proportionnellement au produit des probabilités conditionnelles P(Attribut|Classe) et de la probabilité a priori P(Classe).

P(Non|X) ∝ P(Maison=Oui|Non) * P(État=Divorcé|Non) * P(Revenu=120|Non) * P(Non)
P(Non|X) ∝ (2/6) * 0 * 0.0083 * (6/9) = 0
P(Oui|X) ∝ P(Maison=Oui|Oui) * P(État=Divorcé|Oui) * P(Revenu=120|Oui) * P(Oui)
P(Oui|X) ∝ 0 * (1/3) * (1.2 x 10^-90) * (3/9) = 0

Dans cette configuration, les probabilités a posteriori pour les deux classes sont nulles en raison de la présence de probabilités conditionnelles de zéro (P(État = Divorcé|Non) = 0 et P(Maison = Oui|Oui) = 0). Cela empêche l'algorithme de prendre une décision.

Solution : Utilisation de l'estimateur de Laplace

Pour remédier au problème des probabilités nulles, l'estimateur de Laplace est appliqué. Il ajoute une valeur constante (généralement 1) au numérateur et au dénominateur pour s'assurer qu'aucune probabilité ne soit complètement nulle.

La formule générale pour l'estimateur de Laplace est : P(valeur|classe) = (compte de la valeur dans la classe + 1) / (compte total de la classe + nombre de valeurs uniques de l'attribut).

En appliquant le lissage de Laplace :

P(Maison = Oui|Oui) = (0 + 1) / (3 + 2) = 1/5 (en supposant 2 valeurs uniques pour l'attribut "Maison")
P(État = Divorcé|Non) = (0 + 1) / (6 + 2) = 1/8 (en supposant 2 valeurs uniques pour l'attribut "État")

Décision finale avec Laplace

En utilisant les probabilités ajustées par l'estimateur de Laplace, nous recalculons les probabilités a posteriori :

P'(Non|X) ∝ P(Maison=Oui|Non) * P'(État=Divorcé|Non) * P(Revenu=120|Non) * P(Non)
P'(Non|X) ∝ (2/6) * (1/8) * 0.0083 * (6/9) ≈ 0.000138
P'(Oui|X) ∝ P'(Maison=Oui|Oui) * P(État=Divorcé|Oui) * P(Revenu=120|Oui) * P(Oui)
P'(Oui|X) ∝ (1/5) * (1/3) * (1.2 x 10^-90) * (3/9) ≈ 2.66 x 10^-92

En comparant les nouvelles probabilités, nous constatons que P'(Non|X) > P'(Oui|X).

Conclusion : L'algorithme Naive Bayes, avec l'application de l'estimateur de Laplace, prédit que le nouvel emprunteur ne sera pas en défaut de paiement.

Foire Aux Questions (FAQ)

Qu'est-ce que la normalisation en Data Mining et pourquoi est-elle importante ?

La normalisation est une technique de prétraitement des données qui ajuste les plages de valeurs des attributs numériques pour qu'elles se situent sur une échelle commune. Par exemple, la normalisation Min-Max transforme les valeurs pour qu'elles soient entre 0 et 1, tandis que la normalisation Z-score les ajuste pour avoir une moyenne de 0 et un écart-type de 1. Elle est cruciale car de nombreux algorithmes de machine learning (comme les SVM, les réseaux de neurones ou les algorithmes basés sur la distance) sont sensibles à l'échelle des données, et des attributs avec de grandes différences d'échelles peuvent biaiser l les résultats.

Pourquoi utilise-t-on l'estimateur de Laplace dans l'algorithme Naive Bayes ?

L'estimateur de Laplace est utilisé pour gérer le problème des "probabilités nulles" dans Naive Bayes. Si une valeur d'attribut spécifique n'apparaît jamais avec une certaine classe dans les données d'entraînement, la probabilité conditionnelle P(Attribut=Valeur|Classe) serait de zéro. Selon le principe de Naive Bayes, cela entraînerait une probabilité a posteriori P(Classe|X) de zéro pour toute instance contenant cette valeur d'attribut, rendant la classification impossible ou incorrecte. Le lissage de Laplace résout ce problème en ajoutant un petit nombre (généralement 1) au compte de chaque événement et au nombre total d'occurrences de la classe, garantissant ainsi que toutes les probabilités restent non nulles.

Qu'est-ce que la distorsion dans le contexte du clustering K-Means ?

Dans le contexte du clustering K-Means, la distorsion est une mesure de la qualité interne d'une partition de clusters. Elle est définie comme la somme des carrés des distances euclidiennes entre chaque point de données et le centroïde du cluster auquel ce point est assigné. Une valeur de distorsion plus faible indique généralement que les points de données sont plus proches de leurs centroïdes respectifs, suggérant des clusters plus compacts et une meilleure séparation entre eux. La distorsion est souvent utilisée pour évaluer le nombre optimal de clusters à l'aide de méthodes comme la "méthode du coude".