Série d'exercices td data mining

Ce document, destiné aux étudiants universitaires du module Data Mining au Département d'Informatique de l'Université M’hamed Bougara de Boumerdes, propose une série d'exercices pratiques.

Il vise à consolider les connaissances en fouille de données et couvre notamment les notions suivantes :

L'estimation des probabilités conditionnelles.
L'application du classifieur Naive Bayes.
L'utilisation de l'approche de Laplace pour l'estimation.
La comparaison critique des différentes méthodes d'estimation de probabilités.

Série d'exercices TD Data Mining

Télécharger PDF

Université M’hamed Bougara de Boumerdes

Faculté des Sciences - Département d’Informatique

Module : Data Mining – Série d’exercices

Exercice 01 : Estimation de Probabilités et Classifieur Naive Bayes

Soit l'ensemble de données présenté dans le tableau suivant. Cet exercice explore l'estimation de probabilités conditionnelles et l'application du classifieur Naive Bayes avec différentes approches.

Tuples	A	B	C	Classe
1	0	0	0	Oui
2	0	0	1	Non
3	0	1	1	Non
4	0	1	1	Non
5	0	0	1	Oui
6	1	0	1	Oui
7	1	0	1	Non
8	1	0	1	Non
9	1	1	1	Oui
10	1	0	1	Oui

a) Estimer les probabilités conditionnelles classiques

b) Prédiction avec le classifieur Naive Bayes (approche classique)

Utiliser l'estimation des probabilités conditionnelles obtenue à la question précédente pour prédire l'étiquette de classe pour un échantillon test (A = 0, B = 1, C = 0) en utilisant l'approche naïve de Bayes. Le classifieur Naive Bayes attribue l'échantillon à la classe ayant la probabilité a posteriori la plus élevée.

c) Estimer les probabilités conditionnelles avec l'approche de Laplace

Estimer les probabilités conditionnelles en utilisant l'approche de Laplace (aussi appelée lissage de Laplace ou Add-1 Smoothing). Cette technique est utilisée pour éviter les probabilités nulles lorsque certaines combinaisons d'attributs et de classes n'apparaissent pas dans les données d'entraînement, en ajoutant un petit nombre (généralement 1) aux comptes.

d) Répéter la prédiction avec les probabilités lissées par Laplace

Répéter la partie (b) en utilisant les probabilités conditionnelles estimées avec l'approche de Laplace (obtenues en partie c) pour prédire l'étiquette de classe de l'échantillon test (A = 0, B = 1, C = 0).

e) Comparaison des méthodes d'estimation des probabilités

Comparer les deux méthodes d'estimation des probabilités (classique et Laplace). Quelle méthode est la meilleure et pourquoi ? L'approche de Laplace est généralement préférée pour sa robustesse face aux données rares, évitant ainsi des probabilités conditionnelles de zéro qui pourraient autrement annuler l'ensemble du calcul de probabilité pour une classe donnée.

Exercice 02 : Construction et Application d'un Classifieur Naive Bayes

Soit l'ensemble de données présenté dans le tableau suivant. L'objectif est de construire un classifieur Naive Bayes à partir de ces données et de l'utiliser pour prédire la classe d'un nouvel échantillon.

Id	A1	A2	A3	Classe
1	T	T	5	Y
2	T	T	7	Y
3	T	F	8	N
4	F	F	3	Y
5	F	T	7	N
6	F	T	4	N
7	F	F	5	N
8	T	F	6	Y
9	F	T	1	N

Construire un Classifieur Naive Bayes et l'utiliser pour classifier le nouveau point (A1=T, A2=F, A3=1).

Pour construire un classifieur Naive Bayes, les étapes clés sont les suivantes :

Calcul des probabilités a priori : Déterminer la probabilité de chaque classe (par exemple, P(Y) et P(N)) en comptant leur fréquence d'apparition dans l'ensemble de données.
Calcul des probabilités conditionnelles : Pour chaque attribut et chaque valeur possible, calculer la probabilité qu'une valeur d'attribut apparaisse étant donné une classe spécifique (par exemple, P(A1=T | Y), P(A2=F | N), etc.).
Prédiction pour un nouvel échantillon : Pour un nouvel échantillon, calculer la probabilité a posteriori pour chaque classe en multipliant la probabilité a priori de la classe par les probabilités conditionnelles des attributs de l'échantillon pour cette classe. Le classifieur assigne ensuite l'échantillon à la classe ayant la probabilité a posteriori la plus élevée.

Foire Aux Questions (FAQ) sur Naive Bayes et l'Estimation de Probabilités

Qu'est-ce que le classifieur Naive Bayes ?

Le classifieur Naive Bayes est un algorithme de classification probabiliste basé sur le théorème de Bayes avec une hypothèse d'indépendance forte (naïve) entre les prédicteurs. Il est largement utilisé pour des tâches de classification de texte, la détection de spam et le diagnostic médical, en raison de sa simplicité et de son efficacité.

Pourquoi utilise-t-on le lissage de Laplace (Laplace smoothing) dans Naive Bayes ?

Le lissage de Laplace est une technique utilisée pour traiter le problème des probabilités nulles dans Naive Bayes. Si une certaine combinaison d'attribut et de classe n'apparaît jamais dans les données d'entraînement, sa probabilité conditionnelle sera de zéro, ce qui annulerait l'ensemble du calcul de probabilité pour cette classe, quelle que soit la force des autres preuves. Le lissage de Laplace ajoute une petite valeur (généralement 1) à tous les comptes, garantissant ainsi que toutes les probabilités sont non nulles.

Quelles sont les étapes principales pour construire un modèle Naive Bayes ?

Les étapes principales pour construire un modèle Naive Bayes sont : 1) Calculer les probabilités a priori pour chaque classe. 2) Calculer les probabilités conditionnelles de chaque attribut étant donné chaque classe. 3) Pour un nouvel échantillon, appliquer le théorème de Bayes pour calculer la probabilité a posteriori de chaque classe. 4) Assigner l'échantillon à la classe avec la probabilité a posteriori la plus élevée.

Tuples	A	B	C	Classe
1	0	0	0	Oui
2	0	0	1	Non
3	0	1	1	Non
4	0	1	1	Non
5	0	0	1	Oui
6	1	0	1	Oui
7	1	0	1	Non
8	1	0	1	Non
9	1	1	1	Oui
10	1	0	1	Oui

Tuples	A	B	C	Classe
1	0	0	0	Oui
2	0	0	1	Non
3	0	1	1	Non
4	0	1	1	Non
5	0	0	1	Oui
6	1	0	1	Oui
7	1	0	1	Non
8	1	0	1	Non
9	1	1	1	Oui
10	1	0	1	Oui