Exercices td probabilités data mining pdf

Ce document propose une solution détaillée de la série d'exercices 5, spécifiquement destinée aux étudiants universitaires en apprentissage automatique et Data Mining. Il vise à illustrer les principes fondamentaux du classifieur Naïve Bayes et ses applications pratiques.

Les notions abordées incluent :

  • Le calcul des probabilités conditionnelles.
  • L'estimation et la classification d'échantillons.
  • L'application du lissage de Laplace pour gérer les probabilités nulles.
  • Le traitement des attributs numériques par la distribution gaussienne.

L'ensemble offre une révision des méthodes de classification probabiliste.

Exercices td probabilités data mining pdf

Exercices TD Probabilités Data mining

Télécharger PDF

Solution de la série d'exercices sur la classification Naïve Bayes

Ce document présente la solution de la série 5 de DM sur la probabilité, axée sur la détermination de la probabilité qu'un échantillon appartienne à une classe spécifique (c) sachant qu’il possède les caractéristiques (x1 … xN), en utilisant l'algorithme Naïve Bayes.

Exercice 1 : Classificateur Naïve Bayes et Lissage de Laplace

Cet exercice explore l'application du classificateur Naïve Bayes avec des attributs catégoriels et l'importance du lissage de Laplace pour gérer le problème des probabilités nulles.

a) Calcul des probabilités conditionnelles

Les probabilités conditionnelles sont calculées comme suit :

  • P(A=1 | Oui) = 3/5
  • P(A=0 | Oui) = 2/5
  • P(B=1 | Oui) = 1/5
  • P(B=0 | Oui) = 4/5
  • P(C=1 | Oui) = 4/5
  • P(C=0 | Oui) = 1/5
  • P(A=1 | Non) = 2/5
  • P(A=0 | Non) = 3/5
  • P(B=1 | Non) = 2/5
  • P(B=0 | Non) = 3/5
  • P(C=1 | Non) = 5/5 = 1
  • P(C=0 | Non) = 0/5 = 0

b) Estimation (classification) de l'échantillon test T (A=0, B=1, C=0)

Pour classifier l'échantillon T (A=0, B=1, C=0) à l'aide du classificateur Naïve Bayes, nous calculons la probabilité postérieure pour chaque classe. Nous supposons P(Oui) = P(Non) = 1/2 comme probabilités a priori si non spécifié.

Pour la classe "Oui" :

P(Oui | A=0, B=1, C=0) = P(Oui) × P(A=0 | Oui) × P(B=1 | Oui) × P(C=0 | Oui)

P(Oui | A=0, B=1, C=0) = 1/2 × 2/5 × 1/5 × 1/5 = 0,008

Pour la classe "Non" :

P(Non | A=0, B=1, C=0) = P(Non) × P(A=0 | Non) × P(B=1 | Non) × P(C=0 | Non)

P(Non | A=0, B=1, C=0) = 1/2 × 3/5 × 2/5 × 0 = 0

Puisque P(Oui | échantillon) > P(Non | échantillon) (0,008 > 0), l'échantillon de test T appartient à la classe "Oui".

c) Approche de Laplace (Laplace smoothing)

Le lissage de Laplace est une technique de lissage qui aide à résoudre le problème de la probabilité nulle (zero probability) dans l'algorithme d'apprentissage automatique Naïve Bayes. L'utilisation de valeurs α plus élevées poussera la vraisemblance vers une valeur de 0,5, c'est-à-dire que la probabilité d'un mot est égale à 0,5 pour les critiques positives et négatives.

La formule de lissage de Laplace pour une probabilité conditionnelle est :

P(Caractéristique | Classe) = (Compte(Caractéristique ∩ Classe) + α) / (Compte(Classe) + α × k)

Où :

  • α indique le paramètre de lissage (par défaut = 1)
  • k désigne le nombre de valeurs possibles pour la caractéristique (dans notre cas, k=2 pour chaque attribut A, B, C qui peut prendre les valeurs 0 ou 1).

Calcul des nouvelles probabilités conditionnelles avec α = 1 :

  • P(A=1 | Oui) = (3 + 1) / (5 + 2) = 4/7
  • P(A=0 | Oui) = (2 + 1) / (5 + 2) = 3/7
  • P(B=1 | Oui) = (1 + 1) / (5 + 2) = 2/7
  • P(B=0 | Oui) = (4 + 1) / (5 + 2) = 5/7
  • P(C=1 | Oui) = (4 + 1) / (5 + 2) = 5/7
  • P(C=0 | Oui) = (1 + 1) / (5 + 2) = 2/7
  • P(A=1 | Non) = (2 + 1) / (5 + 2) = 3/7
  • P(A=0 | Non) = (3 + 1) / (5 + 2) = 4/7
  • P(B=1 | Non) = (2 + 1) / (5 + 2) = 3/7
  • P(B=0 | Non) = (3 + 1) / (5 + 2) = 4/7
  • P(C=1 | Non) = (5 + 1) / (5 + 2) = 6/7
  • P(C=0 | Non) = (0 + 1) / (5 + 2) = 1/7

d) Re-estimation de l'échantillon T après l'application du lissage de Laplace

On remplace les probabilités par les nouvelles probabilités lissées pour l'échantillon T (A=0, B=1, C=0) :

P(Oui | A=0, B=1, C=0) = P(Oui) × P(A=0 | Oui) × P(B=1 | Oui) × P(C=0 | Oui)

P(Oui | A=0, B=1, C=0) = 1/2 × 3/7 × 2/7 × 2/7 ≈ 0,01749

P(Non | A=0, B=1, C=0) = P(Non) × P(A=0 | Non) × P(B=1 | Non) × P(C=0 | Non)

P(Non | A=0, B=1, C=0) = 1/2 × 4/7 × 3/7 × 1/7 ≈ 0,01749

Cet échantillon est considéré comme confus car il appartient aux deux classes avec la même probabilité. Il est suggéré d'augmenter le jeu de données pour améliorer la classification.

e) Avantages de l'utilisation du lissage de Laplace

L'utilisation du lissage de Laplace permet de lisser les données d'entraînement afin d’empêcher les probabilités conditionnelles d’être nulles. Une probabilité nulle pourrait entraîner des erreurs dans la classification en utilisant le classificateur Naïve Bayes. Par conséquent, étant donné que ce problème s’est manifesté et que nous n’avons pas pu classifier l’échantillon T correctement sans lissage initial, la méthode de lissage est préférable et plus adaptée à la classification de cet échantillon.

Exercice 2 : Classification Naïve Bayes avec attributs numériques

Cet exercice traite de la classification lorsque les attributs incluent des données numériques, en supposant une distribution gaussienne.

a) Attributs et calcul des paramètres pour la loi gaussienne

Les probabilités pour les attributs catégoriels X1 et X2 ne sont pas spécifiquement listées avec des valeurs numériques distinctes dans l'énoncé de cette section. Cependant, elles sont utilisées dans la section de classification finale.

L'attribut 3 est numérique (comme l'âge). On suppose que l'attribut suit une loi gaussienne. Pour cela, nous calculons la moyenne (μ) et la variance (σ²) pour chaque classe.

La moyenne (μ) est définie comme : μ = (∑ xi) / n

L'écart-type (σ) est défini comme : σ = √(∑(xi - μ)² / n)

Remarque : la variance (σ²) est : σ² = ∑(xi - μ)² / n

b) Calcul de la moyenne et de la variance pour l'attribut numérique X3 par classe

  • Classe Y :
  • Données X3 pour la classe Y : 5, 7, 3, 6

    Moyenne (μ_Y) = (5 + 7 + 3 + 6) / 4 = 5.25

    Variance (σ²_Y) = [(5 - 5.25)² + (7 - 5.25)² + (3 - 5.25)² + (6 - 5.25)²] / 4 = 2.1875

  • Classe N :
  • Données X3 pour la classe N : 8, 7, 4, 5, 1

    Moyenne (μ_N) = (8 + 7 + 4 + 5 + 1) / 5 = 5

    Variance (σ²_N) = [(8 - 5)² + (7 - 5)² + (4 - 5)² + (5 - 5)² + (1 - 5)²] / 5 = 6

c) Classification de l'échantillon (X1=T, X2=F, X3=1)

Pour la classification avec un attribut numérique suivant une loi gaussienne, la probabilité P(X=x | Classe) est calculée à l'aide de la fonction de densité de probabilité (PDF) gaussienne :

PDF(x | μ, σ²) = (1 / (σ × √(2π))) × exp[-(x - μ)² / (2σ²)]

Les probabilités a priori des classes sont P(Y) = 4/9 et P(N) = 5/9, basées sur le nombre d'échantillons dans chaque classe.

Pour la classe Y :

P(Y | X1=T, X2=F, X3=1) = P(Y) × P(X1=T | Y) × P(X2=F | Y) × PDF(X3=1 | Y)

En utilisant les valeurs P(Y) = 4/9, P(X1=T | Y) = 3/4 et P(X2=F | Y) = 2/4, ainsi que le calcul de la PDF pour X3=1 avec μ_Y = 5.25 et σ²_Y = 2.1875.

Le calcul fourni dans l'original donne : P(Y | X1=T, X2=F, X3=1) ≈ 0,00144

Pour la classe N :

P(N | X1=T, X2=F, X3=1) = P(N) × P(X1=T | N) × P(X2=F | N) × PDF(X3=1 | N)

En utilisant les valeurs P(N) = 5/9, P(X1=T | N) = 1/5 et P(X2=F | N) = 2/5, ainsi que le calcul de la PDF pour X3=1 avec μ_N = 5 et σ²_N = 6.

Le calcul fourni dans l'original donne : P(N | X1=T, X2=F, X3=1) ≈ 0,001908

d) Conclusion de la classification

En comparant les probabilités postérieures : P(N | X1=T, X2=F, X3=1) ≈ 0,001908 et P(Y | X1=T, X2=F, X3=1) ≈ 0,00144.

P(N | échantillon) > P(Y | échantillon). Alors cet échantillon appartient à la classe "N".

Foire Aux Questions (FAQ) sur le classificateur Naïve Bayes

Qu'est-ce que l'algorithme Naïve Bayes ?

L'algorithme Naïve Bayes est un classificateur probabiliste qui s'appuie sur le théorème de Bayes et une hypothèse "naïve" d'indépendance conditionnelle entre les caractéristiques. Il est apprécié pour sa simplicité et son efficacité, notamment dans la classification de textes, le filtrage de spams ou l'analyse de sentiments.

Pourquoi le lissage de Laplace est-il crucial dans Naïve Bayes ?

Le lissage de Laplace est fondamental pour éviter le problème de la "probabilité nulle". Si une combinaison spécifique d'une caractéristique et d'une classe n'est jamais observée dans les données d'entraînement, sa probabilité conditionnelle serait de zéro, annulant ainsi toute la probabilité postérieure de la classe. Le lissage de Laplace ajoute une petite constante (α, souvent 1) à chaque compte, garantissant que toutes les probabilités restent non nulles et que le modèle peut toujours faire des prédictions.

Comment les attributs numériques sont-ils gérés par Naïve Bayes ?

Lorsque des attributs sont numériques (par exemple, l'âge, la taille), Naïve Bayes ne peut pas directement compter les fréquences comme pour les attributs catégoriels. Au lieu de cela, il suppose que ces attributs suivent une distribution de probabilité continue, le plus souvent une distribution gaussienne (normale). Les paramètres de cette distribution (moyenne et variance) sont estimés pour chaque classe, puis la fonction de densité de probabilité (PDF) est utilisée pour calculer la probabilité qu'une valeur numérique donnée appartienne à une classe.

Cela peut vous intéresser :

Partagez vos remarques, questions , propositions d'amélioration ou d'autres cours à ajouter dans notre site

Enregistrer un commentaire (0)
Plus récente Plus ancienne