Exercices TD Probabilités Data mining
Télécharger PDFTBZ Solution de la série 5 de DM La probabilité que cet échantillon appartienne à la classe c sachant qu’il possède les caractéristiques (x1 … xN)
Exercice 1: a) Les probabilités conditionnelles pour : Exemple : ��(��⁄������) =��(��∩������) ��(������)
P(A=1 /Oui) 3 5
P(A=0 /Oui) 2 5
P(B=1/OUI) 1 5
P(B=0/OUI) 4 5
P(C=1/OUI) 4 5
P(C=0/OUI) 1 5
P(A=1/NON) 2 5
P(A=0/NON) 3 5
P(B=1/NON) 2 5
P(B=0/NON) 3 5
P(C=1/NON) 5 5= 1
P(C=0/NON) 0
TBZ b) Estimation (classification) de l’échantillon test T (A=0, B=1, C= 0) ��(������⁄�� = �� , �� = ��, �� = ��) = ��(������) × ��(�� = 0⁄������) × ��(�� = 1⁄������) × ��(�� = 0⁄������) ��(������⁄(�� = 0 , �� = 1, �� = 0) =12×25×15×15= 0,008 ��(������⁄�� = 0 , �� = 1, �� = 0) = ��(������) × ��(�� = 0⁄������) × ��(�� = 1⁄������) × ��(�� = 0⁄������) ��(������⁄�� = 0 , �� = 1, �� = 0) =12×35×25× 0 = 0 ��(������⁄��) > ��(������⁄��) Alors l’échantillon de test appartient à la classe Oui c) Approche de Laplace : Laplace smoothing is a smoothing technique that helps tackle the problem of zero probability in the Naïve Bayes machine learning algorithm. Using higher alpha values will push the likelihood towards a value of 0.5, i.e., the probability of a word equal to 0.5 for both the positive and negative reviews. ��(��⁄������) =��(�� ∩ ������) + �� ��(������) + �� × �� Où : �� indique le paramètre de lissage (par défaut = 1) N désigne le nombre de classes. Dans notre cas, n=2. ��(�� = 0⁄������) =0 + 1 5 + 2
P(A=1 /Oui) 3 + 1 5 + 2=47
P(A=0 /Oui) 2 + 1 5 + 2=37
P(B=1/OUI) 5 + 2=27
1 + 1 P(B=0/OUI) 4 + 1 5 + 2=57
P(C=1/OUI) 4 + 1 5 + 2=57
P(C=0/OUI) 5 + 2=27
1 + 1 TBZ P(A=1/NON) 2 + 1 5 + 2=37
P(A=0/NON) 3 + 1 5 + 2=47
P(B=1/NON) 2 + 1 5 + 2=37
P(B=0/NON) 3 + 1 5 + 2=47
P(C=1/NON) 5 + 1 5 + 2=67
P(C=0/NON) 0 + 1 5 + 2=17
On remplace les probabilités les nouvelles probabilités ��(������⁄(�� = 0 ,�� = 1, �� = 0) = ��(������) × ��(�� = 0⁄������) × ��(�� = 1⁄������) × ��(�� = 0⁄������) ��(������⁄(�� = 0 , �� = 1, �� = 0) =12×37×27×27= 0,01749 ��(������⁄(�� = 0 , �� = 1, �� = 0) =12×47×37×17= ��, ���������� Cet échantillon est confus (Il appartient aux deux classes avec la même probabilité) = faut augmenter le jeu de données e) L'utilisation du lissage de Laplace permet de lisser les données d'entraînement afin d’empêcher les probabilités conditionnelles d’être nulle, ce qui pourrait entraîner des erreurs dans la classification en utilisant le classificateur Naïve Bayes. Par conséquent, vu que ce problème s’est manifesté et nous n’avons pas pu classifier l’échantillon T correctement, la méthode de lissage est meilleure. Ainsi, elle est plus adaptée à la classification de cet échantillon.
Exercice 2��(��1 = �� /��) �� ��
��(��1 = �� /��) �� ��
��(��2 = �� /��) �� ��
TBZ ��(��2 = �� /��) �� ��
��(��1 = �� /��) �� ��
��(��1 = �� /��) �� ��
��(��2 = �� /��) �� ��
��(��2 = �� /��) �� ��
L’attribut 3 est numérique (comme l’âge) : On suppose que l’attribut suive une loi gaussienne ��et �� indique l’écart type �� = √∑(����−��)2 Ou �� ������ ���� �������������� �� =∑ ���� �� Remarque : la variance = ���� =∑(����−��)�� �� Moyenne (��) La variance (��2)
Classe Y 5 + 7 + 3 + 6 4 = 5.25
(5 − 5.25)2 + (7 − 5.25)2 + (3 − 5.25)2 + (6 − 5.25)2
4 =2.1875
Classe N
8+7+4+5+1 5=5
(8 − 5)2 + (7 − 5)2 + (4 − 5)2 + (5 − 5)2 + (1 − 5)25 =6
Classification de l’échantillon (T,F,1) : ��(��⁄��1 = �� , ��2 = ��, ��3 = 1) = ��(��) × ��(��1 = ��⁄��) × ��(��2 = ��⁄��) × ��(��3 = 1⁄��)
TBZ ��(�� ��1 = �� , ��2 = ��, ��3 = 1) =49 √2 × 3.14 × 2.1875������−(1−5.25)2 ⁄ ×34×24× (1 ��(��⁄��1 = �� , ��2 = ��, ��3 = 1) = ��, ������������ 2×2.1875 ��(��⁄��1 = �� , ��2 = ��, ��3 = 1) = ��(��) × ��(��1 = ��⁄��) × ��(��2 = ��⁄��) × ��(��3 = 1⁄��) ��(�� ��1 = �� , ��2 = ��, ��3 = 1) =59 √2 × 3.14 × 6������−(1−5)2 ⁄ ×15×25× (1 ��(��⁄��1 = �� , ��2 = ��, ��3 = 1) = 0,001908 2×6 ��(��⁄��1 = �� , ��2 = ��, ��3 = 1) > ��(��⁄��1 = �� , ��2 = ��, ��3 = 1) Alors cet échantillon appartient à la classe « N ».