Exercices TD Indice de Gini Data mining
Télécharger PDFUMBBoumerdes - Faculté des Sciences - Département d’Informatique SERIE D’EXERCICES 02
Exercice 01: Considérons les exemples d’apprentissage présentés dans le tableau ci-contre pour un problème de classification binaire. a) Calculez l'indice de Gini pour l'ensemble des exemples d’apprentissage. b) Calculez l'indice de Gini pour l'attribut ID client. c) Calculez l'indice de Gini pour l'attribut Genre d) Calculez l'indice de Gini pour Type de voiture à l'aide d'une division multidirectionnelle (Multi-way split). e) Calculez l'indice de Gini pour l'attribut Taille à l'aide d'une division multidirectionnelle. Identif. Client
Genre Type de voiture
Taille Class
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
M M M M M M F F F F M M M M F F F F F F
Familial Sports Sports Sports Sports Sports Sports Sports Sports Luxe Familial Familial Familial Luxe Luxe Luxe Luxe Luxe Luxe Luxe
S M M L XL XL S S M L L XL M XL S S M M M L
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
f) Quel attribut est le meilleur, le Genre, le Type de voiture ou la Taille ? Expliquez pourquoi l'ID client ne doit pas être utilisé comme condition de test d'attribut même s'il a le Gini le plus bas.
Exercice 02: Quelle est la condition (critère) d’arrêt de l’algorithme de Hunt ?
Exercice 03: Considérons les exemples d'apprentissage présentés dans le tableau ci-contre pour un problème de classification binaire. a) Quelle est l'entropie de cette collection d'exemples d'apprentissage par rapport à l'attribut de classe ? b) Quels sont les gains d'information de Instance ��1 ��2 ��3 Class
1 2 3 4 5 6 7 8 9
T T T F F F F T F
T T F F T T F F T
1.0 6.0 5.0 4.0 7.0 3.0 8.0 7.0 5.0
+ + - + - - - + -
��1et ��2 par rapport à ces exemples d'apprentissage ? c) Pour ��3, qui est un attribut continu, calculez le gain d'information pour chaque division possible. UMBBoumerdes - Faculté des Sciences - Département d’Informatique d) Quelle est la meilleure division (entre ��1, ��2 et ��3) selon le gain d'information ? e) Quelle est la meilleure division (entre ��1 et ��2) selon misclassification error rate ? f) Quelle est la meilleure division (entre ��1 et ��2) selon l’indice de Gini ?
Exercice 05: Quelle est la différence entre les algorithmes C4.5 et C5.0 ?
Exercice 06: Expliquer le problème de sur-ajustement (overfitting) en machine learning (ou data mining), particulièrement dans le cas des arbres de décision.
Exercice 07: Quelles sont les deux approches utilisées pour éviter le problème d’overfitting ?
Exercice 08: Expliquer les méthodes « Rule post-pruning » et « Reduced-error pruning ».