Exercices td classification data mining

Exercices TD Classification Data mining

Télécharger PDF

Université M’hamed Bougara de Boumerdès Faculté des Sciences - Département d’Informatique SERIE D’EXERCICES 04 1. Donner quelques exemples de problèmes de classification binaire et de multi classification. 2. Soit le problème de Spam/Non Spam. La variable cible peut être définie de deux manières : {�� = 0 🡺 Spam et �� = 1 🡺 Nom Spam} ou bien { �� = 1 🡺 Spam et �� = 0 🡺 Nom Spam}. Y-a-il une différence entre les deux codages ? Que peut-on dire de la codification �� ∈ {−1, +1} ? 3. Quelle est le rôle de la fonction sigmoïde dans le problème de la régression logistique. 4. Que représente la fonction d’hypothèse ℎ��(��) dans un problème de régression logistique ? Interpréter ℎ��(��) = 0.70 dans un problème de classification Spam/Non Spam ? 5. Pourquoi la fonction coût utilisée en régression linéaire ne peut être utilisée dans le cas de la régression logistique ? 6. Supposons que le modèle de régression logistique recherché contient trois paramètres : ℎ��(��) = ��(����. ��) = ��0 + ��1. ��1 + ��2. ��2. La méthode Gradient Descent a donné le vecteur ���� = (−2,1,1). - Quelle est la frontière de la décision (Decision Boundary) correspondante ? - Quelle est la prédiction pour un nouveau patient ayant (��1 = 1 ���� ��2 = 3) comme caractéristiques de sa tumeur (dans un problème de diagnostic médical? 7. Si nous avons beaucoup d’attributs et très peu de données, le sur-ajustement peut devenir un problème. Quelles sont les solutions proposées pour résoudre ce problème ? 8. Quel est le rôle du paramètre de régularisation λ dans la fonction de coût régularisée. Discuter l’influence des valeurs de ce paramètre sur les phénomènes de sur ajustement et de sous-ajustement.

Partagez vos remarques, questions ou propositions d'amélioration ici...

Enregistrer un commentaire (0)
Plus récente Plus ancienne

Publicité 1

Publicité 2