Cours dataming evaluation de performance d'un modèle de classification

Ce document pédagogique est spécifiquement conçu pour les étudiants universitaires en informatique et sciences des données, offrant une introduction approfondie aux techniques d'évaluation de la performance des modèles de classification.

Il couvre les notions essentielles, structurées autour de deux axes principaux :

Les mesures de précision d'un classifieur, incluant la matrice de confusion, l'exactitude (Accuracy), la précision (Precision), le rappel (Recall) et le F1-Score.
Les techniques d'évaluation pratiques, telles que la méthode Holdout, le sous-échantillonnage aléatoire, la validation croisée (k-fold Cross-Validation) et le Bootstrap.

Cours dataming Evaluation de performance d'un modèle de classification

Télécharger PDF

Évaluation de la performance d'un modèle de classification

L'évaluation de la performance des modèles de classification est une étape cruciale en apprentissage automatique pour comprendre leur efficacité et leur fiabilité. Plusieurs métriques et techniques existent pour mesurer avec précision la capacité d'un modèle à classifier correctement les données.

Mesures de précision d'un classifieur

Matrice de Confusion

La matrice de confusion est un outil fondamental pour évaluer la performance d'un modèle de classification. Elle résume les résultats des prédictions en comparant les classes prédites aux classes réelles.

Exemple : Classification des e-mails : Spam (POSITIF), Non Spam (NÉGATIF)

	Valeur Prédite
	Positif (1)	Négatif (0)
Valeur Réelle (Label ou Étiquette)	Positif (1)	True Positive (TP)	False Négatif (FN)
Valeur Réelle (Label ou Étiquette)	Négatif (0)	False Positive (FP)	True Négatif (TN)

Prédictions correctes : True Positive (TP) + True Négatif (TN)

Prédictions incorrectes : False Positive (FP) + False Négatif (FN)

True Positive (TP) : Le modèle a correctement prédit la classe positive.
True Négatif (TN) : Le modèle a correctement prédit la classe négative.
False Positive (FP) : Le modèle a prédit la classe positive à tort (erreur de type I).
False Négatif (FN) : Le modèle a prédit la classe négative à tort (erreur de type II).

1. Accuracy (Exactitude)

L'Accuracy mesure la proportion de prédictions correctes par rapport au nombre total d'observations. C'est la métrique la plus simple et la plus intuitive.

Accuracy = (TP + TN) / (TP + TN + FP + FN)

Exemple : Pour un ensemble de données où un modèle a classifié 80% des e-mails correctement (Spam ou Non-Spam), l'Accuracy est de 80%. Cependant, dans un cas de classes très déséquilibrées (par exemple, très peu de Spams), une Accuracy élevée peut être trompeuse si le modèle ne fait que prédire la classe majoritaire.

2. Precision (Précision)

La Précision mesure la proportion de vrais positifs parmi toutes les prédictions positives effectuées par le modèle. Elle indique la fiabilité du modèle lorsqu'il prédit la classe positive.

Precision = TP / (TP + FP)

Exemple : Si un modèle a classifié 9 e-mails comme Spam et que 7 d'entre eux étaient effectivement des Spams, la Précision est de 7/9 (environ 78%). Une Précision élevée est importante lorsque le coût d'un faux positif est élevé (par exemple, classer un e-mail légitime comme Spam).

3. Recall (Rappel)

Le Recall, également appelé Sensibilité ou Taux de Vrais Positifs, mesure la proportion de vrais positifs qui ont été correctement identifiés par le modèle parmi toutes les observations positives réelles. Il est crucial lorsque le coût d'un faux négatif est élevé.

Recall = TP / (TP + FN)

Exemple : Si sur 9 e-mails réellement Spams, le modèle en a détecté 7, le Recall est de 7/9 (environ 78%). Un Recall élevé est essentiel dans des domaines comme la détection de maladies, où manquer un cas positif (faux négatif) peut avoir de graves conséquences.

4. F1-Score

Le F1-Score est la moyenne harmonique de la Précision et du Recall. Il est particulièrement utile lorsque l'on recherche un équilibre entre ces deux métriques, ou dans les cas de classes déséquilibrées où une des classes est sous-représentée. Un F1-Score élevé indique que le modèle a à la fois une bonne précision et un bon rappel.

F1-Score = 2 * (Precision * Recall) / (Precision + Recall)

Exemple : Pour un scénario où la Précision est de 80% (4/5) et le Recall est de 66% (4/6), le F1-Score est d'environ 73%. Cela montre un compromis entre les deux métriques.

Techniques d'évaluation de la précision d'un classificateur

1. Méthode Holdout (Validation Simple)

La méthode Holdout divise l'ensemble de données initial en deux sous-ensembles : un ensemble d'entraînement (par exemple, 70% des données) et un ensemble de test (les 30% restants). Le modèle est entraîné sur l'ensemble d'entraînement, puis sa performance (par exemple, l'Accuracy) est évaluée sur l'ensemble de test, qui est composé de données jamais vues par le modèle pendant l'apprentissage.

Inconvénient : Cette méthode peut fournir une estimation pessimiste de la performance, car seule une partie des données est utilisée pour l'entraînement du modèle. De plus, les résultats peuvent varier considérablement en fonction de la division aléatoire initiale, surtout avec de petits jeux de données.

2. Sous-échantillonnage aléatoire (Random Subsampling)

Le sous-échantillonnage aléatoire améliore la méthode Holdout en répétant le processus de division et d'évaluation un certain nombre de fois (k fois). À chaque itération, un nouveau jeu d'entraînement et de test est sélectionné aléatoirement sans remise. L'estimation finale de la performance globale est calculée comme la moyenne des performances obtenues à chaque itération.

Cette technique est plus robuste que la simple Holdout car elle réduit la dépendance à une seule division des données. Elle est également applicable pour l'évaluation de modèles de régression.

3. Validation croisée K-fold (k-fold Cross-Validation)

La validation croisée K-fold est une méthode robuste où l'ensemble de données est divisé en k partitions (ou 'folds') de taille égale et de façon aléatoire. Le processus d'apprentissage et de test est répété k fois :

À chaque itération i, la partition i est utilisée comme ensemble de test.
Les k-1 partitions restantes sont combinées pour former l'ensemble d'entraînement.
Le modèle est entraîné sur l'ensemble d'entraînement et évalué sur l'ensemble de test.

Avantage : Chaque échantillon du jeu de données est utilisé exactement une fois pour le test et k-1 fois pour l'apprentissage. Cela réduit le biais de l'estimation de la performance par rapport à la méthode Holdout et la variance des résultats.

Pour la classification : L'Accuracy est calculée comme le nombre total de classifications correctes sur l'ensemble des k itérations divisé par le nombre total de tuples initiaux.
Pour la régression : L'erreur totale des k itérations est divisée par le nombre total de tuples initiaux.

Recommandation : Une valeur de k entre 5 et 10 est couramment utilisée, k=10 étant un choix fréquent.

4. Bootstrap

La méthode Bootstrap est une technique de ré-échantillonnage qui crée plusieurs ensembles d'apprentissage en échantillonnant l'ensemble de données original avec remise, ce qui signifie qu'une même observation peut être sélectionnée plusieurs fois. Les observations de l'ensemble de données original qui n'ont pas été sélectionnées pour l'ensemble d'entraînement bootstrap forment l'ensemble de test (appelé "out-of-bag" samples).

Plusieurs variantes existent, la plus connue est le '.632 bootstrap'. La procédure peut être répétée k fois. À chaque répétition, l'ensemble de test courant est utilisé pour estimer le score (par exemple, l'accuracy) obtenu par le modèle.

Le score global du modèle est calculé en combinant les scores obtenus sur les échantillons bootstrap et les échantillons originaux. Pour le .632 bootstrap, la formule est :

Score global = (1/k) * Σ_{i=1 à k} [0.632 * Score(modèle_i, test set_i) + 0.368 * Score(modèle_i, ensemble de données original)]

Avec :

Score(modèle_i, test set_i) : Le score obtenu par le modèle entraîné sur l'échantillon bootstrap i, appliqué à l'ensemble de test i (échantillons out-of-bag).
Score(modèle_i, ensemble de données original) : Le score obtenu par le modèle entraîné sur l'échantillon bootstrap i, appliqué à l'ensemble de données original.

Remarque : La méthode Bootstrap est particulièrement efficace avec de petits jeux de données.

Foire Aux Questions (FAQ)

Qu'est-ce que la matrice de confusion ?

La matrice de confusion est un tableau qui résume la performance d'un algorithme de classification en montrant le nombre de prédictions correctes et incorrectes (vrais positifs, vrais négatifs, faux positifs, faux négatifs) pour chaque classe par rapport à la réalité.

Quand utiliser le F1-Score plutôt que l'Accuracy ?

Le F1-Score est préférable lorsque les classes sont déséquilibrées (une classe est beaucoup plus fréquente que l'autre), car il fournit un équilibre entre la Précision et le Recall. L'Accuracy seule pourrait donner une fausse impression de bonne performance si le modèle prédit simplement la classe majoritaire.

Quelle est la principale différence entre la méthode Holdout et la validation croisée K-fold ?

La méthode Holdout divise les données une seule fois en un ensemble d'entraînement et un ensemble de test. En revanche, la validation croisée K-fold répète le processus de division et d'évaluation K fois, utilisant chaque sous-ensemble de données pour le test. Cela offre une estimation de la performance plus robuste, moins biaisée et avec une variance réduite par rapport à une seule division Holdout.