Examen statistiques et probabilités data mining

Ce document propose une série d'exercices conçus pour les étudiants universitaires souhaitant approfondir leurs connaissances en Data Mining et Apprentissage Automatique.

Il aborde des concepts fondamentaux et des techniques essentielles, tels que :

Les principes d'entropie et de gain d'information.
Les classifieurs (Naive Bayes, arbres de décision) et leur évaluation (matrice de confusion, précision).
La régression logistique et la problématique du sur-ajustement.
La validation croisée, les mesures de distance et le clustering (K-Means).

Ce recueil vise à renforcer la maîtrise pratique des méthodes d'analyse de données.

Examen Statistiques et Probabilités Data mining

Télécharger PDF

Exercice 1: Entropie et Gain d'Information

Problème

Soit un ensemble de huit lettres de l'alphabet. Par exemple, si nous considérions l'ensemble {E, L, E, M, E, N, T, S}, nous pourrions poser les questions suivantes :

Quelle est l'entropie de cet ensemble de lettres ?
Quel est le gain d'information si nous divisons ces lettres en deux ensembles, l'un contenant les voyelles et l'autre contenant les consonnes ?
Quelle est l'entropie maximale possible pour un ensemble de huit éléments ?

Exercice 2: Classifieur Naive Bayes et Matrice de Confusion

Données des patients

Les données suivantes détaillent les symptômes présentés par des patients et indiquent s'ils souffraient de méningite.

Id.	Mal de tête	Température	Vomissement	Atteint de Méningite
1	Oui	38	Absence	Non
2	Non	41	Fréquent	Non
3	Non	36	Absence	Non
4	Oui	42	Fréquent	Non
5	Non	42	Très fréquent	Oui
6	Non	37	Fréquent	Non
7	Non	44	Absence	Oui
8	Non	37	Fréquent	Non
9	Non	43	Absence	Oui

Questions

Il est demandé de prédire si un nouveau patient X, ayant les caractéristiques (Mal de tête = Oui, Température = 40, Vomissement = Très fréquent), est atteint de méningite ou non en utilisant le classifieur Naive Bayes et les données ci-dessus comme données d'apprentissage.
Le modèle de Bayes fournit les prédictions suivantes pour ces neuf patients : (Non, Non, Oui, Non, Oui, Oui, Non, Non, Oui). Déterminer la matrice de confusion et calculer la précision (Accuracy) du modèle sur les données d'apprentissage.

Exercice 3: Concepts Fondamentaux en Apprentissage Automatique

1. Nœud pur dans un arbre de décision

Au cours de la construction d'un arbre de décision, dans le cas d'un nœud pur :

A. L'indice de Gini et l'entropie prennent une valeur égale à 0.
B. L'indice de Gini et l'entropie prennent leurs valeurs minimales.
C. L'indice de Gini est nul et l'entropie est égale à sa valeur minimale.
D. L'indice de Gini est égal à 1 et l'entropie est égale à 0.

2. Modélisation en régression logistique

Dans un problème de régression logistique, pour un nouveau vecteur X, la probabilité que l'attribut cible Y prenne les valeurs 1 ou 0 est modélisée par :

A. P(Y = 1|X) = 1 / (1 + θX)
B. P(Y = 1|X) = 1 / (1 + e^-θX)
C. P(Y = 0|X) = 1 - θX
D. P(Y = 0|X) = 1 / (1 + e^θX)

3. Sur-ajustement (Overfitting) d'un modèle de régression

Le sur-ajustement (Overfitting) d'un modèle de régression se produit lorsque vous tentez d'estimer trop de paramètres à partir d'un échantillon de taille trop faible. Cela veut dire que le modèle prédictif généré durant l'apprentissage :

A. s'adapte mal aux données d'apprentissage et donc il ne se généralisera pas bien sur de nouvelles données.
B. est trop mauvais sur les données d'apprentissage avec une sur-estimation de la qualité de prédiction sur de nouvelles données.
C. s'adapte très bien aux données d'apprentissage et qui se généralisera mal sur de nouvelles données.
D. est trop spécialisé sur les données d'apprentissage avec de mauvaises performances sur de nouvelles données.

4. À quoi sert la validation croisée dans l'apprentissage automatique ?

A. Entraînement croisé de différents modèles.
B. Évaluation des performances du modèle sur plusieurs ensembles de données.
C. Sélection des hyperparamètres.
D. Tester la capacité de généralisation d'un modèle.

5. Calcul de similarité (distances)

Considérons 2 individus ayant les profils suivants exprimés selon 5 attributs (ou caractéristiques) ayant les valeurs : x(1) = (20, 4, 16, 8, 10) et x(2) = (22, 3, 10, 7, 8).

Calculer la similarité entre les deux individus en utilisant la distance de Manhattan, la distance Euclidienne et la distance de Chebyshev (infini).

6. Algorithme K-Means

Supposons que nous avons des données non étiquetées : x(1) = (1, 0), x(2) = (0, 2), x(3) = (3, 2), x(4) = (3, 4), x(5) = (5, 5).

À une itération donnée de l'algorithme K-Means (pour K=2), les centroïdes étaient μ1 = (1, 1) et μ2 = (4, 3).

Représenter les données dans un repère orthonormé et calculer la fonction de distorsion (ou fonction de coût) pour cette itération.

FAQ - Questions Fréquentes

Qu'est-ce que l'entropie et à quoi sert-elle en apprentissage automatique ?

L'entropie est une mesure de l'incertitude ou de l'impureté dans un ensemble de données. En apprentissage automatique, notamment dans les arbres de décision, elle est utilisée pour évaluer l'homogénéité d'un nœud. Un nœud avec une faible entropie est considéré comme plus "pur", c'est-à-dire que la plupart de ses éléments appartiennent à la même classe cible.

Comment le classifieur Naive Bayes prend-il des décisions ?

Le classifieur Naive Bayes est un algorithme de classification probabiliste basé sur le théorème de Bayes, avec une "hypothèse de naïveté" forte : il suppose que les caractéristiques sont indépendantes les unes des autres étant donné la classe. Il calcule la probabilité qu'une nouvelle instance appartienne à chaque classe possible en se basant sur les probabilités des caractéristiques observées, puis attribue l'instance à la classe ayant la plus haute probabilité a posteriori.

Pourquoi la validation croisée est-elle essentielle en apprentissage automatique ?

La validation croisée est une technique cruciale utilisée pour évaluer de manière robuste les performances d'un modèle d'apprentissage automatique et pour sélectionner les meilleurs hyperparamètres. Elle aide à estimer la capacité de généralisation du modèle sur des données invisibles, ce qui permet de réduire les risques de sur-ajustement (overfitting) ou de sous-ajustement (underfitting) par rapport à l'utilisation d'un simple jeu de données d'entraînement/test.