Ce document contient une évaluation en Data Mining, destinée aux étudiants universitaires du Département d'Informatique. Il a pour objectif d'évaluer la maîtrise des concepts et techniques clés de l'exploration de données, incluant :
- Les capacités et limites du Data Mining
- Les règles d'association (Apriori)
- La régression (linéaire, logistique) et ses métriques
- L'apprentissage automatique (régularisation, overfitting)
- La classification et le clustering (K-means)
Examen qcm Data Mining 2022-2023
Télécharger PDFExamen de Data Mining – Questions et Réponses Détaillées
Cet examen de Data Mining, proposé par le Département d'Informatique de la Faculté des Sciences de l'UMBBoumerdes pour l'année universitaire 2022/2023, vise à évaluer les connaissances des étudiants sur des concepts clés. L'épreuve est d'une durée d'1h30. Le barème est le suivant : Questions 1 à 6 (1 point chacune), Questions 7 à 10 (2 points chacune), Questions 11 à 12 (3 points chacune). Une note complète sera attribuée uniquement pour les réponses complètes et justifiées, le cas échéant.
Question 1: Activités non traitables en Data Mining
Lequel des éléments suivants NE PEUT PAS être traité en data mining?
- Montrer une relation causale entre différentes variables.
- Prévision d'une variable cible Y dans le futur à partir des variables explicatives X.
- Prédiction avec précision d'un résultat à l'aide d'algorithmes d'apprentissage supervisé.
- Répartition des personnes enquêtées selon leurs réponses.
Réponse et explication: La bonne réponse est A) Montrer une relation causale entre différentes variables.
Le data mining excelle dans l'identification de corrélations, de motifs et de tendances au sein de vastes ensembles de données. Il permet de prédire des valeurs futures (B), de classifier des résultats avec précision (C) et de segmenter des données (D). Cependant, établir une relation de cause à effet directe (causalité) est une tâche plus complexe qui nécessite souvent des expérimentations contrôlées ou des méthodes d'inférence causale spécifiques, allant au-delà de la simple découverte de motifs dans les données. Le data mining peut suggérer des pistes de causalité grâce à de fortes corrélations, mais ne les prouve pas intrinsèquement.
Question 2: Création de sous-itemsets en analyse d'association
En analyse d'association, à partir d'un itemset de n items, on peut créer :
- 2n sous-itemsets
- 3-2-1+1 sous-itemsets (Caractères invalides supprimés)
- n! sous-itemsets
- Autre : combien ? 2n-1
Réponse et explication: La bonne réponse est D. Autre : 2n-1.
Un itemset de n items distincts peut former 2n sous-ensembles (y compris l'ensemble vide). En analyse d'association, les "sous-itemsets" ou "itemsets fréquents" font généralement référence à des sous-ensembles non vides. Par conséquent, le nombre de sous-itemsets non vides est 2n - 1. Si la question incluait l'ensemble vide, alors 2n serait correct, mais le contexte des règles d'association privilégie les ensembles non vides.
Question 3: Unités de mesure en régression
Dans un contexte de régression, si la variable cible Y est mesurée en mètre alors la variable X (indépendante ou explicative) doit être mesurée :
- En mètre
- En une certaine unité de longueur
- Toute unité sauf le mètre
- Toute unité est possible
Réponse et explication: La bonne réponse est D. Toute unité est possible.
En régression, les variables explicatives (X) et la variable cible (Y) n'ont pas besoin d'être mesurées dans la même unité. La régression modélise une relation mathématique entre ces variables, et les coefficients de régression s'ajustent pour compenser les différences d'unités. Par exemple, on peut prédire le prix d'une maison (Y, en euros) en fonction de sa surface (X1, en mètres carrés) et du nombre de chambres (X2, sans unité). Chaque variable X peut avoir son propre système d'unités sans affecter la validité du modèle.
Question 4: Métrique d'évaluation en régression linéaire
En régression linéaire, la métrique utilisée afin d'évaluer la qualité de prédiction d'un modèle optimisé est :
- La distance euclidienne
- Le coefficient de détermination
- L'erreur absolue moyenne
- L'erreur quadratique moyenne
Réponse et explication: Les bonnes réponses sont B. Le coefficient de détermination (R²) et D. L'erreur quadratique moyenne (EQM ou MSE).
Plusieurs métriques sont utilisées pour évaluer la qualité d'un modèle de régression linéaire :
- L'erreur quadratique moyenne (EQM ou MSE) (option D) est très courante car elle mesure la moyenne des carrés des erreurs de prédiction. C'est souvent la fonction de coût minimisée lors de l'entraînement du modèle.
- Le coefficient de détermination (R²) (option B) indique la proportion de la variance de la variable dépendante qui est prévisible à partir des variables indépendantes. Un R² proche de 1 indique un bon ajustement du modèle.
- L'erreur absolue moyenne (MAE) est également utilisée, mais MSE et R² sont parmi les plus fondamentales pour évaluer la performance globale et l'ajustement du modèle. La distance euclidienne (A) est une mesure de distance, non une métrique d'évaluation de modèle de régression en soi.
Question 5: Résultat du processus d'apprentissage en Machine Learning
Quel est le résultat (output) du processus d'apprentissage en Machine Learning?
- La fonction coût
- La précision du modèle
- Un modèle de machine learning
- Un algorithme de machine learning
Réponse et explication: La bonne réponse est C. Un modèle de machine learning.
Le processus d'apprentissage automatique prend un algorithme (D) et des données d'entraînement en entrée. Il ajuste les paramètres de l'algorithme en minimisant une fonction de coût (A) et évalue ses performances à l'aide de métriques comme la précision (B). Le résultat final de ce processus est un "modèle" entraîné, c'est-à-dire l'algorithme avec ses paramètres optimisés, prêt à faire des prédictions sur de nouvelles données.
Question 6: Définition de l'apprentissage automatique
Les algorithmes de ....... permettent aux ordinateurs d'apprendre à partir des données, et même de s'améliorer, sans être explicitement programmés.
- Apprentissage en profondeur
- Apprentissage automatique
- Intelligence artificielle
- Aucune de ces réponses
Réponse et explication: La bonne réponse est B. Apprentissage automatique (Machine Learning).
La description correspond précisément à la définition de l'apprentissage automatique (Machine Learning). C'est une branche de l'intelligence artificielle (C) qui permet aux systèmes d'apprendre des données, d'identifier des motifs et de prendre des décisions avec une intervention humaine minimale. L'apprentissage en profondeur (A) est une sous-catégorie de l'apprentissage automatique, mais la définition générale s'applique à l'apprentissage automatique dans son ensemble.
Question 7: Interprétation d'une règle d'association
Donner une interprétation de la règle d'association : {a2, a3} ⇒ {a5, a7} obtenue avec l'algorithme Apriori, avec un support de 0.5 et une confiance de 0.8.
Réponse et explication:
Une règle d'association comme {a2, a3} ⇒ {a5, a7} indique qu'il existe une relation entre l'achat ou la présence des items {a2, a3} et l'achat ou la présence des items {a5, a7}.
- Support (0.5 ou 50%) : Cela signifie que 50% de toutes les transactions (ou observations) contiennent simultanément les items {a2, a3} ET {a5, a7}. C'est une mesure de la fréquence de cette combinaison d'items dans l'ensemble de données.
- Confiance (0.8 ou 80%) : Cela signifie que, parmi toutes les transactions qui contiennent les items {a2, a3}, 80% d'entre elles contiennent également les items {a5, a7}. C'est une mesure de la fiabilité de la règle. Autrement dit, si un client achète (ou si les événements a2 et a3 se produisent), il y a 80% de chances qu'il achète également (ou que les événements a5 et a7 se produisent).
En résumé, cette règle est fréquente (50% des cas) et très fiable (80% de chance que {a5, a7} accompagne {a2, a3}).
Question 8: Fonction de coût de la régression logistique
La forme simplifiée de la fonction coût globale de la régression logistique est donnée par la formule suivante :
- J(θ) = (1/m) × [yi × log(hθ(xi)) − (1 − yi) × log(1 − hθ(xi))] (indices incorrects, sans somme)
- J(θ) = (1/m) × [yi × log(hθ(xi)) + (1 − yi) × log(1 − hθ(xi))] (indices incorrects, sans somme)
- J(θ) = -(1/m) × ∑ [yi log(hθ(xi)) + (1 − yi) log(1 − hθ(xi))]
- J(θ) = -(1/m) × ∑ [xi × log(hθ(1-xi)) + (-yi) × log(hθ(xi))] (formule incorrecte)
Réponse et explication: La bonne réponse est C. J(θ) = -(1/m) × ∑ [yi log(hθ(xi)) + (1 − yi) log(1 − hθ(xi))]
La fonction de coût (ou fonction de perte) pour la régression logistique, également appelée entropie croisée binaire, est conçue pour pénaliser les prédictions incorrectes. La formule correcte est :
J(θ) = - (1/m) * Σ [ y_i * log(h_θ(x_i)) + (1 - y_i) * log(1 - h_θ(x_i)) ]
où :
mest le nombre d'exemples d'entraînement.y_iest la vraie étiquette de classe (0 ou 1) pour l'exemplei.h_θ(x_i)est la prédiction du modèle pour l'exemplei, qui est une probabilité entre 0 et 1.θreprésente les paramètres du modèle.Σreprésente la sommation sur tous les exemples d'entraînement.
Les options A et B sont incorrectes car elles omettent le signe négatif et la sommation, et utilisent des indices potentiellement erronés (h2, h0 au lieu de hθ).
Question 9: Régularisation et ajout de fonctionnalités en régression logistique
Vous entraînez un modèle de classification avec régression logistique. Parmi les affirmations suivantes, lesquelles sont vraies ? Cochez toutes les cases qui s'appliquent.
- L'introduction de la régularisation dans le modèle se traduit toujours par des performances égales ou meilleures sur l'ensemble d'apprentissage.
- L'introduction de la régularisation dans le modèle se traduit toujours par des performances égales ou meilleures sur les exemples ne figurant pas dans l'ensemble d'apprentissage.
- L'ajout d'une nouvelle fonctionnalité au modèle se traduit toujours par des performances égales ou supérieures sur l'ensemble d'apprentissage.
Réponse et explication: Les affirmations vraies sont B et C.
- A. Faux : La régularisation (comme L1 ou L2) ajoute un terme de pénalité à la fonction de coût, ce qui contraint le modèle à avoir des poids plus petits. Cela réduit la complexité du modèle et son risque de sur-apprentissage, mais cela se fait généralement au détriment des performances sur l'ensemble d'apprentissage (la précision peut légèrement diminuer sur les données vues).
- B. Vrai : Le but principal de la régularisation est d'améliorer la capacité de généralisation du modèle. En réduisant le sur-apprentissage, elle permet au modèle de mieux performer sur de nouvelles données non vues (l'ensemble de test ou de validation).
- C. Vrai : L'ajout d'une nouvelle fonctionnalité (caractéristique) donne au modèle plus d'informations et potentiellement plus de flexibilité pour s'adapter aux données d'apprentissage. Théoriquement, un modèle peut toujours ignorer une caractéristique inutile (lui attribuer un poids proche de zéro), donc ses performances sur l'ensemble d'apprentissage ne peuvent qu'être égales ou supérieures, mais jamais pires. En pratique, cela peut introduire du bruit si la fonctionnalité est non pertinente ou entraîner un sur-apprentissage.
Question 10: Sur-ajustement (Overfitting) d'un modèle de régression
Le sur-ajustement (Overfitting) d'un modèle de régression se produit lorsque vous tentez d'estimer trop de paramètres à partir d'un échantillon de taille trop faible. Cela veut dire que le modèle prédictif généré durant l'apprentissage :
- s'adapte mal aux données d'apprentissage et donc il ne se généralisera pas bien sur de nouvelles données.
- s'adapte très bien aux données de l'apprentissage et qui se généralisera mal sur des nouvelles données.
- est trop spécialisé sur les données de l'apprentissage avec de mauvaises performances sur des nouvelles données.
- est trop mauvais sur les données d'apprentissage avec une sur-estimation de la qualité de prédiction sur de nouvelles données.
Réponse et explication: Les bonnes réponses sont B et C (très similaires, B est plus directe).
Le sur-ajustement se produit lorsque le modèle apprend les données d'entraînement avec une fidélité excessive, y compris le bruit et les particularités de cet ensemble de données spécifique. Par conséquent :
- B. Le modèle s'adapte très bien aux données d'apprentissage, obtenant une excellente performance sur celles-ci. Cependant, cette forte spécialisation le rend incapable de généraliser correctement à de nouvelles données (non vues), ce qui se traduit par de mauvaises performances de prédiction sur ces dernières.
- C. L'affirmation est une reformulation de B. Le modèle est trop spécialisé sur les données d'apprentissage, ce qui entraîne de mauvaises performances sur de nouvelles données.
Les options A et D décrivent plutôt un sous-ajustement (underfitting) ou une mauvaise évaluation.
Question 11: Frontière de décision linéaire
Soit un ensemble d'apprentissage composé de 4 points et leurs classes :
- P1: (u=5, v=4) avec y=1
- P2: (u=3, v=3) avec y=1
- P3: (u=8, v=3) avec y=0
- P4: (u=7, v=2) avec y=0
Cet ensemble de données est séparable et la forme de la frontière de décision est v = c + a.u (où u est l'axe des abscisses et v est l'axe des ordonnées). Trouvez une valeur possible de a et c dans la liste ci-dessous (justifier) :
- v = 6 - u/3
- v = 4 - u/4
- v = 8 - 3u/4
- v = 7 - 4u/7
Réponse et explication:
Pour trouver la frontière de décision linéaire v = c + a.u qui sépare les points de la classe 1 des points de la classe 0, nous devons vérifier quelle équation place les points de chaque classe de manière cohérente de part et d'autre de la ligne.
Soit la frontière de décision sous la forme f(u,v) = v - (c + a.u). Nous cherchons une ligne telle que f(u,v) > 0 pour la classe 1 et f(u,v) < 0 pour la classe 0 (ou vice-versa).
En analysant les points donnés :
- Classe 1 : (3,3), (5,4)
- Classe 0 : (7,2), (8,3)
Vérifions les options:
- v = 6 - u/3 =>
3v = 18 - u=>u + 3v - 18 = 0- (3,3) : 3 + 3*3 - 18 = 9 + 3 - 18 = -6
- (5,4) : 5 + 3*4 - 18 = 5 + 12 - 18 = -1
- (7,2) : 7 + 3*2 - 18 = 7 + 6 - 18 = -5
- (8,3) : 8 + 3*3 - 18 = 8 + 9 - 18 = -1
- v = 4 - u/4 =>
4v = 16 - u=>u + 4v - 16 = 0- (3,3) : 3 + 4*3 - 16 = 3 + 12 - 16 = -1
- (5,4) : 5 + 4*4 - 16 = 5 + 16 - 16 = 5
- (7,2) : 7 + 4*2 - 16 = 7 + 8 - 16 = -1
- (8,3) : 8 + 4*3 - 16 = 8 + 12 - 16 = 4
- v = 8 - 3u/4 =>
4v = 32 - 3u=>3u + 4v - 32 = 0- (3,3) (classe 1) : 3*3 + 4*3 - 32 = 9 + 12 - 32 = -11
- (5,4) (classe 1) : 3*5 + 4*4 - 32 = 15 + 16 - 32 = -1
- (7,2) (classe 0) : 3*7 + 4*2 - 32 = 21 + 8 - 32 = -3
- (8,3) (classe 0) : 3*8 + 4*3 - 32 = 24 + 12 - 32 = 4
- v = 7 - 4u/7 =>
7v = 49 - 4u=>4u + 7v - 49 = 0- (3,3) (classe 1) : 4*3 + 7*3 - 49 = 12 + 21 - 49 = -16
- (5,4) (classe 1) : 4*5 + 7*4 - 49 = 20 + 28 - 49 = -1
- (7,2) (classe 0) : 4*7 + 7*2 - 49 = 28 + 14 - 49 = -7
- (8,3) (classe 0) : 4*8 + 7*3 - 49 = 32 + 21 - 49 = 4
Conclusion sur la Question 11:
Après vérification des options avec les points de données fournis, aucune des lignes proposées ne permet une séparation linéaire parfaite des classes 1 et 0, où tous les points de la classe 1 sont d'un côté et tous les points de la classe 0 de l'autre. Ceci suggère une possible erreur dans la transcription des points de données ou des options de la question originale.
Dans un contexte d'examen, si une erreur de ce type se produisait, une justification détaillée de la non-séparabilité avec les options fournies serait attendue. Cependant, pour illustrer le processus, nous choisirions l'option la plus plausible si les points étaient légèrement différents ou si une petite marge d'erreur était tolérée. Étant donné l'inconsistance, il n'est pas possible de désigner une "bonne" réponse unique sans modification des données ou des options.
Question 12: Algorithme K-Means
Supposons que la tâche de data mining consiste à regrouper les huit points suivants en trois clusters : A1(2, 10), A2(2, 5), A3(8, 4), B1(5, 8), B2(7, 5), B3(6, 4), C1(1, 2), C2(4, 9). La fonction de distance est la distance euclidienne. Supposons initialement que nous attribuons A1, B1 et C1 comme centroïdes.
A. Les trois centres de clusters après le premier cycle d'exécution.
B. Les trois derniers clusters (après convergence).
Réponse et explication:
Points de données (P) : {A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)}
Centroïdes initiaux :
- M1 = A1(2,10)
- M2 = B1(5,8)
- M3 = C1(1,2)
A. Les trois centres de clusters après le premier cycle d'exécution
Cycle 1 :
1. Attribution des points aux centroïdes les plus proches (distance euclidienne) :
- A1(2,10) : d(A1,M1)=0. -> M1
- A2(2,5) : d(A2,M1)=sqrt(0²+5²)=5; d(A2,M2)=sqrt(3²+3²)=sqrt(18)≈4.24; d(A2,M3)=sqrt(1²+3²)=sqrt(10)≈3.16. -> M3
- A3(8,4) : d(A3,M1)=sqrt(6²+6²)=sqrt(72)≈8.48; d(A3,M2)=sqrt(3²+4²)=5; d(A3,M3)=sqrt(7²+2²)=sqrt(53)≈7.28. -> M2
- B1(5,8) : d(B1,M1)=sqrt(3²+2²)=sqrt(13)≈3.6; d(B1,M2)=0; d(B1,M3)=sqrt(4²+6²)=sqrt(52)≈7.21. -> M2
- B2(7,5) : d(B2,M1)=sqrt(5²+5²)=sqrt(50)≈7.07; d(B2,M2)=sqrt(2²+3²)=sqrt(13)≈3.6; d(B2,M3)=sqrt(6²+3²)=sqrt(45)≈6.7. -> M2
- B3(6,4) : d(B3,M1)=sqrt(4²+6²)=sqrt(52)≈7.21; d(B3,M2)=sqrt(1²+4²)=sqrt(17)≈4.12; d(B3,M3)=sqrt(5²+2²)=sqrt(29)≈5.38. -> M2
- C1(1,2) : d(C1,M1)=sqrt(1²+8²)=sqrt(65)≈8.06; d(C1,M2)=sqrt(4²+6²)=sqrt(52)≈7.21; d(C1,M3)=0. -> M3
- C2(4,9) : d(C2,M1)=sqrt(2²+1²)=sqrt(5)≈2.23; d(C2,M2)=sqrt(1²+1²)=sqrt(2)≈1.41; d(C2,M3)=sqrt(3²+7²)=sqrt(58)≈7.61. -> M2
Clusters après attribution :
- Cluster 1 : {A1(2,10)}
- Cluster 2 : {A3(8,4), B1(5,8), B2(7,5), B3(6,4), C2(4,9)}
- Cluster 3 : {A2(2,5), C1(1,2)}
2. Mise à jour des centroïdes :
- Nouveau M1 : (2/1, 10/1) = (2, 10)
- Nouveau M2 : ((8+5+7+6+4)/5, (4+8+5+4+9)/5) = (30/5, 30/5) = (6, 6)
- Nouveau M3 : ((2+1)/2, (5+2)/2) = (3/2, 7/2) = (1.5, 3.5)
Réponse A: Les trois centres de clusters après le premier cycle d'exécution sont : M1=(2,10), M2=(6,6), M3=(1.5,3.5).
B. Les trois derniers clusters (après convergence)
Continuons les cycles jusqu'à convergence (lorsque les attributions de points aux clusters ne changent plus).
Cycle 2 :
Nouveaux centroïdes : M1=(2,10), M2=(6,6), M3=(1.5,3.5)
1. Attribution des points :
- A1(2,10) -> M1
- A2(2,5) : d(A2,M1)≈5; d(A2,M2)≈4.12; d(A2,M3)≈1.58. -> M3
- A3(8,4) : d(A3,M1)≈8.48; d(A3,M2)≈2.82; d(A3,M3)≈6.5. -> M2
- B1(5,8) : d(B1,M1)≈3.6; d(B1,M2)≈2.23; d(B1,M3)≈5.7. -> M2
- B2(7,5) : d(B2,M1)≈7.07; d(B2,M2)≈1.41; d(B2,M3)≈5.7. -> M2
- B3(6,4) : d(B3,M1)≈7.21; d(B3,M2)=0; d(B3,M3)≈4.5. -> M2
- C1(1,2) : d(C1,M1)≈8.06; d(C1,M2)≈6.4; d(C1,M3)≈1.58. -> M3
- C2(4,9) : d(C2,M1)≈2.23; d(C2,M2)≈3.6; d(C2,M3)≈6.0. -> M1
Clusters après attribution :
- Cluster 1 : {A1(2,10), C2(4,9)}
- Cluster 2 : {A3(8,4), B1(5,8), B2(7,5), B3(6,4)}
- Cluster 3 : {A2(2,5), C1(1,2)}
2. Mise à jour des centroïdes :
- Nouveau M1 : ((2+4)/2, (10+9)/2) = (3, 9.5)
- Nouveau M2 : ((8+5+7+6)/4, (4+8+5+4)/4) = (26/4, 21/4) = (6.5, 5.25)
- Nouveau M3 : ((2+1)/2, (5+2)/2) = (1.5, 3.5) (Inchangé)
Cycle 3 :
Nouveaux centroïdes : M1=(3,9.5), M2=(6.5,5.25), M3=(1.5,3.5)
1. Attribution des points :
- A1(2,10) : d(A1,M1)≈1.12; d(A1,M2)≈6.5; d(A1,M3)≈6.5. -> M1
- A2(2,5) : d(A2,M1)≈4.6; d(A2,M2)≈4.5; d(A2,M3)≈1.58. -> M3
- A3(8,4) : d(A3,M1)≈7.4; d(A3,M2)≈1.9; d(A3,M3)≈6.5. -> M2
- B1(5,8) : d(B1,M1)≈2.5; d(B1,M2)≈3.1; d(B1,M3)≈5.7. -> M1
- B2(7,5) : d(B2,M1)≈4.6; d(B2,M2)≈0.35; d(B2,M3)≈5.7. -> M2
- B3(6,4) : d(B3,M1)≈6.2; d(B3,M2)≈1.3; d(B3,M3)≈4.5. -> M2
- C1(1,2) : d(C1,M1)≈7.5; d(C1,M2)≈6.4; d(C1,M3)≈1.58. -> M3
- C2(4,9) : d(C2,M1)≈1.06; d(C2,M2)≈5.1; d(C2,M3)≈6.0. -> M1
Clusters après attribution :
- Cluster 1 : {A1(2,10), B1(5,8), C2(4,9)}
- Cluster 2 : {A3(8,4), B2(7,5), B3(6,4)}
- Cluster 3 : {A2(2,5), C1(1,2)}
2. Mise à jour des centroïdes :
- Nouveau M1 : ((2+5+4)/3, (10+8+9)/3) = (11/3, 27/3) = (3.67, 9)
- Nouveau M2 : ((8+7+6)/3, (4+5+4)/3) = (21/3, 13/3) = (7, 4.33)
- Nouveau M3 : ((2+1)/2, (5+2)/2) = (1.5, 3.5) (Inchangé)
Cycle 4 :
Nouveaux centroïdes : M1=(3.67,9), M2=(7,4.33), M3=(1.5,3.5)
1. Attribution des points : Les attributions de points restent les mêmes qu'au Cycle 3 avec ces nouveaux centroïdes.
- A1(2,10) -> M1 (d≈1.94)
- A2(2,5) -> M3 (d≈1.58)
- A3(8,4) -> M2 (d≈1.05)
- B1(5,8) -> M1 (d≈1.75)
- B2(7,5) -> M2 (d≈0.67)
- B3(6,4) -> M2 (d≈1.05)
- C1(1,2) -> M3 (d≈1.58)
- C2(4,9) -> M1 (d≈0.33)
Puisque les attributions de points aux clusters n'ont pas changé par rapport au cycle précédent, l'algorithme a convergé.
Réponse B: Les trois derniers clusters après convergence sont :
- Cluster 1 : {A1(2,10), B1(5,8), C2(4,9)}
- Cluster 2 : {A3(8,4), B2(7,5), B3(6,4)}
- Cluster 3 : {A2(2,5), C1(1,2)}
Foire Aux Questions (FAQ) sur le Data Mining
Qu'est-ce que le Data Mining et à quoi sert-il ?
Le Data Mining, ou forage de données, est le processus qui consiste à découvrir des modèles, des tendances et des informations exploitables à partir de grands ensembles de données. Il combine des techniques issues de l'apprentissage automatique, des statistiques et des systèmes de bases de données pour extraire des connaissances cachées. Le Data Mining est utilisé dans divers domaines, comme la prévision des ventes, la détection de fraudes, la segmentation de la clientèle, l'analyse des risques ou encore l'amélioration des produits et services.
Quelle est la différence fondamentale entre l'apprentissage supervisé et non supervisé ?
La différence principale réside dans la nature des données d'entraînement. En apprentissage supervisé, le modèle est entraîné sur des données étiquetées, c'est-à-dire que chaque exemple d'entrée est associé à une sortie correcte (une étiquette ou une valeur cible). L'objectif est d'apprendre une fonction qui mappe les entrées aux sorties pour faire des prédictions sur de nouvelles données. Des exemples incluent la classification (prédire une catégorie) et la régression (prédire une valeur numérique).
En apprentissage non supervisé, le modèle travaille avec des données non étiquetées. Il n'y a pas de sortie correcte prédéfinie. L'objectif est de découvrir des structures cachées, des motifs ou des regroupements au sein des données elles-mêmes. Le clustering (regroupement de données similaires) et la réduction de dimensionnalité sont des exemples courants de tâches d'apprentissage non supervisé.
Pourquoi la régularisation est-elle importante en Machine Learning ?
La régularisation est une technique cruciale en Machine Learning utilisée pour prévenir le sur-apprentissage (overfitting). Le sur-apprentissage se produit lorsqu'un modèle apprend trop bien les données d'entraînement, y compris le bruit et les spécificités de cet ensemble, ce qui le rend incapable de généraliser correctement à de nouvelles données inconnues. La régularisation ajoute une pénalité à la fonction de coût du modèle pour les poids des caractéristiques élevés, encourageant ainsi le modèle à utiliser des poids plus petits et plus simples. Cela réduit la complexité du modèle, le rend moins sensible aux variations des données d'entraînement et améliore sa capacité à faire des prédictions précises sur des données jamais vues auparavant (généralisation).