Série d'exercices td1 data mining pdf

Ce document présente une série d'exercices en Data Mining, conçue pour les étudiants universitaires du Département d'Informatique. Il vise à consolider les compétences pratiques et théoriques nécessaires à la maîtrise des concepts fondamentaux de la fouille de données, offrant une application concrète des connaissances.

Il couvre les notions suivantes :

  • L'identification des tâches de Data Mining.
  • La classification des attributs de données (types et natures).
  • La distinction entre programmation classique et apprentissage automatique supervisé.
  • L'application du Data Mining à la résolution de problèmes réels.
Série d'exercices td1 data mining pdf

Série d'exercices TD1 Data Mining

Télécharger PDF

Série d'Exercices N° 01 : Introduction au Data Mining

Cette série d'exercices est conçue pour approfondir votre compréhension des concepts fondamentaux du Data Mining, de la classification des données aux applications pratiques en entreprise.

Exercice 01 : Identifier les Tâches de Data Mining

1.1. Discutez si chacune des activités suivantes est une tâche de Data Mining. Expliquez brièvement pourquoi.

  • (a) Répartition des clients d'une entreprise en fonction de leur état civil (marié, etc.).

    Ce n'est pas directement une tâche de Data Mining. Il s'agit d'une simple agrégation ou d'un filtrage de données. Le Data Mining viserait à découvrir des modèles ou des relations significatives en lien avec cet état civil, par exemple, pour comprendre si l'état civil influence la propension à acheter un certain produit ou service.

  • (b) Diviser les clients d'une entreprise en fonction de leur rentabilité.

    Oui, c'est une tâche de Data Mining, spécifiquement du clustering ou de la segmentation client. L'objectif est d'identifier des groupes de clients ayant des niveaux de rentabilité similaires pour cibler des stratégies marketing ou de fidélisation adaptées.

  • (c) Calcul des ventes saisonnières d'une entreprise.

    Ce n'est pas une tâche de Data Mining en soi. Il s'agit d'une analyse statistique descriptive simple. Toutefois, l'utilisation de ces données saisonnières pour prédire les ventes futures ou identifier les facteurs complexes qui influencent ces variations saisonnières deviendrait une tâche de Data Mining (prévision, détection de motifs).

  • (d) Une base de données des étudiants triée sur la base des numéros d'identification.

    Non, il s'agit d'une opération basique de gestion de base de données (tri). Le Data Mining implique la découverte de connaissances non triviales, ce qui n'est pas le cas ici.

  • (e) Prévoir le résultat du jet d'une paire de dés (équitables).

    Non. Le jet de dés équitables est un processus intrinsèquement aléatoire. Le Data Mining recherche des modèles dans des données existantes pour faire des prédictions, mais il ne peut pas prédire l'issue de processus purement aléatoires.

  • (f) Identifier des groupes de documents ayant un sujet similaire.

    Oui, c'est une tâche de Data Mining, plus précisément du clustering de texte. Elle vise à regrouper des documents non étiquetés en fonction de la similarité de leur contenu sémantique.

  • (g) Contrôler la fréquence (le rythme) cardiaque d'un patient pour des anomalies.

    Oui, c'est une tâche de Data Mining, spécifiquement la détection d'anomalies. Elle consiste à identifier des battements ou des rythmes cardiaques qui s'écartent significativement du comportement normal ou attendu.

  • (h) Identifier en quelle langue un texte est écrit.

    Oui, c'est une tâche de Data Mining et d'apprentissage automatique, relevant de la classification de texte. Un modèle est entraîné sur des textes de différentes langues pour reconnaître les caractéristiques linguistiques propres à chacune.

  • (i) Calculer les fréquences d'une onde sonore.

    Non, c'est une opération de traitement du signal ou une analyse spectrale. Le Data Mining pourrait être utilisé si l'on cherchait à identifier des motifs dans ces fréquences pour, par exemple, détecter la source d'un son ou un défaut dans un équipement à partir de ses caractéristiques sonores.

  • (j) Prévoir le prix des actions d'une entreprise dans le futur à l'aide de l'historique des données.

    Oui, c'est une tâche de Data Mining, et plus spécifiquement de prévision ou de régression de séries temporelles. L'analyse des données historiques de cours d'actions est utilisée pour construire un modèle prédictif.

  • (k) Déterminer le chemin le plus court entre deux nœuds dans un graphe.

    Non, c'est un problème d'optimisation algorithmique classique (par exemple, l'algorithme de Dijkstra). Ce n'est pas une tâche de découverte de connaissances implicites à partir de données brutes, mais l'application d'un algorithme connu.

  • (l) Prédire le nombre de vélos à mettre en location à chaque station d'un système de location de vélos citadins.

    Oui, c'est une tâche de Data Mining, relevant de la prévision ou de la régression. Cela implique d'analyser les données historiques (demande, conditions météorologiques, événements spéciaux, etc.) pour optimiser la disponibilité des vélos et ainsi le service.

  • (m) Identifier l'expression d'un visage parmi une liste prédéfinie de possibilités (colère, tristesse, joie, etc.).

    Oui, c'est une tâche de Data Mining et d'apprentissage automatique, spécifiquement de classification d'images ou de détection d'émotions. Un modèle est entraîné pour associer des caractéristiques visuelles à des expressions.

  • (n) Évaluer le prix qu'un tableau de maître pourra atteindre lors d'une vente aux enchères.

    Oui, c'est une tâche de Data Mining, généralement de régression. Des facteurs comme l'artiste, l'historique des ventes similaires, la taille, l'état, la provenance et le contexte de la vente seraient analysés pour prédire un prix.

Exercice 02 : Classification des Attributs

2.1. Classez chacun des attributs suivants comme binaire, discret ou continu. Classez-les aussi comme qualitatif (nominal ou ordinal) ou quantitatif (intervalle ou ratio). Certains cas peuvent avoir plus d'une interprétation.

Exemple: âge en années. Réponse: discret, quantitatif, ratio.

  • (a) Le temps en termes de AM ou PM.

    Binaire (deux valeurs possibles), Qualitatif (Nominal).

  • (b) La luminosité mesurée par un photomètre.

    Continu, Quantitatif (Ratio). Un photomètre mesure des valeurs sur une échelle avec un zéro absolu (absence de lumière) et les rapports entre les valeurs sont significatifs.

  • (c) La luminosité mesurée par les jugements des gens (par exemple, "faible", "moyenne", "forte").

    Discret (car un nombre limité de catégories), Qualitatif (Ordinal). Bien qu'il y ait un ordre, les intervalles entre les catégories ne sont pas nécessairement égaux ou mesurables.

  • (d) Angles mesurés en degrés entre 0 et 360.

    Continu (peut prendre toute valeur décimale), Quantitatif (Intervalle). La différence entre deux angles est significative, mais 0° n'est pas une absence d'angle absolu (par exemple, 0° et 360° représentent la même direction), donc il n'y a pas de zéro naturel pour les rapports.

  • (e) Les médailles de Bronze, d'argent, et d'or telles que décernées lors des Jeux olympiques.

    Discret, Qualitatif (Ordinal). Il existe un ordre clair de performance (Or > Argent > Bronze), mais les "intervalles" entre les médailles n'ont pas de signification numérique quantifiable.

  • (f) Hauteur au-dessus du niveau de la mer.

    Continu, Quantitatif (Ratio). La hauteur peut prendre n'importe quelle valeur décimale et possède un zéro absolu (le niveau de la mer) à partir duquel les mesures positives et négatives (profondeur) sont prises, avec des rapports significatifs.

  • (g) Nombre de patients dans un hôpital.

    Discret (un entier), Quantitatif (Ratio). Le nombre de patients est un compte, et un zéro représente l'absence de patients, avec des rapports significatifs (ex: 10 patients est le double de 5 patients).

  • (h) Les numéros ISBN (International Standard Book Number) pour les livres.

    Discret (souvent des chaînes de caractères ou de longs entiers), Qualitatif (Nominal). Les numéros ISBN sont des identifiants uniques et n'ont pas de signification numérique pour l'ordre, la quantité ou les opérations mathématiques.

  • (i) La capacité à laisser passer la lumière en termes de valeurs suivantes: opaque, translucide, transparent.

    Discret, Qualitatif (Ordinal). Il y a un ordre logique de la capacité à laisser passer la lumière, mais pas de mesure numérique proportionnelle.

  • (j) Un grade militaire.

    Discret, Qualitatif (Ordinal). Il existe un ordre hiérarchique clair entre les grades, mais les "distances" ou différences entre eux ne sont pas uniformément quantifiables.

  • (k) La distance du centre du campus.

    Continu, Quantitatif (Ratio). La distance peut prendre n'importe quelle valeur décimale positive et possède un zéro absolu (le centre du campus), ce qui permet des comparaisons de rapports.

  • (l) Densité d'une substance en grammes par centimètre cube.

    Continu, Quantitatif (Ratio). La densité peut prendre n'importe quelle valeur positive et a un zéro absolu (pas de masse dans un volume donné), ce qui permet des rapports significatifs.

  • (m) Le numéro de vestiaire.

    Discret (un entier), Qualitatif (Nominal). Le numéro est un identifiant sans signification d'ordre ou de quantité. Il sert uniquement à distinguer un article d'un autre pour la récupération (par exemple, le numéro 10 n'est pas "plus grand" que le numéro 5).

2.2. Quels AUTRES TYPES de données sont susceptibles d’être traités par les techniques de Data Mining ?

Au-delà des attributs numériques et catégoriels classiques, le Data Mining est capable de traiter une vaste gamme de types de données complexes, notamment :

  • Données textuelles : Comme des corpus de documents, des e-mails, des publications sur les réseaux sociaux, des avis clients.
  • Données d'images et de vidéos : Incluant des images satellites, des vidéos de surveillance, des radiographies médicales, pour la détection d'objets ou la reconnaissance faciale.
  • Données audio : Comme des enregistrements vocaux, de la musique, des sons environnementaux, utilisées pour la reconnaissance vocale ou la détection d'événements.
  • Données de séries temporelles : Telles que les cours boursiers, les relevés de capteurs IoT, les données météorologiques, pour la prévision et l'analyse des tendances.
  • Données de graphes ou de réseaux : Représentant des réseaux sociaux, des réseaux de communication, des structures moléculaires, pour l'analyse des relations et des connexions.
  • Données séquentielles : Par exemple, des séquences d'achats de clients, des historiques de navigation web, ou des séquences génétiques, pour découvrir des motifs comportementaux ou structurels.

Exercice 03 : Apprentissage Automatique et Tâches de Data Mining

3.1. Quelle est la différence entre un programme classique et un programme d'apprentissage automatique supervisé ?

Un programme classique (ou traditionnel) est caractérisé par un ensemble d'instructions et de règles explicites et prédéfinies par le développeur. Il exécute une tâche spécifique en suivant ces étapes logiques, sans capacité d'apprendre par lui-même à partir des données. Sa performance dépend directement de la complétude et de la justesse des règles codées pour tous les scénarios possibles.

Un programme d'apprentissage automatique supervisé, en revanche, n'est pas programmé avec des règles explicites. Il apprend à accomplir une tâche en s'entraînant sur un ensemble de données étiquetées, c'est-à-dire des paires d'entrées et leurs sorties correctes correspondantes. Le modèle "découvre" des relations et des motifs dans ces données pour faire des prédictions ou des classifications sur de nouvelles données non vues. Il s'adapte et s'améliore à mesure qu'il est exposé à davantage de données d'entraînement. Les tâches courantes de l'apprentissage supervisé sont la classification et la régression.

3.2. Déterminez la tâche de Data Mining ayant permis d'extraire et de découvrir les modèles suivants :

  • A. Les personnes ayant moins de 25 ans et le salaire > 40K conduisent des voitures de sport.

    Il s'agit de Règles d'association (pour identifier des corrélations entre attributs) ou de Classification (si "conduire une voiture de sport" est une cible prédéfinie à partir de l'âge et du salaire). Les règles d'association sont idéales pour découvrir ce type de co-occurrence de conditions et de comportements.

  • B. Ensemble des images qui contiennent une voiture comme un objet.

    Classification ou Détection d'objets. Une tâche de classification permettrait d'étiqueter une image comme "contient une voiture" ou "ne contient pas de voiture". La détection d'objets est plus avancée, localisant spécifiquement la voiture dans l'image.

  • C. 80% des images contenant une voiture comme un objet contiennent aussi un ciel bleu.

    Règles d'association. Cette tâche permet d'identifier des co-occurrences ou des dépendances entre différents éléments (ici, la présence d'une voiture et celle d'un ciel bleu) dans un ensemble de données, souvent exprimées avec un certain niveau de confiance.

  • D. 98% des personnes qui achètent des couches achètent aussi de la nourriture pour bébés.

    Règles d'association. C'est un exemple classique de l'analyse du panier d'achat, où l'on identifie les produits fréquemment achetés ensemble pour optimiser le placement en magasin ou les promotions.

  • E. Des abonnés de téléphone de domicile pour une société de télécommunications, avec une activité commerciale à la maison.

    Classification (si l'activité commerciale est une cible connue à prédire) ou Clustering (si l'on cherche à regrouper les abonnés en fonction de diverses caractéristiques pour découvrir ce segment sans cible prédéfinie).

  • F. Des radiographies numériques des poumons, avec des taches suspectes.

    Détection d'anomalies (pour identifier les taches inhabituelles qui s'écartent de la norme) ou Classification (pour ensuite catégoriser ces anomalies, par exemple, en fonction de leur malignité ou bénignité).

Exercice 04 : Data Mining pour la Rétention Client (Churn)

Une compagnie de téléphonie mobile fait face à un problème commercial lié à la perte croissante de ses clients (aussi appelée attrition ou churn). Les clients abonnés annulent leur abonnement pour rejoindre un concurrent.

Quelles sont les façons dont le Data Mining pourrait être utilisé pour résoudre ce problème commercial ? Comment l'utilisation de ces modèles aidera à résoudre le problème commercial initial ?

Le Data Mining est un outil puissant pour adresser le problème de l'attrition client en permettant une approche proactive et basée sur les données :

  1. Identification Précoce des Clients à Risque (Prédiction du Churn) :
    • Comment : Construire un modèle prédictif en utilisant des techniques de classification (comme les arbres de décision, la régression logistique, les forêts aléatoires, ou les réseaux neuronaux). Ce modèle serait entraîné sur des données historiques de clients (incluant la durée d'abonnement, la consommation, l'historique des plaintes, les interactions avec le service client, les offres précédentes acceptées ou refusées, les données démographiques) pour apprendre à distinguer les clients qui sont partis (churners) de ceux qui sont restés.
    • Bénéfice : Une fois entraîné, le modèle peut être appliqué aux clients actuels pour identifier, en temps réel ou quasi-réel, ceux qui présentent un risque élevé de départ dans un futur proche. Cela permet à l'entreprise d'agir de manière proactive avant que le client ne parte.
  2. Compréhension des Raisons du Churn (Analyse des Causes Racines) :
    • Comment : Utiliser des techniques d'analyse de données (comme l'extraction de règles d'association, l'analyse des facteurs clés à partir des coefficients de modèles, ou l'interprétation des arbres de décision) pour découvrir les combinaisons de facteurs qui contribuent le plus au départ des clients. Par exemple, "les clients qui appellent le support plus de X fois et dont le contrat se termine dans 3 mois ont un risque de Y% de partir".
    • Bénéfice : Armée de cette connaissance, l'entreprise peut identifier les points faibles structurels de son service, de ses produits ou de ses offres et prendre des mesures correctives à long terme (améliorer la qualité du réseau, revoir les plans tarifaires, former le personnel du service client, simplifier les processus).
  3. Segmentation des Clients à Risque (Ciblage Personnalisé des Actions de Rétention) :
    • Comment : Après avoir identifié les clients à risque, utiliser des techniques de clustering pour les regrouper en segments distincts ayant des caractéristiques et des besoins similaires. Par exemple, un groupe pourrait être sensible au prix, un autre à la qualité du service, un troisième aux dernières technologies ou à des offres groupées.
    • Bénéfice : Cette segmentation permet de concevoir et de déployer des campagnes de rétention hautement personnalisées et beaucoup plus efficaces (offres promotionnelles ciblées, améliorations de service spécifiques, communications personnalisées) plutôt qu'une approche générique coûteuse et souvent inefficace.

En somme, l'utilisation de ces modèles de Data Mining permet de transformer une réaction passive face à la perte de clients en une stratégie proactive et data-driven. En identifiant précisément les clients à risque, en comprenant les motifs de leur départ et en ciblant les actions de rétention, la compagnie peut significativement réduire son taux d'attrition, améliorer la satisfaction et la fidélité de sa clientèle, et, in fine, augmenter ses revenus et sa rentabilité sur le long terme.

Foire Aux Questions (FAQ) sur le Data Mining

Qu'est-ce que le Data Mining ?

Le Data Mining, ou l'exploration de données, est un processus qui consiste à découvrir des modèles, des tendances, des règles et des informations exploitables à partir de grands ensembles de données. Il utilise des techniques issues de l'apprentissage automatique, des statistiques et des systèmes de bases de données pour transformer des données brutes en connaissances utiles et prendre des décisions éclairées.

Quels sont les principaux types de tâches de Data Mining ?

Les principales tâches de Data Mining incluent la classification (prédire une catégorie discrète), la régression (prédire une valeur numérique continue), le clustering (regrouper des données similaires), l'analyse des règles d'association (découvrir des relations entre les éléments, par exemple, produits achetés ensemble) et la détection d'anomalies (identifier des points de données inhabituels ou des fraudes).

Comment le Data Mining aide-t-il les entreprises ?

Le Data Mining permet aux entreprises de prendre des décisions stratégiques plus éclairées. Il peut aider à prédire le comportement futur des clients, à optimiser les campagnes marketing ciblées, à détecter la fraude, à améliorer l'efficacité des opérations, à personnaliser les offres de produits et services, et à identifier de nouvelles opportunités commerciales. Par exemple, en prédisant l'attrition client, les entreprises peuvent mettre en place des stratégies de rétention proactives pour fidéliser leur clientèle.

Cela peut vous intéresser :

Partagez vos remarques, questions , propositions d'amélioration ou d'autres cours à ajouter dans notre site

Enregistrer un commentaire (0)
Plus récente Plus ancienne