Cours data mining taches et techniques pdf

Ce document pédagogique, élaboré par le Pr. Ali BERRICHI du Département d'Informatique de l'Université de Boumerdes, est destiné aux étudiants universitaires désireux de maîtriser les principes du Data Mining. Il propose une vue d'ensemble structurée des concepts fondamentaux.

Il couvre les notions suivantes:

  • Les tâches principales du Data Mining (méthodes prédictives et descriptives)
  • Les techniques spécifiques comme la classification, le partitionnement et la régression
  • La découverte de règles d'association et la détection d'anomalies
  • La méthodologie standard CRISP-DM pour les projets de fouille de données
Cours data mining taches et techniques pdf

Cours Data Mining Taches et Techniques

Télécharger PDF

Data Mining

Le Data Mining, ou l'exploration de données, est un processus visant à découvrir des modèles et des informations utiles à partir de grands ensembles de données. Il combine des techniques issues de l'apprentissage automatique, des statistiques et des systèmes de bases de données pour extraire des connaissances exploitables.

Les Tâches du Data Mining

Les tâches du Data Mining peuvent être divisées en deux grandes catégories : les méthodes prédictives et les méthodes descriptives.

Méthodes Prédictives (Apprentissage Supervisé)

Ces méthodes visent à prédire une valeur inconnue ou future d'un attribut spécifique en se basant sur les valeurs d'autres attributs. L'attribut à prédire est appelé "attribut cible" ou "variable dépendante".

  • Exemples : Détection de spam, détection d'intrusions dans un réseau.

Méthodes Descriptives (Apprentissage Non Supervisé)

Ces méthodes ont pour objectif de mettre en évidence des informations présentes mais cachées par le volume des données. Elles réduisent, résument et synthétisent les données sans qu'il y ait de variable cible à prédire.

  • Exemples : Segmentation de clientèle, recherche d'associations de produits sur les tickets de caisse.

Principales Tâches du Data Mining

  • Classification (parfois appelée segmentation en français) [prédictive]
  • Partitionnement (ou Clustering en anglais) [descriptive]
  • Découverte de règles d'association [descriptive]
  • Découverte de séquences [descriptive]
  • Régression [prédictive]
  • Détection d'anomalies [prédictive]

La Classification (Segmentation)

La classification est une tâche prédictive où la variable cible est catégorielle. Le but est de trouver un modèle capable de prédire la valeur de l'attribut cible en fonction des valeurs des autres attributs, attribuant ainsi une classe aussi précise que possible à des individus anonymes.

Exemple de données pour l'apprentissage d'un classifieur :

ID Possède Maison Statut Marital Salaire REMBOURSE
1 Oui Célibat 125K Non
2 Non Marié 100K Non
3 Non Célibat 70K Non
4 Oui Marié 120K Non
5 Non Divorcé 95K Oui
6 Non Marié 60K Non
7 Oui Divorcé 220K Non
8 Non Célibat 85K Oui
9 Non Marié 75K Non
10 Non Célibat 90K Oui

Prédictions du modèle :

Possède Maison Statut Marital Salaire REMBOURSE (Prédit)
Non Célibat 75K ?
Oui Marié 50K ?
Non Marié 150K ?
Oui Divorcé 90K ?
Non Célibat 40K ?
Non Marié 80K ?

Classification : Application 1 - Marketing Direct

Objectif : Réduire les coûts du mailing en ciblant un ensemble de consommateurs susceptibles d'acheter un nouveau produit de téléphonie mobile.

Approche :

  • Utiliser les données d'un produit similaire introduit auparavant.
  • Connaître les clients ayant acheté le produit et ceux qui ne l'ont pas fait. Cette décision (acheter ou ne pas acheter) constitue les valeurs de l'attribut de la classe.
  • Collecter diverses informations sur ces clients (type d'entreprise, lieu de résidence, revenus, etc.) et les utiliser comme attributs d'entrée pour le modèle classificateur.

Classification : Application 2 - Détection de Fraude

Objectif : Prévoir les cas frauduleux dans les transactions par carte de crédit.

Approche :

  • Utiliser les transactions par carte de crédit et les informations sur les titulaires de compte comme attributs (habitudes d'achat, fréquences de paiement à temps, etc.).
  • Étiqueter les transactions passées comme frauduleuses ou légitimes pour former l'attribut de la classe.
  • Construire un modèle capable de prédire la classe des transactions (frauduleuse ou non) et l'utiliser pour détecter les fraudes en temps réel.

Classification : Application 3 - Attrition Client / Désabonnement

Objectif : Prédire si un client est susceptible d'être perdu (c'est-à-dire, de se tourner vers un concurrent).

Approche :

  • Utiliser des informations détaillées sur les transactions des clients passés et présents (fréquence et heure des appels, situation financière, état matrimonial, etc.).
  • Étiqueter les clients comme fidèles ou à risque de désabonnement.
  • Développer un modèle de fidélité.

Ces applications sont également pertinentes dans des secteurs comme la banque et les assurances.

Le Partitionnement (Clustering)

Étant donné un ensemble d'enregistrements (ou d'objets), chacun possédant un ensemble d'attributs, et une mesure de similarité entre eux, le partitionnement vise à trouver des groupes (clusters) tels que :

  • Les points de données au sein d'un même groupe sont plus semblables les uns aux autres.
  • Les points de données entre différents groupes sont distincts les uns des autres.

Mesures de Similarité

  • Distance euclidienne si les attributs sont continus.
  • Mesures spécifiques adaptées à d'autres types d'attributs.

Illustration : Classification basée sur la distance Euclidienne en 3 dimensions. Les distances intra-cluster sont minimisées, tandis que les distances inter-cluster sont maximisées.

Partitionnement (Clustering) : Application 1 - Segmentation du Marché

Objectif : Subdiviser un marché en sous-ensembles distincts de clients, dont un sous-ensemble peut être choisi comme marché cible.

Approche :

  • Collecter des attributs clients basés sur des informations géographiques, de style de vie, etc.
  • Identifier des groupes (clusters) de clients similaires.

Partitionnement (Clustering) : Application 2 - Classification des Documents

Objectif : Trouver des groupes de documents qui sont semblables les uns aux autres en fonction des termes importants qu'ils contiennent.

Approche :

  • Identifier les termes qui apparaissent fréquemment dans chaque document.
  • Établir une mesure de similarité basée sur les fréquences des différents termes et l'utiliser pour le clustering.

Gain : En recherche d'information, les clusters peuvent être utilisés pour affecter un nouveau document à une classe de documents existante.

Illustration : Mesure de Similarité : Nombre de mots communs dans les documents.

Données de classification : 3204 articles du Los Angeles Times.

Résultats :

Catégorie Total des articles Correctement Placés
Finance 555 364
International 341 260
National 273 36
Metro 943 746
Sports 738 573
Loisirs 354 278

Découverte de Règles d'Association

Étant donné une base de données de transactions, où chaque transaction contient un ensemble d'articles, le but est de trouver des règles de dépendance qui prédisent l'occurrence d'un article basée sur l'occurrence d'autres articles.

Exemple de transactions :

IDT Articles (Items)
1 Pain, Soda, Lait
2 Jus, Pain
3 Jus, Soda, Biscuit, Lait
4 Jus, Pain, Biscuit, Lait
5 Soda, Biscuit, Lait

Règles découvertes :

  • {Lait} --> {Soda}
  • {Biscuit, Lait} --> {Jus}

Découverte de Règles d'Association : Gestion des Rayons de Supermarchés

Objectif : Identifier les articles qui sont achetés simultanément par un nombre suffisant de clients.

Approche : Traiter les données des points de vente collectées avec les scanners de codes à barres pour identifier les dépendances entre produits.

Exemple de règle classique : Si un client achète des couches pour bébé et du lait, il est très probable qu'il achète également une eau minérale spéciale. Il n'est donc pas surprenant de voir des packs d'eau empilés à côté des couches pour bébé dans les magasins.

Régression (Estimation et Prévision)

La régression consiste à prédire la valeur d'une variable continue en se basant sur les valeurs d'autres variables, en supposant un modèle linéaire ou non linéaire de la dépendance. C'est une technique largement étudiée en statistiques et en réseaux de neurones.

Exemples :

  • Prévoir les montants des ventes de nouveaux produits en fonction des dépenses publicitaires.
  • Prévoir la vitesse du vent en fonction de la température, de l'humidité, de la pression atmosphérique, etc.
  • Prévision de séries temporelles d'indices boursiers.

Détection d'Anomalies (Détection de Déviations)

Cette tâche vise à détecter les écarts significatifs par rapport au comportement normal.

Applications :

  • Détection de fraude par carte de crédit : Identification d'achats de quantités extrêmement importantes pour un compte donné, comparés aux achats réguliers effectués par le même compte. Les anomalies (valeurs extrêmes) peuvent aussi être détectées en fonction du lieu, du type d'achat ou de la fréquence d'achat.
  • Détection d'intrusion réseau : Identification d'activités réseau inhabituelles pouvant indiquer une tentative d'intrusion.

Les Techniques du Data Mining

Tâche Nature Techniques Associées
Classification (Segmentation) Prédictive Arbres de décision, Réseaux de neurones, Analyse discriminante, Régression logistique, SVM, etc.
Partitionnement (Clustering) Descriptive K-means, K-médoïdes, Méthodes hiérarchiques, Méthodes de partitionnement, Méthodes floues, etc.
Découverte de règles d'association Descriptive Apriori, Fp-Growth, etc.
Régression Prédictive Régression linéaire et non linéaire, Réseaux de neurones, etc.
Détection d'anomalies Prédictive SVM, Clustering, Méthodes statistiques, Arbres de décision, Réseaux de neurones, Régression logistique, etc.

La Méthodologie CRISP-DM

CRISP-DM (CRoss-Industry Standard Process for Data Mining) est une méthodologie standardisée et intersectorielle pour la conduite de projets de Data Mining. Elle est composée de six phases interconnectées, permettant une approche structurée et itérative.

Les Étapes de la Méthodologie CRISP-DM

Voici les six phases principales de la méthodologie CRISP-DM :

1. Phase de Compréhension Métier (Business Understanding)

  • Définir les objectifs globaux et les contraintes de l'entreprise.
  • Transformer ces objectifs et contraintes en une définition claire d'un problème de Data Mining.

2. Phase de Compréhension des Données (Data Understanding)

  • Recueillir les données initiales.
  • Réaliser une analyse exploratoire pour se familiariser avec les données.
  • Évaluer la qualité des données.

3. Phase de Préparation des Données (Data Preparation)

  • Convertir les données brutes en un ensemble de données final prêt pour l'analyse.
  • Sélectionner les données appropriées pour l'analyse.
  • Nettoyer les données (gestion des valeurs manquantes, des erreurs, etc.) pour les rendre utilisables par les outils de Data Mining.

4. Phase de Modélisation (Modeling)

  • Sélectionner et appliquer les techniques de Data Mining appropriées (classification, régression, clustering, etc.).
  • Si nécessaire, il est possible de revenir à la phase de préparation des données pour ajuster les données aux besoins spécifiques de la technique de modélisation choisie.

5. Phase d'Évaluation (Evaluation)

  • Évaluer les modèles construits pour s'assurer qu'ils répondent aux objectifs métier.
  • Comparer les résultats des modèles par rapport aux objectifs réels définis au début du projet.

6. Phase de Déploiement (Deployment)

  • Mettre en œuvre et utiliser le modèle créé dans un environnement opérationnel.
  • Cela peut inclure la génération de rapports, la mise en place d'un système de scoring automatisé ou l'intégration du modèle dans un processus décisionnel.

Foire Aux Questions (FAQ)

Qu'est-ce que le Data Mining ?

Le Data Mining est le processus d'extraction de modèles, de connaissances et d'informations utiles à partir de grands ensembles de données, en utilisant des techniques issues de l'apprentissage automatique, des statistiques et des bases de données.

Quelle est la différence entre les méthodes prédictives et descriptives en Data Mining ?

Les méthodes prédictives (apprentissage supervisé) visent à prédire une variable cible spécifique (par exemple, la classification ou la régression), tandis que les méthodes descriptives (apprentissage non supervisé) se concentrent sur la découverte de modèles et de structures cachées dans les données sans variable cible prédéfinie (par exemple, le partitionnement ou la découverte de règles d'association).

Pourquoi la méthodologie CRISP-DM est-elle importante pour les projets de Data Mining ?

La méthodologie CRISP-DM offre un cadre structuré et itératif pour la gestion de projets de Data Mining. Elle permet de s'assurer que les objectifs métier sont clairement définis, que les données sont correctement préparées, que les modèles sont pertinents et évalués, et que les résultats sont déployés efficacement, augmentant ainsi les chances de succès du projet.

Cela peut vous intéresser :

Partagez vos remarques, questions , propositions d'amélioration ou d'autres cours à ajouter dans notre site

Enregistrer un commentaire (0)
Plus récente Plus ancienne