Cours data mining taches et techniques pdf

Ce document pédagogique, élaboré par le Pr. Ali BERRICHI du Département d'Informatique de l'Université de Boumerdes, est destiné aux étudiants universitaires désireux de maîtriser les principes du Data Mining. Il propose une vue d'ensemble structurée des concepts fondamentaux.

Il couvre les notions suivantes:

Les tâches principales du Data Mining (méthodes prédictives et descriptives)
Les techniques spécifiques comme la classification, le partitionnement et la régression
La découverte de règles d'association et la détection d'anomalies
La méthodologie standard CRISP-DM pour les projets de fouille de données

Cours Data Mining Taches et Techniques

Télécharger PDF

Data Mining

Le Data Mining, ou l'exploration de données, est un processus visant à découvrir des modèles et des informations utiles à partir de grands ensembles de données. Il combine des techniques issues de l'apprentissage automatique, des statistiques et des systèmes de bases de données pour extraire des connaissances exploitables.

Les Tâches du Data Mining

Les tâches du Data Mining peuvent être divisées en deux grandes catégories : les méthodes prédictives et les méthodes descriptives.

Méthodes Prédictives (Apprentissage Supervisé)

Ces méthodes visent à prédire une valeur inconnue ou future d'un attribut spécifique en se basant sur les valeurs d'autres attributs. L'attribut à prédire est appelé "attribut cible" ou "variable dépendante".

Exemples : Détection de spam, détection d'intrusions dans un réseau.

Méthodes Descriptives (Apprentissage Non Supervisé)

Ces méthodes ont pour objectif de mettre en évidence des informations présentes mais cachées par le volume des données. Elles réduisent, résument et synthétisent les données sans qu'il y ait de variable cible à prédire.

Exemples : Segmentation de clientèle, recherche d'associations de produits sur les tickets de caisse.

Principales Tâches du Data Mining

Classification (parfois appelée segmentation en français) [prédictive]
Partitionnement (ou Clustering en anglais) [descriptive]
Découverte de règles d'association [descriptive]
Découverte de séquences [descriptive]
Régression [prédictive]
Détection d'anomalies [prédictive]

La Classification (Segmentation)

La classification est une tâche prédictive où la variable cible est catégorielle. Le but est de trouver un modèle capable de prédire la valeur de l'attribut cible en fonction des valeurs des autres attributs, attribuant ainsi une classe aussi précise que possible à des individus anonymes.

Exemple de données pour l'apprentissage d'un classifieur :

ID	Possède Maison	Statut Marital	Salaire	REMBOURSE
1	Oui	Célibat	125K	Non
2	Non	Marié	100K	Non
3	Non	Célibat	70K	Non
4	Oui	Marié	120K	Non
5	Non	Divorcé	95K	Oui
6	Non	Marié	60K	Non
7	Oui	Divorcé	220K	Non
8	Non	Célibat	85K	Oui
9	Non	Marié	75K	Non
10	Non	Célibat	90K	Oui

Prédictions du modèle :

Possède Maison	Statut Marital	Salaire	REMBOURSE (Prédit)
Non	Célibat	75K	?
Oui	Marié	50K	?
Non	Marié	150K	?
Oui	Divorcé	90K	?
Non	Célibat	40K	?
Non	Marié	80K	?

Classification : Application 1 - Marketing Direct

Objectif : Réduire les coûts du mailing en ciblant un ensemble de consommateurs susceptibles d'acheter un nouveau produit de téléphonie mobile.

Approche :

Utiliser les données d'un produit similaire introduit auparavant.
Connaître les clients ayant acheté le produit et ceux qui ne l'ont pas fait. Cette décision (acheter ou ne pas acheter) constitue les valeurs de l'attribut de la classe.
Collecter diverses informations sur ces clients (type d'entreprise, lieu de résidence, revenus, etc.) et les utiliser comme attributs d'entrée pour le modèle classificateur.

Classification : Application 2 - Détection de Fraude

Objectif : Prévoir les cas frauduleux dans les transactions par carte de crédit.

Approche :

Utiliser les transactions par carte de crédit et les informations sur les titulaires de compte comme attributs (habitudes d'achat, fréquences de paiement à temps, etc.).
Étiqueter les transactions passées comme frauduleuses ou légitimes pour former l'attribut de la classe.
Construire un modèle capable de prédire la classe des transactions (frauduleuse ou non) et l'utiliser pour détecter les fraudes en temps réel.

Classification : Application 3 - Attrition Client / Désabonnement

Objectif : Prédire si un client est susceptible d'être perdu (c'est-à-dire, de se tourner vers un concurrent).

Approche :

Utiliser des informations détaillées sur les transactions des clients passés et présents (fréquence et heure des appels, situation financière, état matrimonial, etc.).
Étiqueter les clients comme fidèles ou à risque de désabonnement.
Développer un modèle de fidélité.

Ces applications sont également pertinentes dans des secteurs comme la banque et les assurances.

Le Partitionnement (Clustering)

Étant donné un ensemble d'enregistrements (ou d'objets), chacun possédant un ensemble d'attributs, et une mesure de similarité entre eux, le partitionnement vise à trouver des groupes (clusters) tels que :

Les points de données au sein d'un même groupe sont plus semblables les uns aux autres.
Les points de données entre différents groupes sont distincts les uns des autres.

Mesures de Similarité

Distance euclidienne si les attributs sont continus.
Mesures spécifiques adaptées à d'autres types d'attributs.

Illustration : Classification basée sur la distance Euclidienne en 3 dimensions. Les distances intra-cluster sont minimisées, tandis que les distances inter-cluster sont maximisées.

Partitionnement (Clustering) : Application 1 - Segmentation du Marché

Objectif : Subdiviser un marché en sous-ensembles distincts de clients, dont un sous-ensemble peut être choisi comme marché cible.

Approche :

Collecter des attributs clients basés sur des informations géographiques, de style de vie, etc.
Identifier des groupes (clusters) de clients similaires.

Partitionnement (Clustering) : Application 2 - Classification des Documents

Objectif : Trouver des groupes de documents qui sont semblables les uns aux autres en fonction des termes importants qu'ils contiennent.

Approche :

Identifier les termes qui apparaissent fréquemment dans chaque document.
Établir une mesure de similarité basée sur les fréquences des différents termes et l'utiliser pour le clustering.

Gain : En recherche d'information, les clusters peuvent être utilisés pour affecter un nouveau document à une classe de documents existante.

Illustration : Mesure de Similarité : Nombre de mots communs dans les documents.

Données de classification : 3204 articles du Los Angeles Times.

Résultats :

Catégorie	Total des articles	Correctement Placés
Finance	555	364
International	341	260
National	273	36
Metro	943	746
Sports	738	573
Loisirs	354	278

Découverte de Règles d'Association

Étant donné une base de données de transactions, où chaque transaction contient un ensemble d'articles, le but est de trouver des règles de dépendance qui prédisent l'occurrence d'un article basée sur l'occurrence d'autres articles.

Exemple de transactions :

IDT	Articles (Items)
1	Pain, Soda, Lait
2	Jus, Pain
3	Jus, Soda, Biscuit, Lait
4	Jus, Pain, Biscuit, Lait
5	Soda, Biscuit, Lait

Règles découvertes :

{Lait} --> {Soda}
{Biscuit, Lait} --> {Jus}

Découverte de Règles d'Association : Gestion des Rayons de Supermarchés

Objectif : Identifier les articles qui sont achetés simultanément par un nombre suffisant de clients.

Approche : Traiter les données des points de vente collectées avec les scanners de codes à barres pour identifier les dépendances entre produits.

Exemple de règle classique : Si un client achète des couches pour bébé et du lait, il est très probable qu'il achète également une eau minérale spéciale. Il n'est donc pas surprenant de voir des packs d'eau empilés à côté des couches pour bébé dans les magasins.

Régression (Estimation et Prévision)

La régression consiste à prédire la valeur d'une variable continue en se basant sur les valeurs d'autres variables, en supposant un modèle linéaire ou non linéaire de la dépendance. C'est une technique largement étudiée en statistiques et en réseaux de neurones.

Exemples :

Prévoir les montants des ventes de nouveaux produits en fonction des dépenses publicitaires.
Prévoir la vitesse du vent en fonction de la température, de l'humidité, de la pression atmosphérique, etc.
Prévision de séries temporelles d'indices boursiers.

Détection d'Anomalies (Détection de Déviations)

Cette tâche vise à détecter les écarts significatifs par rapport au comportement normal.

Applications :

Détection de fraude par carte de crédit : Identification d'achats de quantités extrêmement importantes pour un compte donné, comparés aux achats réguliers effectués par le même compte. Les anomalies (valeurs extrêmes) peuvent aussi être détectées en fonction du lieu, du type d'achat ou de la fréquence d'achat.
Détection d'intrusion réseau : Identification d'activités réseau inhabituelles pouvant indiquer une tentative d'intrusion.

Les Techniques du Data Mining

Tâche	Nature	Techniques Associées
Classification (Segmentation)	Prédictive	Arbres de décision, Réseaux de neurones, Analyse discriminante, Régression logistique, SVM, etc.
Partitionnement (Clustering)	Descriptive	K-means, K-médoïdes, Méthodes hiérarchiques, Méthodes de partitionnement, Méthodes floues, etc.
Découverte de règles d'association	Descriptive	Apriori, Fp-Growth, etc.
Régression	Prédictive	Régression linéaire et non linéaire, Réseaux de neurones, etc.
Détection d'anomalies	Prédictive	SVM, Clustering, Méthodes statistiques, Arbres de décision, Réseaux de neurones, Régression logistique, etc.

La Méthodologie CRISP-DM

CRISP-DM (CRoss-Industry Standard Process for Data Mining) est une méthodologie standardisée et intersectorielle pour la conduite de projets de Data Mining. Elle est composée de six phases interconnectées, permettant une approche structurée et itérative.

Les Étapes de la Méthodologie CRISP-DM

Voici les six phases principales de la méthodologie CRISP-DM :

1. Phase de Compréhension Métier (Business Understanding)

Définir les objectifs globaux et les contraintes de l'entreprise.
Transformer ces objectifs et contraintes en une définition claire d'un problème de Data Mining.

2. Phase de Compréhension des Données (Data Understanding)

Recueillir les données initiales.
Réaliser une analyse exploratoire pour se familiariser avec les données.
Évaluer la qualité des données.

3. Phase de Préparation des Données (Data Preparation)

Convertir les données brutes en un ensemble de données final prêt pour l'analyse.
Sélectionner les données appropriées pour l'analyse.
Nettoyer les données (gestion des valeurs manquantes, des erreurs, etc.) pour les rendre utilisables par les outils de Data Mining.

4. Phase de Modélisation (Modeling)

Sélectionner et appliquer les techniques de Data Mining appropriées (classification, régression, clustering, etc.).
Si nécessaire, il est possible de revenir à la phase de préparation des données pour ajuster les données aux besoins spécifiques de la technique de modélisation choisie.

5. Phase d'Évaluation (Evaluation)

Évaluer les modèles construits pour s'assurer qu'ils répondent aux objectifs métier.
Comparer les résultats des modèles par rapport aux objectifs réels définis au début du projet.

6. Phase de Déploiement (Deployment)

Mettre en œuvre et utiliser le modèle créé dans un environnement opérationnel.
Cela peut inclure la génération de rapports, la mise en place d'un système de scoring automatisé ou l'intégration du modèle dans un processus décisionnel.

Foire Aux Questions (FAQ)

Qu'est-ce que le Data Mining ?

Le Data Mining est le processus d'extraction de modèles, de connaissances et d'informations utiles à partir de grands ensembles de données, en utilisant des techniques issues de l'apprentissage automatique, des statistiques et des bases de données.

Quelle est la différence entre les méthodes prédictives et descriptives en Data Mining ?

Les méthodes prédictives (apprentissage supervisé) visent à prédire une variable cible spécifique (par exemple, la classification ou la régression), tandis que les méthodes descriptives (apprentissage non supervisé) se concentrent sur la découverte de modèles et de structures cachées dans les données sans variable cible prédéfinie (par exemple, le partitionnement ou la découverte de règles d'association).

Pourquoi la méthodologie CRISP-DM est-elle importante pour les projets de Data Mining ?

La méthodologie CRISP-DM offre un cadre structuré et itératif pour la gestion de projets de Data Mining. Elle permet de s'assurer que les objectifs métier sont clairement définis, que les données sont correctement préparées, que les modèles sont pertinents et évalués, et que les résultats sont déployés efficacement, augmentant ainsi les chances de succès du projet.

Cours data mining taches et techniques pdf

Data Mining

Les Tâches du Data Mining

Méthodes Prédictives (Apprentissage Supervisé)

Méthodes Descriptives (Apprentissage Non Supervisé)

Principales Tâches du Data Mining

La Classification (Segmentation)

Classification : Application 1 - Marketing Direct

Classification : Application 2 - Détection de Fraude

Classification : Application 3 - Attrition Client / Désabonnement

Le Partitionnement (Clustering)

Mesures de Similarité

Partitionnement (Clustering) : Application 1 - Segmentation du Marché

Partitionnement (Clustering) : Application 2 - Classification des Documents

Découverte de Règles d'Association

Découverte de Règles d'Association : Gestion des Rayons de Supermarchés

Régression (Estimation et Prévision)

Détection d'Anomalies (Détection de Déviations)

Les Techniques du Data Mining

La Méthodologie CRISP-DM

Les Étapes de la Méthodologie CRISP-DM

1. Phase de Compréhension Métier (Business Understanding)

2. Phase de Compréhension des Données (Data Understanding)

3. Phase de Préparation des Données (Data Preparation)

4. Phase de Modélisation (Modeling)

5. Phase d'Évaluation (Evaluation)

6. Phase de Déploiement (Deployment)

Foire Aux Questions (FAQ)

Qu'est-ce que le Data Mining ?

Quelle est la différence entre les méthodes prédictives et descriptives en Data Mining ?

Pourquoi la méthodologie CRISP-DM est-elle importante pour les projets de Data Mining ?

Cela peut vous intéresser :

نموذج الاتصال