Examen data mining 2011 2012 pdf

Ce document académique s'adresse aux étudiants de Master II en Informatique, suivant le module de Data Mining à l'Université M'hamed Bougara de Boumerdès (UMBBoumerdes). Il présente un examen visant à évaluer la maîtrise des techniques fondamentales d'exploration de données.

Les notions abordées incluent principalement :

  • L'extraction de règles d'association et d'ensembles d'éléments fréquents.
  • L'Analyse en Composantes Principales (ACP) normée et son interprétation.

Cette ressource est conçue pour renforcer les connaissances pratiques et théoriques en Data Mining.

Examen data mining 2011 2012 pdf

Examen Data Mining

Télécharger PDF

Examen de Data Mining et Analyse en Composantes Principales

Ce document présente des exercices fondamentaux en Data Mining, incluant la découverte de règles d'association et l'Analyse en Composantes Principales (ACP).

Exercice 01 : Règles d'Association pour la Vente en Ligne

Le site web Amazon est une plateforme majeure de vente en ligne. Une de ses fonctionnalités clés est la suggestion de livres fréquemment achetés ensemble avec le livre recherché par l'utilisateur. Cette capacité repose sur des techniques avancées de Data Mining pour identifier les habitudes d'achat des consommateurs.

Questions

  1. Quelle est la tâche de Data Mining la plus appropriée utilisée pour nous livrer cette information ?

    La tâche de Data Mining la plus pertinente pour identifier les livres fréquemment achetés ensemble est la découverte des règles d'association. Cette méthode permet de détecter des relations significatives (co-occurrences) entre les éléments dans de grands ensembles de données transactionnelles, comme des paniers d'achat.

  2. Sur la base des transactions portant sur les achats de livres, extraire tous les ensembles de livres fréquemment achetés ensemble (min_sup = 2 ou 2/9, min_conf = 70%).

    Voici les données transactionnelles concernant les achats de livres :

    Transaction Livres
    T1L1, L5
    T2L2, L4
    T3L2, L3
    T4L1, L2, L4
    T5L1, L3
    T6L2, L3
    T7L1, L3, L5
    T8L1, L2
    T9L1, L2

    Pour répondre à cette question, il faudrait appliquer un algorithme de règles d'association (tel qu'Apriori) afin d'identifier les ensembles d'articles (itemsets) fréquents qui respectent le seuil de support minimal, puis en déduire les règles d'association fortes respectant le seuil de confiance minimal.

  3. Déduire les règles d'association fortes composées d'un seul livre comme antécédent.

    Il s'agit d'identifier les règles d'association où la prémisse (l'antécédent) est un unique livre. Par exemple, une règle forte pourrait être {Livre A} => {Livre B, Livre C}, indiquant que l'achat du Livre A est fortement corrélé à l'achat des Livres B et C.

Exercice 02 : Analyse en Composantes Principales (ACP) des Universités

Cet exercice se concentre sur l'exploration de données concernant une population de 20 universités (Uᵢ, pour i=1,...,20). Chaque université est caractérisée par sept variables distinctes (Xⱼ, pour j=1,...,7).

Description des Caractéristiques (Variables) des Universités :

  • X₁ : NPUB (Nombre de publications scientifiques)
  • X₂ : TREU (Taux de réussite)
  • X₃ : TABS (Taux d'absence)
  • X₄ : NLAB (Nombre de laboratoires)
  • X₅ : NENS (Nombre d'enseignants)
  • X₆ : NETU (Nombre d'étudiants en milliers)
  • X₇ : NREV (Nombre de brevets)

L'application d'une Analyse en Composantes Principales (ACP) normée sur ces données a permis d'obtenir les résultats suivants :

  • a) Valeurs propres : Les quatre valeurs propres les plus importantes sont : λ₁ = 4.157 ; λ₂ = 1.88 ; λ₃ = 0.594 ; λ₄ = 0.204. Ces valeurs quantifient la quantité de variance expliquée par chaque axe principal.
  • b) Coordonnées des individus et variables : Les tableaux ci-dessous détaillent les coordonnées des universités et des variables sur les deux premiers axes factoriels.

Tableau 1 : Coordonnées des projections des individus (universités) sur les deux premiers axes

Université F1(i) (Axe 1) F2(i) (Axe 2)
U₁-0.8471.407
U₂0.609-0.148
U₃-0.6190.153
U₄-0.8050.362
U₅0.060-2.124
U₆-1.1800.533
U₈-0.206-0.470
U₁₀0.4180.360
U₁₁0.3910.741
U₁₂0.624-2.268
U₁₄0.366-0.124
U₁₅0.4670.224
U₁₇0.1170.945
U₁₈-0.530-0.807
U₁₉-0.7370.251
U₂₀-0.448-0.233

Tableau 2 : Coordonnées des variables sur les 2 premiers axes

Variable Axe 1 Axe 2
X₁0.96-0.10
X₂-0.150.85
X₃0.650.23
X₄0.96-0.10
X₅0.850.40
X₆0.10-0.90
X₇0.96-0.40

Questions

  1. Pourquoi l'ACP normée a-t-elle été utilisée pour cette étude ?

    L'ACP normée est employée lorsque les variables d'étude possèdent des unités de mesure ou des échelles différentes. La normalisation (centrage et réduction) des données avant l'analyse garantit que toutes les variables contribuent équitablement à la formation des axes principaux, évitant ainsi que les variables avec de plus grandes variances ne dominent l'analyse de manière disproportionnée.

  2. Décrire la matrice à diagonaliser R pour cette analyse.

    Dans le cadre d'une ACP normée, la matrice à diagonaliser R est la matrice de corrélation des variables. Elle contient les coefficients de corrélation linéaire de Pearson entre chaque paire de variables, reflétant ainsi la force et la direction de leurs relations.

  3. Retrouver les deux premiers vecteurs propres de R.

    Cette question demande d'identifier les deux premiers vecteurs propres de la matrice de corrélation R. Ces vecteurs, associés aux valeurs propres λ₁ et λ₂, représentent les directions des deux axes principaux qui maximisent la variance expliquée des données.

  4. Combien de facteurs faut-il pour récupérer au moins 94% de l'information initiale ?

    Pour déterminer le nombre de facteurs (composantes principales) nécessaires pour expliquer au moins 94% de la variance totale, il faut calculer la proportion de variance expliquée par chaque axe (valeur propre / somme des valeurs propres) et les additionner cumulativement jusqu'à atteindre ou dépasser le seuil de 94%.

  5. Quelles sont les variables les mieux représentées par le plan factoriel (Axe 1, Axe 2) ?

    Les variables les mieux représentées par le plan factoriel formé par l'Axe 1 et l'Axe 2 sont celles dont la somme des carrés des coordonnées sur ces deux axes (appelés cosinus carrés ou qualités de représentation) est la plus élevée. Une forte valeur indique une bonne corrélation de la variable avec le plan.

  6. Quelles sont les six universités ayant le plus contribué à l'inertie de l'axe 1 ?

    Les universités qui ont le plus contribué à l'inertie de l'axe 1 sont celles dont les valeurs absolues des coordonnées sur cet axe (F1(i) dans le Tableau 1) sont les plus grandes. Une contribution élevée signifie que ces universités jouent un rôle prépondérant dans la définition de la direction de l'axe 1.

  7. Faire une représentation simultanée des variables et des universités sur le 1er plan factoriel.

    Il s'agit de créer un biplot, un graphique qui superpose la projection des individus (universités) et des variables (sous forme de vecteurs) sur le même plan factoriel (Axe 1 et Axe 2). Cela permet de visualiser les relations entre les universités, entre les variables, et entre les universités et les variables.

  8. Faire une interprétation des informations extraites par le plan factoriel d'inertie maximum.

    L'interprétation consiste à donner un sens aux axes principaux et à analyser la position des individus et des variables sur ce plan. On cherche à identifier les variables fortement corrélées à chaque axe pour en déterminer la signification (par exemple, un axe peut représenter "la performance en recherche" si les variables NPUB, NLAB, NREV y sont fortement associées). On observe ensuite comment les universités se regroupent ou se positionnent par rapport à ces axes pour dégager des profils distincts.

Foire Aux Questions (FAQ) sur le Data Mining et l'ACP

Qu'est-ce qu'une règle d'association en Data Mining ?

Une règle d'association est une expression de la forme "SI {antécédent} ALORS {conséquent}", qui décrit une relation entre des ensembles d'éléments dans un jeu de données. Elle est utilisée pour identifier des co-occurrences fréquentes, comme la découverte que les clients qui achètent des couches achètent aussi souvent de la bière.

Pourquoi l'Analyse en Composantes Principales (ACP) est-elle utile ?

L'ACP est une technique de réduction de dimensionnalité qui transforme un ensemble de variables corrélées en un ensemble plus petit de nouvelles variables non corrélées, appelées composantes principales. Son utilité principale est de simplifier des données complexes, de visualiser des motifs multidimensionnels et de préparer les données pour d'autres analyses en éliminant la redondance.

Comment choisir le nombre de composantes principales à retenir dans une ACP ?

Plusieurs critères peuvent être utilisés pour choisir le nombre de composantes principales, notamment le critère de Kaiser (retenir les axes dont la valeur propre est supérieure à 1), le scree plot (graphique des valeurs propres où l'on cherche un "coude"), et le pourcentage de variance cumulée expliquée (retenir un nombre d'axes suffisant pour expliquer un pourcentage significatif de la variance totale, souvent 70-90%).

Cela peut vous intéresser :

Partagez vos remarques, questions , propositions d'amélioration ou d'autres cours à ajouter dans notre site

Enregistrer un commentaire (0)
Plus récente Plus ancienne