Ce document pédagogique est destiné aux étudiants universitaires du Département d'Informatique et contient une série d'exercices conçus pour approfondir les connaissances en exploration de données et en régression linéaire. Il vise à renforcer la compréhension des concepts clés et l'application pratique des méthodes d'analyse de données. Les étudiants seront invités à résoudre des problèmes variés, allant de l'identification des tâches de Data Mining à l'estimation de modèles statistiques.
Il couvre les notions suivantes :
- Les fondements et concepts du Data Mining
- Les règles d'association et l'algorithme Apriori
- La méthode des moindres carrés et la régression linéaire
SERIE D'EXERCICES N° 01 Data Mining pdf
Télécharger PDFUniversité M'hamed Bouguara de Boumerdès - Faculté des Sciences - Département d'Informatique
Séries d'Exercices : Exploration de Données et Régression Linéaire
Série d'Exercices N° 01 : Fondamentaux de l'Exploration de Données
Exercice 01 : Identification des Tâches de Data Mining
Discutez si chacune des activités suivantes est une tâche d'exploration de données (Data Mining) ou non :
-
Répartir les clients d'une entreprise en fonction de leur état civil (marié, etc.).
Réponse : Non. Il s'agit d'une simple agrégation ou requête de base de données. Il n'y a pas de découverte de motifs ni de prédiction.
-
Diviser les clients d'une entreprise en fonction de leur rentabilité.
Réponse : Oui, potentiellement. Cela peut être une tâche de segmentation (clustering) ou de classification si des classes de rentabilité prédéfinies existent, visant à découvrir des groupes de clients ou à prédire la rentabilité future.
-
Calcul des ventes totales d'une entreprise.
Réponse : Non. Il s'agit d'une simple agrégation de données, ne révélant pas de motifs cachés ni de connaissances nouvelles.
-
Une base de données des étudiants triée sur la base des numéros d'identification.
Réponse : Non. C'est une opération de tri basique sur une base de données, pas une tâche d'exploration de données.
-
Prévoir le résultat du jet d'une paire de dés équitables.
Réponse : Non. Les dés équitables sont des événements purement aléatoires et indépendants. L'exploration de données est inefficace pour prévoir des événements sans modèles sous-jacents.
-
Prévoir le prix des actions d'une entreprise dans le futur à l'aide de l'historique des données.
Réponse : Oui. Il s'agit d'une tâche de prédiction ou de régression, cherchant à identifier des modèles dans les données historiques pour anticiper les valeurs futures. C'est une application courante du Data Mining.
-
Contrôler la fréquence (le rythme) cardiaque d'un patient pour des anomalies.
Réponse : Oui. C'est une tâche de détection d'anomalies, visant à identifier des comportements inhabituels ou des valeurs aberrantes qui pourraient indiquer un problème de santé.
-
Contrôler (surveiller) les ondes sismiques pour les activités de tremblement de terre.
Réponse : Oui. C'est une tâche de détection d'anomalies ou de modélisation prédictive, cherchant à identifier des motifs ou des changements dans les données sismiques.
-
Calculer les fréquences d'une onde sonore.
Réponse : Non. Il s'agit d'une analyse de signal ou de traitement numérique, pas de l'exploration de données au sens de la découverte de connaissances à partir de grands ensembles de données hétérogènes.
Exercice 02 : Classification des Attributs
Classez chacun des attributs suivants comme binaire, discret ou continu. Classez-les également comme qualitatif (nominal ou ordinal) ou quantitatif (intervalle ou ratio). Certains cas peuvent avoir plus d'une interprétation.
Exemple : âge en années. Réponse : discret, quantitatif, ratio.
-
Le temps en termes de AM ou PM.
Réponse : Binaire, qualitatif, nominal.
-
La luminosité mesurée par un photomètre.
Réponse : Continu, quantitatif, ratio (peut inclure 0, les différences et ratios sont significatifs).
-
La luminosité mesurée par les jugements des gens (ex: faible, moyenne, forte).
Réponse : Discret, qualitatif, ordinal (il y a un ordre, mais les différences ne sont pas quantifiables).
-
Angles mesurés en degrés entre 0 et 360.
Réponse : Continu, quantitatif, intervalle (les différences sont significatives, mais 0 n'est pas un point de départ absolu pour "absence d'angle" et 360 est le même que 0 dans un contexte cyclique).
-
Les médailles de Bronze, d'argent et d'or telles que décernées lors des Jeux olympiques.
Réponse : Discret, qualitatif, ordinal (il y a un classement clair).
-
Hauteur au-dessus du niveau de la mer.
Réponse : Continu, quantitatif, intervalle (le niveau de la mer est un point de référence arbitraire, 0 ne signifie pas "absence de hauteur").
-
Nombre de patients dans un hôpital.
Réponse : Discret, quantitatif, ratio (le compte peut être zéro, les ratios et les différences sont significatifs).
-
Les numéros ISBN (International Standard Book Number) pour les livres.
Réponse : Discret, qualitatif, nominal (ce sont des identifiants, pas des mesures ; l'ordre ou les différences n'ont pas de sens).
-
La capacité à laisser passer la lumière en termes des valeurs suivantes : opaque, translucide, transparent.
Réponse : Discret, qualitatif, ordinal (il y a un ordre croissant de transparence).
-
Un grade militaire.
Réponse : Discret, qualitatif, ordinal (il y a une hiérarchie claire).
-
La distance du centre du campus.
Réponse : Continu, quantitatif, ratio (0 signifie aucune distance, les ratios et les différences sont significatifs).
-
Densité d'une substance en grammes par centimètre cube.
Réponse : Continu, quantitatif, ratio (0 signifie absence de masse dans un volume donné, les ratios sont significatifs).
-
Le numéro de vestiaire.
Réponse : Discret, qualitatif, nominal (c'est un identifiant, pas une mesure).
Exercice 03 : Identification des Tâches d'Exploration de Données
Déterminez quelle tâche d'exploration de données (Data Mining) a permis d'extraire et de découvrir les modèles suivants :
-
Les personnes ayant moins de 25 ans et le salaire > 40K conduisent des voitures de sport.
Tâche : Règles d'Association ou Caractérisation (analyse descriptive de segments de clientèle).
-
Ensemble des images qui contiennent une voiture comme un objet.
Tâche : Classification ou Reconnaissance d'objets (une sous-tâche de l'apprentissage supervisé).
-
80% des images contenant une voiture comme un objet contiennent aussi un ciel bleu.
Tâche : Règles d'Association (découverte de motifs fréquents de co-occurrence).
-
98% des personnes qui achètent des couches achètent aussi de la nourriture pour bébés.
Tâche : Règles d'Association (analyse du panier de la ménagère).
-
Des abonnés de téléphone de domicile pour une société de télécommunications, avec une activité commerciale à la maison.
Tâche : Classification (prédire si un abonné a une activité commerciale) ou Clustering (segmenter les abonnés en groupes ayant ou non une activité commerciale).
-
Des radiographies numériques des poumons, avec des taches suspectes.
Tâche : Détection d'Anomalies ou Classification (si les taches sont déjà labellisées comme suspectes).
Série d'Exercices N° 02 : Règles d'Association et Algorithme Apriori
Exercice 01 : Exemples de Règles d'Association
Pour chacune des questions suivantes, donnez un exemple d'une règle d'association du domaine du panier de la ménagère satisfaisant les conditions données, et décrivez si de telles règles seraient intéressantes.
-
Une règle qui a un support élevé et une confiance élevée.
Exemple : {Lait} → {Pain}. Cela signifie que de nombreux clients achètent du lait et du pain ensemble, et que la grande majorité de ceux qui achètent du lait achètent aussi du pain.
Intérêt : Oui, très intéressante. Cette règle indique une forte co-occurrence et une dépendance fiable, utile pour le placement en magasin, les promotions groupées ou les recommandations de produits.
-
Une règle qui a un support raisonnablement élevé mais une faible confiance.
Exemple : {Céréales} → {Jus d'orange}. Cela signifie que beaucoup de gens achètent des céréales et du jus d'orange ensemble, mais que seulement un petit pourcentage de ceux qui achètent des céréales achètent aussi du jus d'orange.
Intérêt : Moins intéressante seule pour des recommandations directes. Le support élevé suggère une fréquence, mais la faible confiance indique que la relation de cause à effet (ou de co-achat) est faible. Peut être utilisée pour identifier des produits souvent achetés ensemble mais sans forte dépendance directionnelle.
-
Une règle qui a un faible support et une faible confiance.
Exemple : {Caviar} → {Champagne millésimé}. Cela signifie que très peu de clients achètent du caviar, et parmi eux, une petite partie seulement achète du champagne millésimé.
Intérêt : Généralement non intéressante. Indique une relation rare et peu fiable, souvent considérée comme du "bruit" dans les données, à moins qu'elle ne révèle un segment de marché de niche très spécifique où même de faibles fréquences sont significatives.
-
Une règle qui a un faible support et une confiance élevée.
Exemple : {Peluche de collection rare} → {Certificat d'authenticité}. Cela signifie que très peu de clients achètent cette peluche spécifique, mais presque tous ceux qui l'achètent prennent aussi le certificat d'authenticité.
Intérêt : Oui, potentiellement très intéressante. Un faible support peut cacher une règle très forte pour un groupe de niche. Elle est précieuse pour des recommandations très spécifiques ou pour comprendre des comportements d'achat spécialisés, même si la base de clients est petite.
Exercice 02 : Calcul du Support et de la Confiance
Considérons l'ensemble des données des transactions du panier de la ménagère suivant :
| ID Client | ID Transaction | Articles (Items) achetés |
|---|---|---|
| 1 | 0001 | {a, d, e} |
| 1 | 0024 | {a, b, c, e} |
| 1 | 0012 | {a, b, d, e} |
| 1 | 0031 | {a, c, d, e} |
| 2 | 0015 | {b, c, e} |
| 2 | 0022 | {b, d, e} |
| 2 | 0029 | {c, d} |
| 3 | 0040 | {a, b, c} |
| 3 | 0033 | {a, d, e} |
| 3 | 0038 | {a, b, e} |
-
Calculer le support des itemsets {e}, {b, d} et {b, d, e} en traitant chaque transaction comme un panier de la ménagère.
Nombre total de transactions (N) = 10.
- Support({e}) = Nombre de transactions contenant {e} / N = 8 / 10 = 0.8 (transactions 0001, 0024, 0012, 0031, 0015, 0022, 0033, 0038)
- Support({b, d}) = Nombre de transactions contenant {b, d} / N = 2 / 10 = 0.2 (transactions 0012, 0022)
- Support({b, d, e}) = Nombre de transactions contenant {b, d, e} / N = 2 / 10 = 0.2 (transactions 0012, 0022)
-
Utiliser les résultats de la partie (a) pour calculer la confiance pour les règles d'association {b, d} → {e} et {e} → {b, d}. La mesure de confiance est-elle symétrique ?
- Confiance({b, d} → {e}) = Support({b, d, e}) / Support({b, d}) = 0.2 / 0.2 = 1.0 (ou 100%)
- Confiance({e} → {b, d}) = Support({b, d, e}) / Support({e}) = 0.2 / 0.8 = 0.25 (ou 25%)
La mesure de confiance n'est pas symétrique, car la probabilité de B sachant A n'est généralement pas égale à la probabilité de A sachant B.
-
Répéter la partie (a) en traitant chaque client comme un panier de la ménagère. Chaque article (ou item) devrait être traité comme une variable binaire (1 si un item apparaît dans au moins une transaction achetée par le client, et 0 sinon).
D'abord, déterminons l'ensemble des articles achetés par chaque client :
- Client 1 : {a, d, e, b, c} (union des transactions 0001, 0024, 0012, 0031)
- Client 2 : {b, c, e, d} (union des transactions 0015, 0022, 0029)
- Client 3 : {a, b, c, d, e} (union des transactions 0040, 0033, 0038)
Nombre total de clients (N') = 3.
- Support({e}) = Nombre de clients ayant acheté {e} / N' = 3 / 3 = 1.0 (clients 1, 2, 3)
- Support({b, d}) = Nombre de clients ayant acheté {b, d} / N' = 2 / 3 ≈ 0.67 (clients 1, 2)
- Support({b, d, e}) = Nombre de clients ayant acheté {b, d, e} / N' = 2 / 3 ≈ 0.67 (clients 1, 2)
-
Utiliser les résultats de la partie (c) pour calculer la confiance pour les règles d'association {b, d} → {e} et {e} → {b, d}.
- Confiance({b, d} → {e}) = Support_client({b, d, e}) / Support_client({b, d}) = (2/3) / (2/3) = 1.0 (ou 100%)
- Confiance({e} → {b, d}) = Support_client({b, d, e}) / Support_client({e}) = (2/3) / 1.0 = 2/3 ≈ 0.67 (ou 67%)
-
Supposons s1 et c1 sont les valeurs de support et de confiance d'une règle d'association r quand chaque transaction est traitée comme un panier de la ménagère. Aussi, soit s2 et c2 les valeurs de support et de confiance de r quand chaque client est traité comme un panier de la ménagère. Discuter s'il existe des relations entre s1 et s2 ou c1 et c2.
Il n'y a pas de relation directe ou simple qui permettrait de déduire s1 de s2, ni c1 de c2, ou vice-versa. Les valeurs dépendent fondamentalement de la définition du "panier de la ménagère" :
- s1 (support par transaction) mesure la fréquence d'une règle au niveau des achats individuels.
- s2 (support par client) mesure la fréquence d'une règle au niveau des clients uniques, indiquant combien de clients ont acheté les items de la règle au moins une fois.
Ces deux mesures répondent à des questions différentes et peuvent varier significativement. S2 (support client) sera généralement supérieur ou égal à s1 (support transaction) car un client peut effectuer plusieurs transactions contenant les mêmes articles. De même, les confiances c1 et c2 peuvent différer car elles sont calculées sur des définitions différentes de l'ensemble de "panier". Le choix de l'unité d'analyse (transaction vs. client) dépend de l'objectif spécifique de l'analyse du comportement d'achat.
Exercice 03 : Nombre de Règles d'Association Possibles
Montrez que le nombre total de règles d'associations possibles qui peuvent être extraites d'un ensemble de données contenant d items (articles) est : R = 3d - 2d+1 + 1.
Suggestion : Tout d'abord, comptez le nombre de façons de créer un itemset qui forme le côté gauche (antécédent) de la règle. Ensuite, pour chaque itemset de taille k sélectionné pour le côté gauche, comptez le nombre de façons de choisir les (d-k) items pour former le côté droit (conséquent) de la règle.
Explication détaillée :
Pour chaque item parmi les d disponibles, il existe trois possibilités lors de la formation d'une règle d'association A → B (où A et B sont des itemsets disjoints) :
- L'item appartient à l'antécédent (A).
- L'item appartient au conséquent (B).
- L'item n'appartient ni à A ni à B.
Cela donne un total de 3d combinaisons possibles d'affectations pour les d items. Cependant, une règle d'association valide doit avoir un antécédent non vide et un conséquent non vide. Nous devons donc soustraire les cas où l'antécédent ou le conséquent sont vides :
- Nombre de cas où l'antécédent est vide : Chaque item peut être dans le conséquent ou ne pas être dans la règle. Il y a
2dde ces combinaisons. - Nombre de cas où le conséquent est vide : Chaque item peut être dans l'antécédent ou ne pas être dans la règle. Il y a
2dde ces combinaisons.
Le cas où l'antécédent ET le conséquent sont vides (c'est-à-dire aucun item n'est dans la règle) est compté dans les deux exclusions ci-dessus. Il n'y a qu'un seul tel cas. En utilisant le principe d'inclusion-exclusion, le nombre de cas à soustraire est (2d + 2d - 1).
Ainsi, le nombre total de règles d'association valides (avec antécédent et conséquent non vides) est :R = 3d - (2d + 2d - 1) = 3d - 2 * 2d + 1 = 3d - 2d+1 + 1.
Exercice 04 : Analyse de Transactions
Considérons les transactions du panier de la ménagère montrées dans la table suivante :
| ID de la transaction | Articles achetés |
|---|---|
| 1 | {lait, soda, couches} |
| 2 | {pain, beurre, lait} |
| 3 | {lait, couches, cookies} |
| 4 | {pain, beurre, cookies} |
| 5 | {soda, cookies, couches} |
| 6 | {lait, couches, pain, beurre} |
| 7 | {pain, beurre, couches} |
| 8 | {soda, couches} |
| 9 | {lait, couches, pain, beurre} |
| 10 | {soda, cookies} |
Il y a un total de 10 transactions. Les items uniques dans cet ensemble de données sont : {lait, soda, couches, pain, beurre, cookies}. Donc, le nombre total d'items distincts d = 6.
-
Quel est le nombre maximum de règles d'association qui peuvent être extraites de ces données (incluant les règles qui ont un support nul) ?
En utilisant la formule de l'exercice précédent avec d = 6 :
R = 36 - 26+1 + 1 = 729 - 27 + 1 = 729 - 128 + 1 = 602règles d'association possibles. -
Quelle est la taille maximum des itemsets fréquents qui peuvent être extraits (en supposant minsup > 0) ?
Un itemset fréquent avec minsup > 0 doit apparaître au moins une fois. L'itemset le plus grand qui apparaît dans au moins une transaction est {lait, couches, pain, beurre} (présent dans les transactions 6 et 9). Sa taille est de 4 items. Par conséquent, la taille maximale des itemsets fréquents est 4.
-
Écrire l'expression du nombre maximum des itemsets de taille 3 pouvant être extraits de cet ensemble de données.
Le nombre total d'items distincts est 6. Le nombre maximum d'itemsets de taille 3 est le nombre de combinaisons de 3 items choisis parmi ces 6 items, donné par la formule des combinaisons C(n, k) :
C(6, 3) = 6! / (3! * (6-3)!) = (6 * 5 * 4) / (3 * 2 * 1) = 20itemsets de taille 3 possibles. -
Trouver un itemset (de taille 2 ou plus) ayant le support le plus élevé.
Calculons le support des itemsets de taille 1 et 2 pour identification :
- Support({lait}) = 5/10 = 0.5 (Tx 1, 2, 3, 6, 9)
- Support({soda}) = 3/10 = 0.3 (Tx 1, 5, 8, 10)
- Support({couches}) = 7/10 = 0.7 (Tx 1, 3, 5, 6, 7, 8, 9)
- Support({pain}) = 5/10 = 0.5 (Tx 2, 4, 6, 7, 9)
- Support({beurre}) = 4/10 = 0.4 (Tx 2, 4, 6, 7)
- Support({cookies}) = 4/10 = 0.4 (Tx 3, 4, 5, 10)
Pour les itemsets de taille 2 ou plus :
- Support({lait, couches}) = 4/10 = 0.4 (Tx 1, 3, 6, 9)
- Support({pain, beurre}) = 4/10 = 0.4 (Tx 2, 4, 6, 7)
- Support({soda, couches}) = 3/10 = 0.3 (Tx 1, 5, 8)
- Support({couches, pain}) = 3/10 = 0.3 (Tx 6, 7, 9)
- Support({lait, pain}) = 3/10 = 0.3 (Tx 2, 6, 9)
- Support({pain, beurre, couches}) = 3/10 = 0.3 (Tx 6, 7, 9)
L'itemset (de taille 2 ou plus) ayant le support le plus élevé est {lait, couches} avec un support de 0.4 (ou {pain, beurre} avec un support de 0.4).
-
Trouver une paire d'items, a et b, tels que les règles {a} → {b} et {b} → {a} ont la même confiance.
Pour que Conf({a} → {b}) = Conf({b} → {a}), il faut que :
Support({a, b}) / Support({a}) = Support({a, b}) / Support({b})Si Support({a, b}) > 0, cette égalité implique que
Support({a}) = Support({b}). Nous devons donc trouver deux items qui ont le même support.D'après les calculs précédents :
- Support({lait}) = 0.5
- Support({pain}) = 0.5
- Support({soda}) = 0.3
- Support({beurre}) = 0.4
- Support({cookies}) = 0.4
Plusieurs paires satisfont cette condition :
- a = {lait}, b = {pain} (Support = 0.5 pour les deux)
- a = {beurre}, b = {cookies} (Support = 0.4 pour les deux)
Prenons par exemple a = {lait} et b = {pain}.
- Support({lait, pain}) = 3/10 = 0.3
- Confiance({lait} → {pain}) = Support({lait, pain}) / Support({lait}) = 0.3 / 0.5 = 0.6
- Confiance({pain} → {lait}) = Support({lait, pain}) / Support({pain}) = 0.3 / 0.5 = 0.6
Donc, {lait} et {pain} est une paire valide.
Exercice 05 : Génération et Élagage de Candidats Apriori
Considérons l'ensemble des 3-itemsets fréquents (L3) : {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 3, 4}, {1, 3, 5}, {2, 3, 4}, {2, 3, 5}, {3, 4, 5}. Supposons qu'il y a seulement cinq items dans l'ensemble des données : {1, 2, 3, 4, 5}.
-
Lister tous les 4-itemsets candidats (C4) obtenus par la procédure de génération d'itemsets candidats de l'algorithme Apriori.
La procédure de jointure d'Apriori (Fk-1 x Fk-1) pour générer des candidats de taille k (ici k=4) à partir de (k-1)-itemsets fréquents (ici 3-itemsets, L3) combine deux itemsets fréquents si leurs k-2 (ici 2) premiers éléments sont identiques et leur dernier élément est différent et ordonné.
Les 3-itemsets fréquents sont : L3 = {{1,2,3}, {1,2,4}, {1,2,5}, {1,3,4}, {1,3,5}, {2,3,4}, {2,3,5}, {3,4,5}}
Jointure (L3 x L3) :
- {1,2,3} et {1,2,4} → {1,2,3,4}
- {1,2,3} et {1,2,5} → {1,2,3,5}
- {1,2,4} et {1,2,5} → {1,2,4,5}
- {1,3,4} et {1,3,5} → {1,3,4,5}
- {2,3,4} et {2,3,5} → {2,3,4,5}
Les 4-itemsets candidats générés sont : C4 = {{1,2,3,4}, {1,2,3,5}, {1,2,4,5}, {1,3,4,5}, {2,3,4,5}}.
-
Lister tous les 4-itemsets candidats qui survivront à l'étape d'élagage des candidats de l'algorithme Apriori.
L'étape d'élagage (pruning) vérifie si tous les sous-ensembles de taille k-1 (ici 3) de chaque candidat de C4 sont présents dans l'ensemble des itemsets fréquents de taille k-1 (ici L3).
- Candidat {1,2,3,4} : Ses sous-ensembles de taille 3 sont : {1,2,3}, {1,2,4}, {1,3,4}, {2,3,4}. Tous ces sous-ensembles sont présents dans L3. Ce candidat survit à l'élagage.
- Candidat {1,2,3,5} : Ses sous-ensembles de taille 3 sont : {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5}. Tous ces sous-ensembles sont présents dans L3. Ce candidat survit à l'élagage.
- Candidat {1,2,4,5} : Ses sous-ensembles de taille 3 sont : {1,2,4}, {1,2,5}, {1,4,5}, {2,4,5}. Les itemsets {1,4,5} et {2,4,5} ne sont PAS présents dans L3. Ce candidat est élagué.
- Candidat {1,3,4,5} : Ses sous-ensembles de taille 3 sont : {1,3,4}, {1,3,5}, {1,4,5}, {3,4,5}. L'itemset {1,4,5} n'est PAS présent dans L3. Ce candidat est élagué.
- Candidat {2,3,4,5} : Ses sous-ensembles de taille 3 sont : {2,3,4}, {2,3,5}, {2,4,5}, {3,4,5}. L'itemset {2,4,5} n'est PAS présent dans L3. Ce candidat est élagué.
Les 4-itemsets candidats qui survivent à l'étape d'élagage sont : {{1,2,3,4}, {1,2,3,5}}.
Exercice 06 : Extraction de Règles d'Association Fortes avec Apriori
Soient les données transactionnelles de la table suivante :
| IDT | Items |
|---|---|
| 1 | {13, 15, 14} |
| 2 | {11, 16, 14} |
| 3 | {14, 17, 12, 16} |
| 4 | {15, 14, 17, 12} |
| 5 | {12, 11, 13} |
| 6 | {16, 11, 12, 17} |
| 7 | {17, 14} |
| 8 | {13, 17, 15} |
| 9 | {16, 11, 12} |
| 10 | {12, 14} |
| 11 | {15, 13, 12, 16} |
| 12 | {11, 12, 16} |
| 13 | {16, 14, 11, 12} |
| 14 | {14, 15, 17, 12, 13} |
Extrayez toutes les règles d'association fortes (minsup = 4/14 ≈ 28.57%, minconf = 60%) à l'aide de l'algorithme Apriori.
Méthodologie pour la résolution :
L'algorithme Apriori procède par passes successives pour trouver les itemsets fréquents, puis pour générer les règles d'association fortes.
-
Étape 1 : Générer les 1-itemsets fréquents (L1).
Calculer la fréquence (support) de chaque item unique dans les 14 transactions et retenir ceux dont le support est supérieur ou égal au
minsup = 4/14.- Item 11: Apparaît dans Tx 2, 5, 6, 9, 12, 13 (6 fois). Support = 6/14.
- Item 12: Apparaît dans Tx 3, 4, 5, 6, 9, 10, 11, 12, 13, 14 (10 fois). Support = 10/14.
- Item 13: Apparaît dans Tx 1, 5, 8, 11, 14 (5 fois). Support = 5/14.
- Item 14: Apparaît dans Tx 1, 2, 3, 4, 7, 10, 13, 14 (8 fois). Support = 8/14.
- Item 15: Apparaît dans Tx 1, 4, 8, 11, 14 (5 fois). Support = 5/14.
- Item 16: Apparaît dans Tx 2, 3, 6, 9, 11, 12, 13 (7 fois). Support = 7/14.
- Item 17: Apparaît dans Tx 3, 4, 6, 7, 8, 14 (6 fois). Support = 6/14.
Tous les items ont un support >= 4/14. Donc L1 = {{11}, {12}, {13}, {14}, {15}, {16}, {17}}.
-
Étape 2 : Générer les 2-itemsets candidats (C2) et fréquents (L2).
Former toutes les paires d'items de L1. Calculer le support de chaque paire. Éliminer celles dont le support est inférieur à 4/14.
- Exemple : {11, 12} apparaît 5 fois (Tx 5, 6, 9, 12, 13). Support = 5/14. C'est un itemset fréquent.
- Exemple : {11, 14} apparaît 2 fois (Tx 2, 13). Support = 2/14. Ce n'est pas un itemset fréquent (2/14 < 4/14).
- Un calcul complet générerait L2.
-
Étapes ultérieures : Générer les 3-itemsets candidats (C3) et fréquents (L3), etc.
Continuer ce processus d'Apriori (jointure et élagage) pour trouver tous les itemsets fréquents jusqu'à ce qu'aucun nouvel itemset fréquent ne puisse être généré.
-
Étape finale : Générer les règles d'association fortes.
Pour chaque itemset fréquent F (de taille >= 2) et pour chaque sous-ensemble non vide A de F (tel que A ≠ F et F \ A ≠ ∅), créer la règle A → (F \ A). Calculer la confiance de chaque règle. La confiance est donnée par
Conf(A → B) = Support(A ∪ B) / Support(A).Ne retenir que les règles dont la confiance est supérieure ou égale à
minconf = 60%.Exemple de règles à partir de {11, 12} (support = 5/14) :
- Règle {11} → {12} : Confiance = Support({11,12}) / Support({11}) = (5/14) / (6/14) = 5/6 ≈ 0.833 (83.3%). Cette règle est forte (confiance >= 60%).
- Règle {12} → {11} : Confiance = Support({11,12}) / Support({12}) = (5/14) / (10/14) = 5/10 = 0.5 (50%). Cette règle n'est pas forte (confiance < 60%).
En appliquant cette méthodologie systématiquement, on obtiendrait la liste complète des règles fortes.
Série d'Exercices N° 03 : Régression Linéaire et Modélisation
Exercice 01 : Estimateurs des Moindres Carrés Ordinaires (MCO)
Montrez que l'estimateur de la pente (β₁) et de l'ordonnée à l'origine (β₀) obtenus avec la méthode des moindres carrés peut s'écrire comme suit :
-
Estimateur de la pente (β₁) :
β̂₁ = Cov(X,Y) / Var(X) = Σ(xᵢ - x̄)(yᵢ - ȳ) / Σ(xᵢ - x̄)² -
Estimateur de l'ordonnée à l'origine (β₀) :
β̂₀ = ȳ - β̂₁x̄
Démonstration : Les estimateurs des MCO sont obtenus en minimisant la somme des carrés des résidus, SSR = Σ(yᵢ - (β₀ + β₁xᵢ))². En calculant les dérivées partielles de SSR par rapport à β₀ et β₁ et en les égalisant à zéro, on obtient un système de deux équations (équations normales). La résolution de ce système aboutit aux formules ci-dessus pour β̂₀ et β̂₁.
Exercice 02 : Propriété de la Droite de Régression MCO
La droite de régression des moindres carrés passe toujours par le point (x̄, ȳ), où x̄ est la moyenne des valeurs de la variable indépendante X et ȳ est la moyenne des valeurs de la variable dépendante Y.
Exercice 03 : Propriété des Résidus MCO
La somme des résidus (ou erreurs) obtenus par la méthode des moindres carrés ordinaires est toujours nulle : Σ(eᵢ) = Σ(yᵢ - ŷᵢ) = 0.
Exercice 04 : L'Équation de Régression MCO
La méthode des moindres carrés permet d'écrire l'équation de la droite de régression estimée, qui modélise la relation linéaire entre une variable dépendante et une variable indépendante, sous la forme : ŷ = β̂₀ + β̂₁X.
Exercice 05 : Application de la Régression Simple
Afin de convaincre des clients potentiels, une société de marketing met en évidence la relation entre le chiffre d'affaires y d'une entreprise et son budget publicité x. Les informations suivantes ont été retenues pour 8 entreprises issues du même domaine d'activité :
| Entreprise | Chiffre d'affaires (y) | Budget publicité (x) |
|---|---|---|
| 1 | 1390 | 150 |
| 2 | 2340 | 92 |
| 3 | 570 | 193 |
| 4 | 290 | 90 |
| 5 | 380 | 135 |
| 6 | 600 | 241 |
| 7 | 330 | 169 |
| 8 | 330 | 165 |
-
Représenter sur un graphe, le budget publicité (en abscisse) et le chiffre d'affaires (en ordonnée) des entreprises enquêtées. Existe-t-il une relation entre les deux grandeurs ?
Méthodologie : Tracez un nuage de points (diagramme de dispersion) où chaque point (xᵢ, yᵢ) représente une entreprise. Le budget publicité (x) est sur l'axe horizontal, et le chiffre d'affaires (y) sur l'axe vertical.
Analyse : L'observation visuelle du nuage de points permet d'évaluer s'il existe une tendance (linéaire, non linéaire, positive, négative) entre les deux variables. Une relation positive (une pente ascendante) est généralement attendue dans ce contexte : plus le budget publicitaire est élevé, plus le chiffre d'affaires tend à l'être.
-
Soit le modèle : CA = β₀ + β₁(Pb). Estimer les paramètres du modèle.
Méthodologie : Pour estimer β̂₀ et β̂₁, il faut calculer les moyennes (x̄, ȳ), les sommes des carrés des écarts (Σ(xᵢ - x̄)²) et la somme des produits des écarts (Σ(xᵢ - x̄)(yᵢ - ȳ)). Utilisez ensuite les formules des MCO :
β̂₁ = Σ(xᵢ - x̄)(yᵢ - ȳ) / Σ(xᵢ - x̄)²β̂₀ = ȳ - β̂₁x̄Calculs préliminaires :
x̄ = (150+92+193+90+135+241+169+165) / 8 = 1235 / 8 = 154.375
ȳ = (1390+2340+570+290+380+600+330+330) / 8 = 6230 / 8 = 778.75Le calcul des sommes des produits et des carrés des écarts est nécessaire pour obtenir les valeurs numériques de β̂₀ et β̂₁.
-
Dessiner sur le graphe précédent la droite obtenue en 2) et vérifier que cette droite ajuste les données de façon satisfaisante.
Méthodologie : Une fois β̂₀ et β̂₁ estimés, tracez la droite d'équation
ŷ = β̂₀ + β̂₁xsur le nuage de points. La droite devrait passer "au mieux" à travers les points, minimisant la somme des carrés des résidus.Vérification : La vérification est visuelle. Une bonne adéquation signifie que les points sont relativement proches de la droite, et la droite capture la tendance générale du nuage de points.
-
Utiliser l'équation de la droite de régression pour prévoir :
-
Le C.A d'une entreprise dépensant 200 unités monétaires.
Prévision : Remplacez la valeur du budget publicitaire (x) par 200 dans l'équation de régression estimée :
ŷ = β̂₀ + β̂₁(200). -
L'accroissement du chiffre d'affaires pour 50 unités monétaires supplémentaires.
Accroissement : L'accroissement du chiffre d'affaires pour une augmentation de 50 unités monétaires du budget publicité est donné par
β̂₁ * 50. La pente β̂₁ représente l'augmentation moyenne du chiffre d'affaires pour une augmentation d'une unité de budget publicitaire.
-
-
Quelle est la somme des résidus (des erreurs) ?
Comme énoncé dans l'Exercice 03 de cette série, la somme des résidus des moindres carrés ordinaires est toujours nulle.
Exercice 06 : Modélisation des Ventes Trimestrielles
Le niveau des ventes trimestrielles d'imprimantes est une variable aléatoire Y, exprimée en milliers de dinars à prix constants. Elle a pris les valeurs suivantes de 1992 à 1995 :
| Année | Trim. I | Trim. II | Trim. III | Trim. IV |
|---|---|---|---|---|
| 1992 | 153 | 172 | 192 | 231 |
| 1993 | 238 | 267 | 295 | 330 |
| 1994 | 369 | 400 | 439 | 511 |
| 1995 | 564 | 617 | 678 | 785 |
L'indice t est celui du trimestre ; t = 1 pour le 1er trimestre de 1992 et t = 16 pour le 4ème trimestre 1995.
-
Estimer les paramètres du modèle yt = α + βt + εt, 1 ≤ t ≤ 16, et étudier sa qualité.
Méthodologie : Appliquez la méthode des moindres carrés ordinaires pour estimer les paramètres α̂ et β̂ du modèle de régression linéaire simple, où t est la variable indépendante représentant le temps. Évaluez la qualité du modèle à l'aide de statistiques comme le coefficient de détermination R² (qui mesure la proportion de la variance de y expliquée par le modèle) et l'analyse des résidus (graphiques, tests de normalité et d'homoscédasticité).
-
Le total des ventes pour le 1er trimestre de 1996 est de 864 milliers de DA. Construire l'intervalle de prévision de niveau 0,95 pour cette observation et commenter. On supposera que εt → N(0, σ²).
Méthodologie : Pour le 1er trimestre de 1996, l'indice de temps est t = 17. Calculez la prévision ponctuelle ŷ₁₇ en utilisant le modèle estimé. Ensuite, construisez l'intervalle de prévision à 95%. Cet intervalle tient compte de l'incertitude sur les estimateurs et de la variabilité des erreurs.
Commentaire : Comparez la valeur réelle observée (864) avec l'intervalle de prévision. Si la valeur réelle est en dehors de l'intervalle, cela peut indiquer que le modèle linéaire simple n'est plus adéquat pour les prévisions futures (par exemple, en cas de changement de tendance ou de croissance non linéaire), ou que les hypothèses du modèle (notamment la variance des erreurs σ²) ne sont pas respectées.
-
Comparer le modèle zt = ln(yt) = α + βt + ut, 1 ≤ t ≤ 16, au précédent. On supposera également que ut → N(0, σ²u).
Méthodologie : Transformez la variable dépendante en prenant le logarithme naturel :
zt = ln(yt). Estimez les paramètres α̂ et β̂ du nouveau modèle linéaire sur zt. Comparez les deux modèles en utilisant le coefficient de détermination R² (un R² plus élevé indique généralement un meilleur ajustement) et l'analyse des résidus. Examinez également les intervalles de prévision pour les nouvelles observations. Un modèle avec un R² plus élevé et des résidus mieux distribués (proches de la normalité et homoscédastiques) est généralement préféré.
Exercice 07 : Propriétés des Estimateurs MCO sous Hypothèses Normales
Soit le modèle linéaire : yᵢ = β₀ + β₁xᵢ + εᵢ (i=1,..., n) avec εᵢ → i.i.d. N(0, σ²).
-
Calculer l'espérance et la variance de yᵢ.
Réponse :
E(yᵢ) = E(β₀ + β₁xᵢ + εᵢ) = β₀ + β₁xᵢ + E(εᵢ) = β₀ + β₁xᵢ(car E(εᵢ) = 0)Var(yᵢ) = Var(β₀ + β₁xᵢ + εᵢ) = Var(εᵢ) = σ²(car β₀, β₁, et xᵢ sont des constantes pour yᵢ, et leur variance est nulle). -
Calculer la Covariance (yᵢ, yⱼ).
Réponse : Pour i ≠ j, puisque les erreurs εᵢ sont indépendantes et identiquement distribuées (i.i.d.), leur covariance est nulle. Par conséquent, la covariance entre yᵢ et yⱼ est également nulle :
Cov(yᵢ, yⱼ) = Cov(β₀ + β₁xᵢ + εᵢ, β₀ + β₁xⱼ + εⱼ) = Cov(εᵢ, εⱼ) = 0. -
Montrer que β̂₁ suit la loi normale de moyenne β₁ et de variance Var(β̂₁) = σ² / Σ(xᵢ - x̄)².
Démonstration : L'estimateur β̂₁ peut être exprimé comme une combinaison linéaire des yᵢ, et donc une combinaison linéaire des termes d'erreur εᵢ. Étant donné que les εᵢ sont i.i.d. et suivent une loi normale N(0, σ²), toute combinaison linéaire de variables normales indépendantes est également une variable normale. L'espérance E(β̂₁) peut être démontrée égale à β₁ (ce qui signifie qu'il est sans biais). La variance Var(β̂₁) se dérive en utilisant les propriétés des variances des combinaisons linéaires de variables aléatoires.
E(β̂₁) = β₁Var(β̂₁) = σ² / Σ(xᵢ - x̄)² -
Montrer que β̂₀ suit la loi normale de moyenne β₀ et de variance Var(β̂₀) = σ² * [ (1/n) + (x̄² / Σ(xᵢ - x̄)²) ].
Démonstration : Similairement à β̂₁, l'estimateur β̂₀ est également une combinaison linéaire des yᵢ et donc des εᵢ. Il suit donc une loi normale. Son espérance E(β̂₀) est β₀ (il est aussi sans biais). La variance Var(β̂₀) peut être démontrée en utilisant la relation
β̂₀ = ȳ - β̂₁x̄et les propriétés des variances et covariances.E(β̂₀) = β₀Var(β̂₀) = σ² * [ (1/n) + (x̄² / Σ(xᵢ - x̄)²) ]
Rappels :
- Toute combinaison linéaire de variables aléatoires normales est une variable aléatoire normale.
- Pour toutes variables aléatoires X et Y et toutes constantes c et d :
E(c + X) = c + E(X)V(c + X) = V(X)V(c·X) = c²·V(X)Cov(c + X, d + Y) = Cov(X, Y)V(ΣYᵢ) = ΣV(Yᵢ) + 2Σi<jCov(Yᵢ, Yⱼ)(si Yᵢ sont indépendants, alors Cov(Yᵢ, Yⱼ)=0, doncV(ΣYᵢ) = ΣV(Yᵢ))
Solution de l'Exercice 06 de la Série N° 03
Le modèle est yt = a·t + b + εt, 1 ≤ t ≤ 16. t est l'indice du trimestre : t = 1 pour le 1er trimestre 1992.
-
Estimation de a et b :
Les calculs des sommes nécessaires sont :
n = 16(nombre de trimestres)Σt = 16 * 17 / 2 = 136t̄ = Σt / n = 136 / 16 = 8.5Σt² = 16 * (16+1) * (2*16+1) / 6 = 16 * 17 * 33 / 6 = 1496ȳ = Σy / n = (153 + ... + 785) / 16 = 6300 / 16 = 393.75
En utilisant les formules des MCO (comme détaillé dans l'Exercice 01) avec les sommes des produits
Σ(ty), les estimateurs fournis sont :â = 39.49b = 54.40
Le coefficient de détermination obtenu estR² = 0.951, ce qui indique que le modèle linéaire explique 95.1% de la variance des ventes et offre un très bon ajustement aux données historiques. -
Prévision et intervalle de prévision :
Pour le 1er trimestre de 1996, l'indice de temps est t = 17.
La prévision ponctuelle des ventes est :
ŷ₁₇ = â·17 + b = (39.49) * 17 + 54.40 = 671.33 + 54.40 = 725.73. L'extrait indique726(arrondi).L'intervalle de prévision de niveau 0,95 pour ŷ₁₇ est :
y₁₇ ∈ [619, 832].La valeur réelle observée pour Y₁₇ (1er trimestre 1996) est de
864milliers de DA. Cette valeur est supérieure à la borne supérieure de l'intervalle de prévision [619, 832]. Cela suggère que le modèle linéaire simple pourrait sous-estimer la croissance future des ventes ou qu'il y a eu un changement significatif dans la tendance non capturé par le modèle. -
Comparaison avec le modèle logarithmique :
L'observation d'un graphe de yt en fonction de t pourrait révéler une croissance exponentielle, rendant un modèle de la forme
yt = exp(β·t + α + μt)plus approprié. Une transformation logarithmique permet de linéariser ce modèle :Zt = ln(yt) = β·t + α + μt.Les caractéristiques estimées pour ce modèle transformé sont :
β̂ = 0.106α̂ = 4.95
La variance des résidusσ²u ≈ 7.8 * 10-4. Le coefficient de détermination estR² = 0.997. Ce R² est nettement plus élevé que celui du modèle linéaire simple (0.951), indiquant un ajustement supérieur aux données.La prévision pour t = 17 avec ce modèle est :
ẑ₁₇ = α̂ + β̂·17 = 4.95 + 17 * 0.106 = 4.95 + 1.802 = 6.752. L'extrait indique6.75.L'intervalle de prévision de niveau 0,95 pour ẑ₁₇ est :
6.68 < z₁₇ < 6.82.La valeur réelle
Z₁₇ = ln(y₁₇) = ln(864) ≈ 6.761. Cette valeur est bien située à l'intérieur de l'intervalle de prévision [6.68, 6.82] et est très proche du centre de cet intervalle.Conclusion : Le modèle transformé (logarithmique) semble plus adapté que le modèle linéaire simple pour ces données. Il offre un meilleur ajustement (R² plus élevé) et des prévisions plus précises pour les données futures, l'observation réelle de 864 étant correctement prédite par son intervalle de prévision. Cela indique que la relation entre le temps et les ventes est mieux décrite par une croissance exponentielle que linéaire.
Foire Aux Questions (FAQ) sur l'Exploration de Données et la Régression
Qu'est-ce que l'exploration de données (Data Mining) ?
L'exploration de données, ou Data Mining, est un processus qui consiste à découvrir des motifs, des tendances, des règles et des informations exploitables à partir de grands ensembles de données. Elle utilise des méthodes statistiques, d'apprentissage automatique et d'intelligence artificielle pour extraire des connaissances utiles qui peuvent être utilisées pour la prédiction, la classification, la segmentation ou la détection d'anomalies, aidant ainsi à la prise de décision stratégique dans divers domaines comme le commerce, la finance ou la médecine.
Quelle est la différence entre le support et la confiance dans les règles d'association ?
Dans le cadre des règles d'association (par exemple, dans l'analyse du panier de la ménagère) : le support d'une règle (A → B) mesure la fréquence à laquelle l'ensemble des items {A, B} apparaît ensemble dans les transactions. C'est une indication de la popularité de l'itemset. La confiance d'une règle (A → B) mesure la probabilité que l'item B soit acheté étant donné que l'item A a été acheté. Elle évalue la fiabilité de la règle. Le support est donc une mesure de l'occurrence tandis que la confiance est une mesure de la dépendance conditionnelle.
À quoi sert la méthode des moindres carrés en régression linéaire ?
La méthode des moindres carrés ordinaires (MCO) est une technique statistique fondamentale utilisée pour estimer les paramètres d'un modèle de régression linéaire. Son objectif principal est de trouver la "meilleure" ligne droite (ou hyperplan dans le cas de plusieurs variables) qui décrit la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Elle y parvient en minimisant la somme des carrés des résidus (les différences entre les valeurs observées et les valeurs prédites par le modèle), ce qui assure que la droite ajuste au mieux les données.