SERIE D'EXERCICES N° 01 Data Mining pdf
Télécharger PDFUniversité M'hamed Bouguara de Boumerdes Faculté des Sciences Département d'Informatique SERIE D'EXERCICES N° 01 الإعلام الآلي EXERCICE 01. Discuter si oui ou non chacune des activités suivantes est une tâche de Data Mining (a) Répartir les clients d'une entreprise en fonction de leur état civil (marié, etc). (b) Diviser les clients d'une entreprise en fonction de leur rentabilité. (c) Calcul des ventes totales d'une entreprise. (d) Une base de données des étudiants Triée sur la base des numéros d'identification. (e) Prévoir le résultat de jet d'une paire de dés (équitables). (f) Prévoir le prix des actions d'une entreprise dans le futur à l'aide de l'historique des données. (g) Contrôler la fréquence (le rythme) cardiaque d'un patient pour des anomalies. (h) Contrôler (surveiller) les ondes sismiques pour les activités du tremblement de terre. (i) Calculer les fréquences d'une onde sonore, EXERCICE 02. Classer chacun des attributs suivants comme binaire, discret ou continu. Aussi les classer comme qualitatif (nominal ou ordinal) ou quantitatif (intervalle ou ratio). Certains cas peuvent avoir plus d'une interprétation. Exemple: âge en années. Réponse: discret, quantitatif, ratio. (a) Le temps en termes de AM ou PM. (b) La luminosité mesurée par un photomètre. (c) La luminosité mesurée par les jugements des gens. (d) Angles mesurée en degrés entre 0 et 360. (e) Les médailles de Bronze, d'argent, et d'or telles que décernées lors des Jeux olympiques. (f) Hauteur au-dessus du niveau des mers. (g) Nombre de patients dans un hôpital. (h) les numéros ISBN (International Standard Book Number) pour les livres. (i) La capacité à laisser passer la lumière en termes des valeurs suivantes: opaque, translucide, transparent. (J) un grade militaire. (k) La distance du centre du campus. (1) Densité d'une substance en grammes par centimètre cube. (m) Le numéro de vestiaire. (Lorsque vous assistez à un événement, vous pouvez souvent donner votre manteau à quelqu'un qui, à son tour, vous donne un numéro que vous pouvez utiliser pour demander votre manteau lorsque vous quittez) EXERCICE 03 Déterminer quelle est la tâche de DM ayant permis d'extraire et de découvrir les modèles suivants: (A) Les personnes ayant moins de 25 ans et le salaire> 40K conduisent des voitures de sport (B) Ensemble des images qui contiennent une voiture comme un objet. (C) 80% des images contenant une voiture comme un objet contiennent aussi un ciel bleu. (D) 98% des personnes qui achètent des couches achetent aussi de la nourriture pour bébés (E) Des abonnés de téléphone de domicile pour une société de télécommunications, avec une activité commercial à la maison. (F) des radiographies numériques des poumons, avec des taches suspectes. SERIE D'EXERCICE N° 02
Exercice 01Pour chacune des questions suivantes, donner un exemple d'une règle d'association du domaine du panier de la ménagère satisfaisant les conditions suivantes. Aussi, décrire si telles règles seraient intéressantes. (a) Une règle qui a un support élevé et une confiance élevée. (b) Une règle qui a un support raisonnablement élevé mais une faible confiance. (c) Une règle qui a un faible support et une faible confiance. (d) Une règle qui a un faible support et une confiance élevée.
Exercice 2. Considérons l'ensemble des données de la table suivante : Example des transactions du panier de la ménagère. ID client 1 1 22334455 ID Transaction Artiles (Items) achetés 0001 {a de} 0024 {abc e} 0012 {abde} 0031 {acde} 0015 {bce} 0022 {bde} 0029 {cd} 0040 {a b c} 0033 {a de} 0038 {abe} a) Calculer le support des itemsets {e}, {b, d}. et {b, d, e} en traitant chaque transaction comme un panier de la ménagère. b) Utiliser les résultats de la partie (a) pour calculer la confiance pour les règles d'association {b, d}→ {e} et {e} {b, d). La mesure de confiance est-elle symétrique? c) Répéter la partie (a) en traitant chaque client comme un panier de la ménagère. Chaque article (ou item) devrait être traité comme une variable binaire (1 si un item apparaît dans au moins une transaction acheté par le client, et 0 sinon.) d) Utiliser les résultats de la partie (c) pour calculer la confiance pour les règles d'association {b, d}→ {e} et {e}→ {b, d). e) Supposons sl et cl sont les valeurs de support et de confiance d'une règle d'association r quand chaque transaction est traitée comme un panier de la ménagère. Aussi, soit s2 et c2 les valeurs de support et de confiance de r quand chaque client est traité comme un panier de la ménagère. Discuter s'il y a des relations entre sl et s2 ou cl et c2.
Exercice 03Montrer que le nombre total de règles d'associations possibles qui peuvent être extraites d'un ensemble de données contenant d items (articles) est : R=3d - 2+1 +1. (Suggestion: Tout d'abord, compter le nombre de façons de créer un itemset qui forme le côté gauche de la règle. Ensuite, pour chaque itemset de taille k sélectionné pour le côté gauche, compter le nombre de façons de choisir les (d-k) items pour former le côté droit de la règle. Page 1/2
Exercice 04Considérons les transactions du panier de la ménagère montrées dans la table suivante: ID de la transaction Articles achetés (lait, soda, couches; 2 pain, beurre, lait; 3 lait, couches, cookies; 4 pain, beurre, cookies; 5 soda, cookies, couches} 6 (lait, couches, pain, beurre} 7 pain. beurre, couches} 8 soda, couches} 9 {lait, couches, pain, beurre} 10 {soda, cookies} a) Quel est le nombre maximum de règles d'association qui peuvent être extraites de ces données (incluant les règles qui ont un support nul)? b) Quelle est la taille maximum des itemsets fréquents qui peuvent être extraits (en supposant minsup> 0)? c) Ecrire l'expression du nombre maximum des itemsets de taille 3 pouvant être extraits de cet ensemble de données. d) Trouver un itemset (de taille 2 ou plus) ayant le support le plus élevé. e) Trouver une paire d'items. a et b tels que les règles {a}→ (b) et {b} {a} ont la même confiance.
Exercice 05Considérons l'ensemble des 3-itemsets fréquents: {1, 2, 3), (1, 2. 4}. {1, 2, 5), {1. 3. 4). (1. 3. 5), (2, 3, 4}. {2. 3, 5), (3, 4, 5). Supposons qu'il y a seulement cinq items dans l'ensemble des données. a) Lister tous les 4-itemsets candidats obtenus par la procédure de génération d'itemsets candidats de l'algorithme A priori. b) Lister tous les 4-itemsets candidats qui survivront à l'étape d'élagage des candidats de l'algorithme A priori.
Exercice 06Soit les données transactionnelles de la table suivante : IDT Items 1 13. 15, 14 2 11, 16. 14 3 14, 17, 12, 16 4 15. 14, 17 12 5 12, 11, 13 6 16, 11, 12, 17 7 17, 14 8 13, 17.15 9 16, 11, 12 10 12, 14 11. 15, 13. 12, 16 12 11. 12, 16 13 16. 14, 11, 12 14 14, 15, 17, 12, 13 Extraire toutes les règles d'association fortes (minsup=4/14, minconf = 60%) à l'aide de Falgorithme A priori. 2/2 SERIE D'EXERCICES 03
Exercice 01Montrer que: À l'estimateur de A obtenu avec la méthode des moindres carrés peut s'écrire aussi : B.- Cov(X,Y) F(X) ou encore A - Σux-Bx Σo-Fix Σκη droit
Exercice 02La de des moindres carrés passe par le point (..
Exercice 03: La valeur des résidus <---À-D.
Exercice 04La méthode des moindres carrés permet d'écrire: 46-03-146-03-06-03
Exercice 05Afin de convaincre des clients potentiels, une société de marketing met en évidence la relation entre le chiffre d'affaires y, d'une entreprise et son budget publicité x. On a retenu les informations se trouvant dans le tableau suivant pour 8 entreprises issues du même domaine d'activité. Entreprise Chiffres Budg get d'affaires publicité 1390 150 2340 92 3 570 193 4290 90 5380 135 6 600 241 7330 169 8 330 165 1) Représenter sur un graphe, le budget publicité (en abscisse) et le chiffre d'affaires (en ordonnée) des entreprises enquêtées. Existe-il une relation entre les deux grandeurs ? 2) Soit le modèle :CA-B+B(Pb)-.Estimer les paramètres du modèle. 3) Dessiner sur le graphe précédent la droite obtenue en 1") et vérifier que cette droite ajuste les données de façon satisfaisante. 4) Utiliser l'équation de la droite de régression pour prévoir: a) Le C.A d'une entreprise dépensant 200 unités monétaires. b) L'accroissement du chiffre d'affaires pour 50 unités monétaires supplémentaires. 5) Quelle est la somme des résidus (des erreurs) EXERCICES SUPPLEMENTAIRES
Exercice 06Le niveau des ventes trimestrielles d'imprimantes est une variable aléatoire Y qui, exprimée en milliers de dinars à prix constants, a pris les valeurs suivantes de 1992 à 1995: Trim. I Trim. II Trim. III Trim. IV Année 1992 153 172 192 231 Année 1993 238 267 295 330 Année 1994 369 400 439 511 Année 1995 564 617 678 785 1) Estimer les paramètres du modèle y, = a+b+8,,1≤1≤16, et étudier sa qualité. L'indice t est celui du trimestre ; t=1 pour le 1er trimestre de 1992 et t=16 pour le 4ème trimestre 1995. 2) Le total des ventes pour le 1er trimestre de 1996 est de 864.103 DA. Construire l'intervalle de prévision de niveau 0,95 pour cette observation et commenter. On supposera que ɛ, → N(0,2). 3) Comparer le modèle z, = Ln(y,) = a + ẞt+u,, 1st≤16, au précédent. On supposera également que u, → N(0,0%)
Exercice 07Soit le modèle linéaire : y1 = B1 + B1.x, +ε, (i=1,..., n) avec &, → iid→ N(0,02). 1) Calculer l'espérance et la variance de yi. 2) Calculer la Covariance (yi, Yj) 3) Montrer que, suit la loi normale de moyenne ẞ, et de variance (x,-x)2 4) Montrer que B, suit la loi normale de moyenne ẞ, et de variance σ'.Στ *ΣΧΑΣ n.Σ(x,-x)2 Rappels : Toute combinaison linéaire de variables aléatoires normales est une variable aléatoire normale. Pour toutes variables aléatoires X et Y et toutes constantes cet d: E(c+X)=c+E(X), V(c+X)=V(x), V(c.X)=c2.V(x), Cov (c+X, d+y)=Cov(X,Y). VEY)= [V(Y)+2[[Cover,.Y) V(Y) (si Y, sont 242indépendats) Solution de l'exercice 06 Le modèle est y1 = a.t+b+e,, 1sts16. t est l'indice du trimestre: t = 1 pour le 1er trimestre 1992. 1) Estimation de a et b : 11 On calcule 7 == 16 に 16 16.17 17 16.17.33 et Σ =1496 N 1-1 2.16 2 6 7=1 â= Σty, -167.y Σ12 - 1672 =39.49 et b = y-âi = 54.40 R2 = 0.951 2) La prévision ŷ17 = (39,49).(17) +54,4 = 726 conduit à l'intervalle de prévision de niveau 0,95: y17 € [619, 832]. Mais, la valeur réelle Y17 = 864 est très en dehors de cette intervalle, ce qui peut faire douter du modèle. 3) Le graphe de y, en fonction de t montre qu'un modèle de la forme y1 = exp(B.t+a+μ,) est envisageable. On obtient un modèle linéaire par le changement Z, = In(y,) = B.t+a+μ,. Ses caractéristiques estimées sont ẞ= 0.106, et à = 4.95. 2=7,8.104 → = 0,028→ S2 (B) = 2.10. De plus, R2 = 0.997. La prévision 217 = 4.95 +17.(0.106) = 6.75 conduit à l'intervalle de prévision de niveau 0.95: 6.68 <z17 <6.82. La valeur réelle Z17 = In(y17) = In 864 = 6.76 est dans cet intervalle, très proche du centre, ce qui peut faire penser que ce modèle est plus adapté que le précédent.