Ce document contient une introduction à l'analyse des données en ligne (OLAP) destinée aux étudiants universitaires. Il couvre les notions suivantes:
- Définition et concept de l'OLAP
- Structure et utilisation des cubes de données
- Modèles de cubes de données (étoile et flocon)
- Les 12 règles OLAP
- Architectures OLAP (ROLAP, MOLAP, HOLAP)
- Algèbre OLAP et ses opérateurs
Cours OLAP Analyse des données en ligne -BI - business intelligence
Télécharger PDFAnalyse des données en ligne
On Line Analytical Processing (OLAP) est un environnement fourni par le système décisionnel pour la manipulation des informations organisées sous forme de cubes de données. Il est dédié pour des processus d’analyse des données en ligne pour la prise de décision.
Le cube de données est le concept essentiel en termes de données dans l’environnement OLAP. Le cube de données est une vue multidimensionnelle d’une petite partie de l’entrepôt correspondant à un contexte d’analyse d’une classe particulière de décideurs.
Exemple : Cube relatif aux ventes de livres
Nombre d’exemplaires vendus (NB_EXEMP) et chiffre d’affaire (MONTANT) par rapport aux dimensions :
- TITRES (Thèmes, Spécialité)
- TEMPS (Mois, Année)
- POINTS DE VENTE (Ville, Pays, Continent)
Modèles de cubes de données
Les modèles de base d’un cube de données sont :
- Le modèle en étoile : une table centrale (table de fait) entourée par des tables reliées par des clefs étrangères (dimensions), le tout forme une étoile.
- Le modèle en flocons : version normalisée d’un modèle en étoile qui génère des hiérarchies sur les dimensions reliées à la table de fait. Le tout forme un flocon de neige.
Les 12 Règles OLAP
- Multidimensonnalité (Multidimensional Conceptual View) : Permet d’avoir une vision multidimensionnelle des données.
- Transparence (Transparency) : L’utilisateur ne doit pas se rendre compte de l’emplacement physique du serveur OLAP ni de la provenance des données.
- Accessibilité (Accessibility) : OLAP est décrit comme un middleware qui se place entre les sources de données hétérogènes et un front-end.
- Stabilité (Uniform Reporting Performance) : Les performances ne doivent pas être diminuées lors de l’augmentation du nombre de dimension ou de la taille de la base de données.
- Architecture client/serveur (Client-Server Architecture) : Il est essentiel que le produit soit Client-Serveur.
- Dimensionnement (Generic Dimensionality) : Chaque dimension doit être équivalente par rapport à sa structure et ses capacités opérationnelles.
- Gestion complète (Automatic Adjustment of Physical Level) : Le système OLAP ajuste automatiquement son schéma physique pour s’adapter au type du modèle et au volume des données.
- Multi-utilisateurs (Multi-User support) : Les outils OLAP doivent fournir des accès concurrents, l’intégrité et la sécurité.
- Opérations Inter-dimensions (Unrestricted Cross-dimensional Operations) : Les calculs doivent être possibles à travers toutes les dimensions.
- Manipulation intuitive (Intuitive Data Manipulation) : La manipulation des données se fait directement à travers les cellules d’une feuille de calcul.
- Flexibilité (Flexible Reporting) : Lors de la création de rapports, les dimensions peuvent être présentées de n’importe quelle manière.
- Analyse sans limites (Unlimited Dimensions & Aggregation Levels) : Dimensions et niveaux d’agrégations illimités.
Architectures OLAP
Plusieurs architectures OLAP existent, nous citons essentiellement :
- ROLAP : Relational OLAP
- MOLAP : Multidimentional OLAP
- HOLAP : Hybrid OLAP
Architecture R-OLAP : Relational-OLAP
Les données de l’entrepôt sont stockées sur un SGBD relationnel incapable de supporter une structure multidimensionnelle. Ce n’est qu’au moment de répondre aux requêtes d’analyse qu’un mécanisme OLAP est déclenché pour convertir les données relationnelles en cubes multidimensionnels.
Architecture M-OLAP : Multidimentional-OLAP
Les données de l’entrepôt stockées sur un SGBD relationnel ne sont pas sollicitées au moment de traiter des requêtes, elles servent à rafraîchir périodiquement les cubes stockés sur le SGBD multidimensionnel de l’environnement OLAP.
Architecture H-OLAP : Hybrid-OLAP
Les données agrégées (mesures) sont stockées sur le SGBD multidimensionnel, les tables de faits sont stockées sous forme de matrices superposées, et les dimensions sont stockées sur le SGBD relationnel.
Algèbre OLAP
L’environnement OLAP offre un ensemble d’opérateurs de manipulation des cubes de données adaptés à la structure multidimensionnelle du cube.
Opérateurs de sélections
Filtres sur les dimensions exprimés sous forme d’un prédicat simple ou composés grâce aux connecteurs booléens (AND, OR …).
Opérateurs d’agrégation
Relatifs au niveau de granularité/d’agrégation du cube de données.
Opérateurs structurels
Relatifs à la structure du cube de données.
Forage vers le haut (ROLL-UP)
Permet de passer d’un niveau détaillé du cube (granularité fine) vers un niveau plus agrégé. Deux scénarios sont possibles :
- Retirer une ou plusieurs dimensions du cube.
- Recalculer le cube en avançant dans la hiérarchie (s’éloigner de la TF sur une ou plusieurs dimensions).
Forage vers le bas (Drill-down)
Permet de passer d’un niveau agrégé vers un niveau plus détaillé du cube. Deux scénarios sont possibles :
- Intégrer une ou plusieurs autres dimensions dans le cube.
- Recalculer le cube en reculant dans la hiérarchie (se rapprocher de la TF sur une ou plusieurs dimensions).
Tanche du cube (Slice)
Permet d’extraire une tranche d’un cube pour une analyse plus approfondie.
Sous-cube (Dice)
Permet d’extraire un sous-cube pour une analyse plus approfondie.
Pivoter le cube (Rotate)
Permet de permuter entre les axes du cube afin d’analyser selon d’autres facettes.
FAQ
Qu'est-ce que l'OLAP ?
OLAP (On Line Analytical Processing) est un environnement fourni par le système décisionnel pour la manipulation des informations organisées sous forme de cubes de données.
Quels sont les modèles de cubes de données ?
Les modèles de base d’un cube de données sont le modèle en étoile et le modèle en flocons.
Quelles sont les architectures OLAP ?
Les architectures OLAP sont ROLAP (Relational OLAP), MOLAP (Multidimentional OLAP) et HOLAP (Hybrid OLAP).