Cours data mining regression lineaire multiple

Ce document pédagogique, élaboré par le Pr. Ali BERRICHI du Département d'Informatique de l'UMB Boumerdes, est destiné aux étudiants universitaires souhaitant acquérir ou approfondir leurs connaissances en Data Mining.

Il offre une présentation structurée de la Régression Linéaire Multiple, une technique fondamentale de prédiction. Le contenu aborde les notations essentielles, la formalisation de la fonction d'hypothèse, la mise en œuvre de la méthode de la descente de gradient et son optimisation. Enfin, il détaille les métriques cruciales permettant d'évaluer la performance et la robustesse des modèles de régression.

Cours data mining regression lineaire multiple

Cours Data Mining Regression Lineaire Multiple

Télécharger PDF

Data Mining : La Régression Linéaire Multiple

La régression linéaire multiple, aussi connue sous le nom de régression multivariable, est une technique statistique puissante utilisée pour modéliser la relation entre plusieurs variables explicatives (ou indépendantes) et une variable cible (ou dépendante). Son objectif est de prédire la valeur d'une variable cible en se basant sur les valeurs de plusieurs autres variables, offrant ainsi une meilleure prédiction que la régression linéaire simple.

Considérons un exemple de données d'apprentissage pour la prédiction du prix d'un appartement :

Exemple Superficie (x1) Nbre Chambres (x2) N° étage (x3) Âge (x4) ... Prix (y)
1 45 2 1 20 ... 600
2 110 4 3 25 ... 1110
3 75 3 2 27 ... 950
. . . . . ... .
m 80 3 5 30 ... 800

Dans cet exemple, la superficie, le nombre de chambres, l'étage et l'âge sont les variables explicatives (caractéristiques), et le prix est la variable cible que nous cherchons à prédire.

Notations

  • n : Nombre de variables explicatives (attributs ou caractéristiques).
  • m : Nombre d'observations (exemples d'apprentissage).
  • xj : La j-ième variable explicative.
  • &mathbf{x}(i) : Le i-ième exemple d'apprentissage, représenté comme un vecteur de caractéristiques.
  • xj(i) : La valeur de la variable j pour le i-ième exemple d'apprentissage.
  • y(i) : La valeur de la variable cible pour le i-ième exemple d'apprentissage.

Exemple d'interprétation pour la ligne 2 du tableau ci-dessus :

  • &mathbf{x}(2) représente l'exemple d'apprentissage numéro 2.
  • x1(2) = 110 (Superficie de 110 m² pour l'exemple 2).
  • x2(2) = 4 (4 chambres pour l'exemple 2).
  • x3(2) = 3 (3e étage pour l'exemple 2).
  • x4(2) = 25 (25 ans pour l'exemple 2).
  • y(2) = 1110 (Prix de 1110 pour l'exemple 2).

La fonction d'hypothèse multivariable

Pour un modèle de régression linéaire multiple, la fonction d'hypothèse (le modèle prédictif) est une combinaison linéaire des variables explicatives :

hθ(&mathbf{x}) = θ0 + θ1x1 + θ2x2 + ... + θnxn

Où :

  • θ0 est le terme d'ordonnée à l'origine (biais).
  • θ1, θ2, ..., θn sont les coefficients (poids) associés à chaque variable explicative x1, x2, ..., xn.

En utilisant la convention x0 = 1, cette fonction peut être écrite de manière vectorielle :

hθ(&mathbf{x}) = θT&mathbf{x}

θ est le vecteur des paramètres 0, θ1, ..., θn]T et &mathbf{x} est le vecteur des caractéristiques [1, x1, ..., xn]T.

Version multivariable de la méthode du gradient

L'algorithme du gradient est une méthode itérative pour trouver les paramètres θ qui minimisent la fonction de coût. La fonction de coût mesure l'erreur entre les prédictions du modèle et les vraies valeurs.

La fonction de coût :

La fonction de coût pour la régression linéaire multiple est la moyenne des carrés des erreurs (Mean Squared Error - MSE) :

J(θ) = (1 / (2m)) ∑i=1m (hθ(&mathbf{x}(i)) - y(i))2

m est le nombre d'exemples d'apprentissage, hθ(&mathbf{x}(i)) est la prédiction du modèle pour l'exemple i, et y(i) est la vraie valeur de l'exemple i.

L'algorithme de la méthode du gradient :

L'algorithme répète les étapes suivantes jusqu'à convergence :

Pour chaque paramètre θj (où j = 0, ..., n) :

θj := θj - α ⋅ (1/m) ∑i=1m (hθ(&mathbf{x}(i)) - y(i)) ⋅ xj(i)

Où :

  • α est le taux d'apprentissage (learning rate), qui détermine la taille des pas effectués à chaque itération.
  • Le terme (1/m) ∑i=1m (hθ(&mathbf{x}(i)) - y(i)) ⋅ xj(i) est la dérivée partielle de la fonction de coût J(θ) par rapport à θj.

Optimisation de l'Algorithme du Gradient

1. Mise à l'échelle : Min-Max et Normalisation

La mise à l'échelle des caractéristiques est une étape cruciale pour accélérer la convergence de l'algorithme du gradient et éviter qu'une caractéristique avec une grande plage de valeurs ne domine le calcul des gradients. Sans mise à l'échelle, l'algorithme peut prendre beaucoup plus de temps pour atteindre le minimum global ou même diverger.

  • Mise à l'échelle Min-Max : Redimensionne les valeurs d'une caractéristique pour qu'elles se situent dans une plage spécifique, généralement entre 0 et 1.

    xj(i) := (xj(i) - xmin,j) / (xmax,j - xmin,j)

    xmin,j est la valeur minimale et xmax,j est la valeur maximale de la variable j.

  • Normalisation (Z-score normalization) : Redimensionne les valeurs de manière à ce qu'elles aient une moyenne de 0 et un écart-type de 1.

    xj(i) := (xj(i) - μj) / σj

    Où :

    • xj(i) : La valeur de la variable j pour l'exemple i.
    • μj : La moyenne de la variable (ou colonne) j.
    • σj : L'écart-type de la variable j.

La non-mise à l'échelle des données d'apprentissage peut ralentir considérablement l'algorithme du gradient, rendant difficile l'atteinte du minimum de la fonction de coût.

2. Débogage de la fonction de coût J(θ)

Pour s'assurer que l'algorithme du gradient fonctionne correctement, il est essentiel de surveiller la fonction de coût J(θ). En général, J(θ) doit décroître à chaque itération et finir par converger vers un minimum.

Un test de convergence automatique peut être implémenté en arrêtant l'algorithme lorsque la différence entre la fonction de coût à l'itération actuelle et la fonction de coût à l'itération précédente est inférieure à un seuil très faible (ε) :

|J(θ(t)) - J(θ(t+1))| < ε

θ(t) sont les paramètres à l'itération t.

3. Choix du taux d'apprentissage (α)

Le choix du taux d'apprentissage α est crucial. Un α trop petit ralentit la convergence, tandis qu'un α trop grand peut empêcher la convergence en provoquant des dépassements du minimum (oscillations ou divergence).

Une règle empirique consiste à essayer une plage de valeurs exponentielles pour α et à visualiser l'évolution de la fonction de coût. Par exemple, on peut tester : 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, etc., et choisir la valeur qui permet une convergence rapide et stable.

Métriques de mesure de la qualité d'un modèle

Coefficient de Corrélation Linéaire (r)

Le coefficient de corrélation linéaire de Pearson (r) mesure la force et la direction de la relation linéaire entre deux variables. Il est défini par :

r = ∑i=1m ((xi - &bar;x)(yi - &bar;y)) / (&sqrt;∑i=1m (xi - &bar;x)2 ⋅ &sqrt;∑i=1m (yi - &bar;y)2)

Ou de manière équivalente :

r = Cov(X, Y) / (σX ⋅ σY)

Où :

  • Cov(X, Y) est la covariance entre X et Y.
  • σX et σY sont les écarts-types de X et Y, respectivement.
  • &bar;x et &bar;y sont les moyennes de X et Y.

Propriété : -1 ≤ r ≤ +1

  • r = +1 indique une corrélation linéaire positive parfaite.
  • r = -1 indique une corrélation linéaire négative parfaite.
  • r = 0 indique l'absence de corrélation linéaire.

Plus la valeur absolue de r est proche de 1, plus la force de la relation linéaire est élevée.

Formule de décomposition de la variance

La variance totale de la variable cible (y) peut être décomposée en deux parties : la variance expliquée par le modèle et la variance résiduelle (erreur non expliquée).

i=1m (y(i) - &bar;y)2 = ∑i=1m (hθ(&mathbf{x}(i)) - &bar;y)2 + ∑i=1m (hθ(&mathbf{x}(i)) - y(i))2

Cette formule est souvent représentée comme :

Somme Totale des Carrés (SST) = Somme des Carrés Expliqués (SSR) + Somme des Carrés des Erreurs (SSE)

  • SST (Total Sum of Squares) : Mesure la variation totale de y par rapport à sa moyenne.
  • SSR (Regression Sum of Squares) : Mesure la variation de y expliquée par le modèle.
  • SSE (Sum of Squared Errors) : Mesure la variation de y non expliquée par le modèle (les résidus).

Coefficient de Détermination (R²)

Le coefficient de détermination (R2) est une métrique clé qui indique la proportion de la variance de la variable cible qui est prévisible à partir des variables explicatives. Il est calculé comme le rapport entre la variance expliquée par le modèle et la variance totale :

R2 = SSR / SST = 1 - (SSE / SST)

R2 = ∑i=1m (hθ(&mathbf{x}(i)) - &bar;y)2 / ∑i=1m (y(i) - &bar;y)2

Propriété : 0 ≤ R2 ≤ 1

  • R2 = 1 signifie que le modèle explique 100% de la variance de la variable cible.
  • R2 = 0 signifie que le modèle n'explique aucune partie de la variance de la variable cible (il n'est pas meilleur que la simple moyenne).

R2 représente le pourcentage de la variabilité de la variable cible qui est capturée et expliquée par le modèle de régression.

Coefficient de Détermination Ajusté (R² ajusté)

Le R2 a tendance à augmenter avec l'ajout de nouvelles variables explicatives, même si elles ne sont pas réellement pertinentes. Le coefficient de détermination ajusté (R2ajusté) corrige cette tendance en tenant compte du nombre de variables explicatives (n) et du nombre d'observations (m).

R2ajusté = 1 - [ (SSE / (m - n - 1)) / (SST / (m - 1)) ]

Une autre forme de calcul est :

R2ajusté = 1 - (1 - R2) ⋅ ((m - 1) / (m - n - 1))

Le R2ajusté est une meilleure métrique pour comparer des modèles avec un nombre différent de prédicteurs, car il pénalise l'ajout de variables explicatives non utiles. Il est toujours inférieur ou égal au R2 standard.

FAQ sur la Régression Linéaire Multiple

Qu'est-ce que la régression linéaire multiple et à quoi sert-elle ?

La régression linéaire multiple est une technique d'apprentissage supervisé qui modélise la relation entre plusieurs variables d'entrée (caractéristiques) et une variable de sortie (cible). Elle est utilisée pour prédire des valeurs continues en identifiant la relation linéaire optimale entre ces variables. Par exemple, elle peut prédire le prix d'une maison en fonction de sa superficie, du nombre de chambres, de l'âge, etc.

Pourquoi la mise à l'échelle des données est-elle cruciale pour l'algorithme du gradient ?

La mise à l'échelle des données, comme Min-Max ou la normalisation Z-score, est essentielle pour l'algorithme du gradient car elle garantit que toutes les caractéristiques contribuent de manière équitable à l'optimisation. Si les caractéristiques ont des échelles très différentes, l'algorithme du gradient peut converger lentement ou osciller, car les pas effectués pour les caractéristiques à grande échelle seront disproportionnés par rapport à celles à petite échelle, rendant la recherche du minimum plus difficile.

Comment évaluer la performance d'un modèle de régression linéaire multiple ?

La performance d'un modèle de régression linéaire multiple est généralement évaluée à l'aide de métriques telles que le coefficient de détermination (R2) et le R2 ajusté. Le R2 indique la proportion de la variance de la variable cible qui est expliquée par le modèle. Le R2 ajusté est préféré lors de la comparaison de modèles avec différents nombres de variables, car il pénalise l'ajout de prédicteurs inutiles. D'autres métriques incluent l'erreur quadratique moyenne (RMSE) ou l'erreur absolue moyenne (MAE).

Cela peut vous intéresser :

Partagez vos remarques, questions , propositions d'amélioration ou d'autres cours à ajouter dans notre site

Enregistrer un commentaire (0)
Plus récente Plus ancienne