Ce document pédagogique, élaboré par le Pr. Ali BERRICHI du Département d'Informatique de l'UMB Boumerdes, est destiné aux étudiants universitaires souhaitant acquérir ou approfondir leurs connaissances en Data Mining.
Il offre une présentation structurée de la Régression Linéaire Multiple, une technique fondamentale de prédiction. Le contenu aborde les notations essentielles, la formalisation de la fonction d'hypothèse, la mise en œuvre de la méthode de la descente de gradient et son optimisation. Enfin, il détaille les métriques cruciales permettant d'évaluer la performance et la robustesse des modèles de régression.
Cours Data Mining Regression Lineaire Multiple
Télécharger PDFData Mining : La Régression Linéaire Multiple
La régression linéaire multiple, aussi connue sous le nom de régression multivariable, est une technique statistique puissante utilisée pour modéliser la relation entre plusieurs variables explicatives (ou indépendantes) et une variable cible (ou dépendante). Son objectif est de prédire la valeur d'une variable cible en se basant sur les valeurs de plusieurs autres variables, offrant ainsi une meilleure prédiction que la régression linéaire simple.
Considérons un exemple de données d'apprentissage pour la prédiction du prix d'un appartement :
| Exemple | Superficie (x1) | Nbre Chambres (x2) | N° étage (x3) | Âge (x4) | ... | Prix (y) |
|---|---|---|---|---|---|---|
| 1 | 45 | 2 | 1 | 20 | ... | 600 |
| 2 | 110 | 4 | 3 | 25 | ... | 1110 |
| 3 | 75 | 3 | 2 | 27 | ... | 950 |
| . | . | . | . | . | ... | . |
| m | 80 | 3 | 5 | 30 | ... | 800 |
Dans cet exemple, la superficie, le nombre de chambres, l'étage et l'âge sont les variables explicatives (caractéristiques), et le prix est la variable cible que nous cherchons à prédire.
Notations
n: Nombre de variables explicatives (attributs ou caractéristiques).m: Nombre d'observations (exemples d'apprentissage).xj: Laj-ième variable explicative.&mathbf{x}(i): Lei-ième exemple d'apprentissage, représenté comme un vecteur de caractéristiques.xj(i): La valeur de la variablejpour lei-ième exemple d'apprentissage.y(i): La valeur de la variable cible pour lei-ième exemple d'apprentissage.
Exemple d'interprétation pour la ligne 2 du tableau ci-dessus :
&mathbf{x}(2)représente l'exemple d'apprentissage numéro 2.x1(2) = 110(Superficie de 110 m² pour l'exemple 2).x2(2) = 4(4 chambres pour l'exemple 2).x3(2) = 3(3e étage pour l'exemple 2).x4(2) = 25(25 ans pour l'exemple 2).y(2) = 1110(Prix de 1110 pour l'exemple 2).
La fonction d'hypothèse multivariable
Pour un modèle de régression linéaire multiple, la fonction d'hypothèse (le modèle prédictif) est une combinaison linéaire des variables explicatives :
hθ(&mathbf{x}) = θ0 + θ1x1 + θ2x2 + ... + θnxn
Où :
θ0est le terme d'ordonnée à l'origine (biais).θ1, θ2, ..., θnsont les coefficients (poids) associés à chaque variable explicativex1, x2, ..., xn.
En utilisant la convention x0 = 1, cette fonction peut être écrite de manière vectorielle :
hθ(&mathbf{x}) = θT&mathbf{x}
Où θ est le vecteur des paramètres [θ0, θ1, ..., θn]T et &mathbf{x} est le vecteur des caractéristiques [1, x1, ..., xn]T.
Version multivariable de la méthode du gradient
L'algorithme du gradient est une méthode itérative pour trouver les paramètres θ qui minimisent la fonction de coût. La fonction de coût mesure l'erreur entre les prédictions du modèle et les vraies valeurs.
La fonction de coût :
La fonction de coût pour la régression linéaire multiple est la moyenne des carrés des erreurs (Mean Squared Error - MSE) :
J(θ) = (1 / (2m)) ∑i=1m (hθ(&mathbf{x}(i)) - y(i))2
Où m est le nombre d'exemples d'apprentissage, hθ(&mathbf{x}(i)) est la prédiction du modèle pour l'exemple i, et y(i) est la vraie valeur de l'exemple i.
L'algorithme de la méthode du gradient :
L'algorithme répète les étapes suivantes jusqu'à convergence :
Pour chaque paramètre θj (où j = 0, ..., n) :
θj := θj - α ⋅ (1/m) ∑i=1m (hθ(&mathbf{x}(i)) - y(i)) ⋅ xj(i)
Où :
αest le taux d'apprentissage (learning rate), qui détermine la taille des pas effectués à chaque itération.- Le terme
(1/m) ∑i=1m (hθ(&mathbf{x}(i)) - y(i)) ⋅ xj(i)est la dérivée partielle de la fonction de coûtJ(θ)par rapport àθj.
Optimisation de l'Algorithme du Gradient
1. Mise à l'échelle : Min-Max et Normalisation
La mise à l'échelle des caractéristiques est une étape cruciale pour accélérer la convergence de l'algorithme du gradient et éviter qu'une caractéristique avec une grande plage de valeurs ne domine le calcul des gradients. Sans mise à l'échelle, l'algorithme peut prendre beaucoup plus de temps pour atteindre le minimum global ou même diverger.
- Mise à l'échelle Min-Max : Redimensionne les valeurs d'une caractéristique pour qu'elles se situent dans une plage spécifique, généralement entre 0 et 1.
xj(i) := (xj(i) - xmin,j) / (xmax,j - xmin,j)Où
xmin,jest la valeur minimale etxmax,jest la valeur maximale de la variablej. - Normalisation (Z-score normalization) : Redimensionne les valeurs de manière à ce qu'elles aient une moyenne de 0 et un écart-type de 1.
xj(i) := (xj(i) - μj) / σjOù :
xj(i): La valeur de la variablejpour l'exemplei.μj: La moyenne de la variable (ou colonne)j.σj: L'écart-type de la variablej.
La non-mise à l'échelle des données d'apprentissage peut ralentir considérablement l'algorithme du gradient, rendant difficile l'atteinte du minimum de la fonction de coût.
2. Débogage de la fonction de coût J(θ)
Pour s'assurer que l'algorithme du gradient fonctionne correctement, il est essentiel de surveiller la fonction de coût J(θ). En général, J(θ) doit décroître à chaque itération et finir par converger vers un minimum.
Un test de convergence automatique peut être implémenté en arrêtant l'algorithme lorsque la différence entre la fonction de coût à l'itération actuelle et la fonction de coût à l'itération précédente est inférieure à un seuil très faible (ε) :
|J(θ(t)) - J(θ(t+1))| < ε
Où θ(t) sont les paramètres à l'itération t.
3. Choix du taux d'apprentissage (α)
Le choix du taux d'apprentissage α est crucial. Un α trop petit ralentit la convergence, tandis qu'un α trop grand peut empêcher la convergence en provoquant des dépassements du minimum (oscillations ou divergence).
Une règle empirique consiste à essayer une plage de valeurs exponentielles pour α et à visualiser l'évolution de la fonction de coût. Par exemple, on peut tester : 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, etc., et choisir la valeur qui permet une convergence rapide et stable.
Métriques de mesure de la qualité d'un modèle
Coefficient de Corrélation Linéaire (r)
Le coefficient de corrélation linéaire de Pearson (r) mesure la force et la direction de la relation linéaire entre deux variables. Il est défini par :
r = ∑i=1m ((xi - &bar;x)(yi - &bar;y)) / (&sqrt;∑i=1m (xi - &bar;x)2 ⋅ &sqrt;∑i=1m (yi - &bar;y)2)
Ou de manière équivalente :
r = Cov(X, Y) / (σX ⋅ σY)
Où :
Cov(X, Y)est la covariance entre X et Y.σXetσYsont les écarts-types de X et Y, respectivement.&bar;xet&bar;ysont les moyennes de X et Y.
Propriété : -1 ≤ r ≤ +1
r = +1indique une corrélation linéaire positive parfaite.r = -1indique une corrélation linéaire négative parfaite.r = 0indique l'absence de corrélation linéaire.
Plus la valeur absolue de r est proche de 1, plus la force de la relation linéaire est élevée.
Formule de décomposition de la variance
La variance totale de la variable cible (y) peut être décomposée en deux parties : la variance expliquée par le modèle et la variance résiduelle (erreur non expliquée).
∑i=1m (y(i) - &bar;y)2 = ∑i=1m (hθ(&mathbf{x}(i)) - &bar;y)2 + ∑i=1m (hθ(&mathbf{x}(i)) - y(i))2
Cette formule est souvent représentée comme :
Somme Totale des Carrés (SST) = Somme des Carrés Expliqués (SSR) + Somme des Carrés des Erreurs (SSE)
SST(Total Sum of Squares) : Mesure la variation totale deypar rapport à sa moyenne.SSR(Regression Sum of Squares) : Mesure la variation deyexpliquée par le modèle.SSE(Sum of Squared Errors) : Mesure la variation deynon expliquée par le modèle (les résidus).
Coefficient de Détermination (R²)
Le coefficient de détermination (R2) est une métrique clé qui indique la proportion de la variance de la variable cible qui est prévisible à partir des variables explicatives. Il est calculé comme le rapport entre la variance expliquée par le modèle et la variance totale :
R2 = SSR / SST = 1 - (SSE / SST)
R2 = ∑i=1m (hθ(&mathbf{x}(i)) - &bar;y)2 / ∑i=1m (y(i) - &bar;y)2
Propriété : 0 ≤ R2 ≤ 1
R2 = 1signifie que le modèle explique 100% de la variance de la variable cible.R2 = 0signifie que le modèle n'explique aucune partie de la variance de la variable cible (il n'est pas meilleur que la simple moyenne).
R2 représente le pourcentage de la variabilité de la variable cible qui est capturée et expliquée par le modèle de régression.
Coefficient de Détermination Ajusté (R² ajusté)
Le R2 a tendance à augmenter avec l'ajout de nouvelles variables explicatives, même si elles ne sont pas réellement pertinentes. Le coefficient de détermination ajusté (R2ajusté) corrige cette tendance en tenant compte du nombre de variables explicatives (n) et du nombre d'observations (m).
R2ajusté = 1 - [ (SSE / (m - n - 1)) / (SST / (m - 1)) ]
Une autre forme de calcul est :
R2ajusté = 1 - (1 - R2) ⋅ ((m - 1) / (m - n - 1))
Le R2ajusté est une meilleure métrique pour comparer des modèles avec un nombre différent de prédicteurs, car il pénalise l'ajout de variables explicatives non utiles. Il est toujours inférieur ou égal au R2 standard.
FAQ sur la Régression Linéaire Multiple
Qu'est-ce que la régression linéaire multiple et à quoi sert-elle ?
La régression linéaire multiple est une technique d'apprentissage supervisé qui modélise la relation entre plusieurs variables d'entrée (caractéristiques) et une variable de sortie (cible). Elle est utilisée pour prédire des valeurs continues en identifiant la relation linéaire optimale entre ces variables. Par exemple, elle peut prédire le prix d'une maison en fonction de sa superficie, du nombre de chambres, de l'âge, etc.
Pourquoi la mise à l'échelle des données est-elle cruciale pour l'algorithme du gradient ?
La mise à l'échelle des données, comme Min-Max ou la normalisation Z-score, est essentielle pour l'algorithme du gradient car elle garantit que toutes les caractéristiques contribuent de manière équitable à l'optimisation. Si les caractéristiques ont des échelles très différentes, l'algorithme du gradient peut converger lentement ou osciller, car les pas effectués pour les caractéristiques à grande échelle seront disproportionnés par rapport à celles à petite échelle, rendant la recherche du minimum plus difficile.
Comment évaluer la performance d'un modèle de régression linéaire multiple ?
La performance d'un modèle de régression linéaire multiple est généralement évaluée à l'aide de métriques telles que le coefficient de détermination (R2) et le R2 ajusté. Le R2 indique la proportion de la variance de la variable cible qui est expliquée par le modèle. Le R2 ajusté est préféré lors de la comparaison de modèles avec différents nombres de variables, car il pénalise l'ajout de prédicteurs inutiles. D'autres métriques incluent l'erreur quadratique moyenne (RMSE) ou l'erreur absolue moyenne (MAE).