Cours data mining la regression logistique

Ce document constitue un support de cours essentiel sur la régression logistique, une technique fondamentale en Data Mining. Il est spécifiquement conçu pour les étudiants universitaires, particulièrement ceux des filières informatiques et scientifiques, désireux d'acquérir une compréhension solide de l'apprentissage supervisé.

Il aborde en détail les notions suivantes:

La régression logistique en tant que méthode de classification.
La fonction sigmoïde et son rôle.
L'établissement des frontières de décision.
La conception et l'optimisation de la fonction coût.

Cours Data Mining La Regression Logistique

Télécharger PDF

Le Data Mining et la Régression Logistique

Le Data Mining, ou exploration de données, est un domaine de l'informatique qui vise à extraire des connaissances et des modèles significatifs à partir de grands ensembles de données. La régression logistique est une technique fondamentale utilisée dans ce domaine pour les tâches de classification et l'apprentissage supervisé.

Qu'est-ce que la Régression Logistique ?

La régression logistique est une technique d'apprentissage automatique utilisée pour la classification. Son objectif est de modéliser la probabilité qu'une instance appartienne à une classe particulière.

Classification Binaire : La variable cible y prend deux valeurs possibles, par exemple y ∈ {0, 1}. Cela peut représenter des scénarios comme "Vrai/Faux", "Oui/Non", ou "Maligne/Bénigne".
Classification Multi-classe : La variable cible y peut prendre plusieurs valeurs distinctes, par exemple y ∈ {0, 1, 2, ..., K}.

Exemples concrets de tâches de classification :

Déterminer si un e-mail est un spam ou non.
Prédire si un client va acheter un produit ou non.
Classer une tumeur comme maligne ou bénigne à partir de caractéristiques médicales.

La Fonction Sigmoïde (ou Logistique)

La régression logistique cherche à produire une sortie h(x) qui représente une probabilité, et qui doit donc être comprise entre 0 et 1. Pour cela, elle utilise la fonction sigmoïde (également appelée fonction logistique) :

g(z) = 1 / (1 + e^-z)

Cette fonction possède des propriétés clés :

Lorsque z tend vers l'infini négatif (z → -∞), g(z) tend vers 0.
Lorsque z tend vers l'infini positif (z → +∞), g(z) tend vers 1.
La sortie de g(z) est toujours strictement comprise entre 0 et 1 (0 < g(z) < 1).

En régression logistique, la fonction d'hypothèse h(x) est définie comme :

h(x) = g(θ^Tx) = 1 / (1 + e^{-θ^Tx})

où θ est le vecteur des paramètres du modèle (les coefficients) et x est le vecteur des caractéristiques d'entrée pour un exemple donné. L'expression θ^Tx est une combinaison linéaire des caractéristiques d'entrée.

Règle de décision :

Pour prendre une décision de classification binaire, on applique un seuil à la sortie h(x) :

Si h(x) ≥ 0,5 (ce qui correspond à θ^Tx ≥ 0), on prédit que la classe est y = 1.
Si h(x) < 0,5 (ce qui correspond à θ^Tx < 0), on prédit que la classe est y = 0.

Interprétation de la Sortie h(x) comme une Probabilité

L'une des forces de la régression logistique est que sa sortie h(x) peut être directement interprétée comme la probabilité que la variable cible y soit égale à 1, étant donné les caractéristiques x et les paramètres du modèle θ. Ceci est noté :

h(x) = P(y = 1 | x; θ)

Par conséquent, la probabilité que y soit égale à 0 est simplement le complément :

P(y = 0 | x; θ) = 1 - P(y = 1 | x; θ) = 1 - h(x)

Exemple : Si, suite à l'analyse des caractéristiques d'une nouvelle tumeur, le modèle de régression logistique calcule h(x) = 0,91. Cela signifie qu'il y a 91% de chances que la tumeur soit maligne. Par conséquent, il y a 1 - 0,91 = 0,09, soit 9% de chances que la tumeur soit bénigne.

La Frontière de Décision

La frontière de décision (ou limite de décision) est une surface ou une ligne qui sépare les différentes classes dans l'espace des caractéristiques d'entrée. L'objectif de l'apprentissage en régression logistique est de trouver les paramètres θ qui définissent cette frontière de manière à classer au mieux les données d'entraînement.

Pour une classification binaire, la frontière de décision est définie par l'ensemble des points où θ^Tx = 0. C'est le point où la probabilité h(x) est exactement de 0,5, marquant le seuil entre les deux classes.

Exemple de frontière de décision linéaire :

Considérons une frontière de décision définie par θ₀ + θ₁x₁ + θ₂x₂ = 0. Si les paramètres sont tels que -3 + x₁ + x₂ ≥ 0, on prédit y = 1. La frontière de décision est alors la droite x₁ + x₂ = 3. Tous les points (x₁, x₂) se trouvant sur ou au-dessus de cette droite seront classés comme appartenant à la classe 1, tandis que ceux en dessous seront classés comme appartenant à la classe 0.

Il est important de noter que la frontière de décision peut être linéaire (comme dans l'exemple ci-dessus) ou non linéaire, selon les caractéristiques utilisées. En ajoutant des termes polynomiaux (par exemple, x₁², x₂², x₁x₂), on peut créer des frontières de décision plus complexes et non linéaires.

La Fonction de Coût en Régression Logistique

Pour entraîner un modèle de régression logistique, nous avons besoin d'une fonction de coût qui évalue la performance du modèle. Cette fonction doit être minimisée pour trouver les paramètres θ optimaux.

Pourquoi ne pas utiliser la fonction de coût de la régression linéaire ?

En régression linéaire, la fonction de coût est l'erreur quadratique moyenne (Mean Squared Error - MSE) :

J(θ) = 1/(2m) Σ_i=1^m (h(x_i) - y_i)²

Si cette fonction de coût était utilisée avec la fonction d'hypothèse de la régression logistique (qui inclut la sigmoïde), la fonction de coût résultante serait non-convexe. Une fonction non-convexe a plusieurs minima locaux, ce qui rend la tâche d'un algorithme d'optimisation (tel que la descente de gradient) très difficile, voire impossible, pour converger vers le minimum global et trouver les meilleurs paramètres du modèle.

La Fonction de Coût Cross-Entropie (ou Log Loss)

Pour la régression logistique, on utilise une fonction de coût basée sur la cross-entropie (également appelée "log loss"), qui est convexe. Cette convexité garantit que la descente de gradient convergera vers le minimum global.

Le coût pour un seul exemple d'entraînement (x, y) est défini comme suit :

Coût(h(x), y) = -log(h(x)) si y = 1
Coût(h(x), y) = -log(1 - h(x)) si y = 0

Ces deux cas peuvent être combinés en une seule expression, très pratique pour l'implémentation :

Coût(h(x), y) = -y ⋅ log(h(x)) - (1 - y) ⋅ log(1 - h(x))

La fonction de coût globale J(θ) pour l'ensemble des m exemples d'entraînement est la moyenne de tous les coûts individuels :

J(θ) = -1/m Σ_i=1^m [y_i ⋅ log(h(x_i)) + (1 - y_i) ⋅ log(1 - h(x_i))]

L'Algorithme de Descente de Gradient

L'algorithme de la descente de gradient est la méthode d'optimisation la plus couramment utilisée pour minimiser la fonction de coût J(θ) et ainsi trouver les valeurs optimales des paramètres θ.

La règle de mise à jour des paramètres pour chaque θ_j est itérative et se présente comme suit :

Répéter jusqu'à convergence {

θ_j := θ_j - α ⋅ (1/m) Σ_i=1^m [(h(x_i) - y_i) ⋅ x_ij]

}

où :

α (alpha) est le taux d'apprentissage, qui contrôle la taille des pas effectués à chaque itération.
m est le nombre d'exemples d'entraînement dans le jeu de données.
h(x_i) est la prédiction du modèle pour l'exemple i (en utilisant la fonction sigmoïde pour la régression logistique).
y_i est la valeur réelle (l'étiquette) pour l'exemple i.
x_ij est la j-ième caractéristique de l'exemple i.

Il est crucial de noter que, bien que la formule de mise à jour des paramètres de la descente de gradient puisse sembler similaire à celle de la régression linéaire, la fonction d'hypothèse h(x) est fondamentalement différente :

En Régression Linéaire : h(x) = θ^Tx (une sortie linéaire).
En Régression Logistique : h(x) = 1 / (1 + e^{-θ^Tx}) (une sortie non linéaire, bornée entre 0 et 1).

FAQ sur la Régression Logistique

Qu'est-ce qui distingue la régression logistique de la régression linéaire ?

La régression linéaire est conçue pour prédire une valeur continue (par exemple, le prix d'une maison), tandis que la régression logistique est utilisée pour la classification, c'est-à-dire pour prédire la probabilité qu'une observation appartienne à une classe spécifique (généralement binaire). Pour ce faire, la régression logistique utilise la fonction sigmoïde pour transformer sa sortie en une valeur entre 0 et 1, interprétable comme une probabilité.

Pourquoi la fonction sigmoïde est-elle essentielle en régression logistique ?

La fonction sigmoïde est cruciale car elle permet de mapper la sortie linéaire d'un modèle (θ^Tx) à une valeur comprise entre 0 et 1, ce qui est indispensable pour interpréter la sortie comme une probabilité. Elle introduit également une non-linéarité nécessaire pour modéliser des relations complexes et créer une frontière de décision claire pour la classification.

Quel est l'objectif de la fonction de coût cross-entropie en régression logistique ?

L'objectif de la fonction de coût cross-entropie (ou log loss) est de mesurer l'écart entre les probabilités prédites par le modèle et les vraies étiquettes de classe. En minimisant cette fonction, l'algorithme de descente de gradient ajuste les paramètres θ de manière à ce que le modèle attribue des probabilités élevées aux classes correctes et des probabilités faibles aux classes incorrectes, conduisant ainsi à des prédictions plus précises.