Définitions associées

R-carré ou R2

Qu'est-ce que le coefficient de détermination ? c'est un indicateur statistique important dans l'analyse de régression.

Comprendre le Coefficient de Détermination R²


Un indicateur clé de la qualité de prédiction en régression

Attention, définition technique.

Le coefficient de détermination, communément appelé R² (et non, il ne s’agit pas d’un robot dans Star Wars), est un indicateur statistique important dans l'analyse de régression. En termes mathématiques, ce coefficient mesure la proportion de la variance des valeurs d'une variable dépendante expliquée par le modèle de régression.

En termes plus simples, il évalue l'adéquation du modèle à vos données. Pour les investisseurs (plus ou moins expérimentés), comprendre R² est fondamental pour interpréter correctement les résultats d'une régression et évaluer la pertinence d'un modèle prédictif.

Définition et calcul de R²

Le coefficient de détermination R² est défini mathématiquement comme la somme des carrés des résidus expliqués par le modèle divisée par la somme totale des carrés. Voici l'équation générale, en utilisant une notation en displaystyle :

R² = 1 − ∑(yi − ŷi)² / ∑(yi − ȳ)²

Où :

  • yi représente les valeurs observées de la variable dépendante,
  • ŷi représente les valeurs prédites par le modèle,
  • est la moyenne des valeurs observées,
  • ∑(yi − ŷi)² est la somme des carrés des résidus (ou erreurs),
  • ∑(yi − ȳ)² est la somme totale des carrés, qui mesure la dispersion totale des valeurs observées.

Le résultat est une valeur comprise entre 0 et 1, où 0 indique que le modèle n'explique strictement rien de la dispersion des données, et 1 indique une explication complète.

Interprétation de R²

L'interprétation de R² dépend du contexte de l'analyse et du domaine d'application.

  • Adéquation du Modèle : Un R² proche de 1 signifie que le modèle offre un ajustement pertinent aux données, expliquant une grande partie de la variance observée. Par exemple, un R² de 0,85 signifie que 85 % de la variance des données est expliquée, ce qui indique une forte corrélation entre les variables explicatives et la variable réponse.
  • Limites de R² : Toutefois, un R² élevé ne garantit pas toujours que le modèle est optimal. Il est essentiel de vérifier les hypothèses sous-jacentes et d'examiner les résidus pour s'assurer que le modèle est bien ajusté. En outre, dans les régressions avec plusieurs variables explicatives, le coefficient R² peut augmenter simplement en ajoutant plus de variables, même si ces dernières ne sont pas significatives statistiquement.

R² ajusté

Pour contrer cette limitation, on utilise souvent le R² ajusté, qui prend en compte le nombre de variables explicatives dans le modèle et pénalise l'ajout de variables non pertinentes. Le R² ajusté est défini mathématiquement comme suit :

R² ajusté = 1 − [(1 − R²) (n − 1)] / (n − p − 1)

Où :

  • n est le nombre total d'observations,
  • p est le nombre de variables explicatives dans le modèle.

Le R² ajusté est particulièrement utile dans les régressions multiples, car il permet de comparer l'adéquation de différents modèles ayant un nombre variable de prédicteurs.

Utilisation du R² dans la pratique

  • Exemple de régression linéaire simple : Supposons que vous souhaitiez prédire le revenu annuel d'un individu en fonction de son nombre d'années d'expérience professionnelle. En effectuant une régression linéaire simple, vous obtiendrez un coefficient R² qui vous indiquera dans quelle mesure l'expérience explique la variance des revenus dans vos données.
  • Régression linéaire multiple : Si vous ajoutez d'autres variables explicatives telles que le niveau d'éducation, le secteur d'activité, ou la localisation géographique de cet individu, le modèle devient une régression multiple. Le R² ajusté sera alors un indicateur clé pour évaluer l'amélioration par rapport à une régression simple.
  • Analyse des résidus : Après avoir calculé R², il est crucial d'examiner les résidus (les erreurs de prédiction) pour s'assurer qu'ils sont distribués de manière aléatoire. Une tendance non aléatoire dans les résidus peut indiquer une mauvaise spécification du modèle ou la présence de variables omises.

Limites et Autres Mesures Complémentaires

Bien que R² soit une mesure largement utilisée, elle n'est pas la seule à être considérée lors de l'évaluation d'une régression.

  • Variance des résidus : Une faible variance des résidus par rapport à la variance totale des données est également un indicateur de la qualité du modèle. Une variance élevée des résidus peut indiquer que le modèle ne capte pas bien les variations dans les données.
  • Significativité des coefficients : En plus de R², il est important de tester la significativité statistique des coefficients du modèle (par exemple, à l'aide de tests t). Un coefficient significatif indique une relation statistiquement notable entre la variable explicative et la variable réponse.
  • Tests statistiques : Des tests comme le F-test peuvent être utilisés pour évaluer l'adéquation globale de la régression. Un résultat significatif indique que le modèle explique une proportion substantielle de la variance des données.
  • Autres mesures : Pour des modèles plus complexes, d'autres mesures telles que le Mean Squared Error (MSE) ou le Root Mean Squared Error (RMSE) peuvent fournir des informations complémentaires sur l'exactitude des prédictions du modèle.

Conclusion

Le coefficient de détermination R² est un outil puissant pour évaluer l'ajustement d'un modèle de régression. Pour les investisseurs, comprendre et interpréter correctement R² est essentiel pour analyser des données, prédire des résultats, et prendre des décisions éclairées.

Cependant, il est crucial de l'utiliser en complément d'autres mesures et d'examiner attentivement les hypothèses sous-jacentes pour s'assurer que le modèle choisi est approprié et fiable.

Mettez votre épargne en mouvement

Cashbee, les meilleurs placements dans une application mobile.

Cashbee sur l'App StoreCashbee sur Google Play