Chapitre 4 — Corrélation et causalité
Programme officiel — Maths complémentaires, thème "Corrélation et causalité".
Mobilise : statistiques descriptives, ajustement linéaire, esprit critique en science des données.
Cadrage
Ce thème enseigne à distinguer :
- Une corrélation (deux variables évoluent ensemble) — relation statistique.
- Une causalité (l'une cause l'autre) — relation mécanique ou explicative.
Une corrélation n'implique pas une causalité. C'est l'enseignement central du thème.
Corrélation statistique
Nuage de points et droite d'ajustement
Pour deux séries statistiques et liées (chaque individu a un couple ), on trace un nuage de points dans un repère.
Ajustement linéaire : on cherche la droite qui "passe au mieux" par le nuage (méthode des moindres carrés).
Coefficient de corrélation linéaire
Le coefficient (ou ) mesure la "linéarité" du lien :
- : alignement parfait positif (quand augmente, augmente proportionnellement).
- : alignement parfait négatif.
- : aucune corrélation linéaire (mais peut y avoir une autre forme de lien).
- : corrélation forte.
- : corrélation moyenne.
- : corrélation faible.
Calcul (à la calculatrice généralement) :
Coefficient de détermination
mesure la part de la variance de expliquée par via l'ajustement linéaire.
- → 81 % de la variation de est expliquée linéairement par .
- Plus est proche de 1, meilleur est l'ajustement.
Causalité
Définition (critères de Bradford Hill, 1965)
Une causalité entre et suppose :
- Antériorité : précède temporellement .
- Plausibilité biologique/mécanique : un mécanisme explique le lien.
- Reproductibilité : observée dans plusieurs études indépendantes.
- Spécificité : un effet précis et identifiable.
- Gradient dose-réponse : plus de → plus de .
Variables confondantes
Une variable confondante est une variable qui influence simultanément et , créant une corrélation apparente entre et sans qu'il y ait causalité.
Exemple : ventes de glaces et noyades sont fortement corrélées en été. Mais l'une ne cause pas l'autre — la variable confondante est la température.
Exemples classiques
Cigogne et naissances
Donnée : corrélation positive entre nombre de cigognes par village et nombre de naissances.
Conclusion erronée : les cigognes apportent les bébés.
Variable confondante : les villages ruraux ont à la fois plus de cigognes (nature) et plus de naissances (familles plus nombreuses).
Crème glacée et noyades
Donnée : corrélation entre consommation de glaces et noyades.
Variable confondante : la saison estivale (chaleur).
Salaire et santé
Donnée : corrélation positive entre salaire et longévité.
Variables confondantes : accès aux soins, alimentation, environnement de travail moins pénible. La causalité est complexe, multifactorielle.
Test statistique
Test de significativité
Question : avec observations, un coefficient observé est-il significativement différent de 0 (= il y a vraiment corrélation, pas du hasard) ?
Seuil empirique (au programme) : si , alors la corrélation est significative au seuil de 5 %.
Exemple : avec couples, le seuil est . Toute corrélation est significative ; toute corrélation est compatible avec le hasard.
Méthode pour analyser une corrélation
- Tracer le nuage : avant tout calcul, vérifier visuellement s'il y a une tendance linéaire.
- Calculer et (à la calculatrice).
- Vérifier la significativité : ?
- Si oui, chercher la causalité :
- Est-ce que pourrait causer ? (sens 1)
- Est-ce que pourrait causer ? (sens 2)
- Existe-t-il une variable confondante ?
- Est-ce simplement du hasard malgré la significativité ?
Exercice-type
Énoncé : Une étude sur 50 villes mesure le nombre de pizzerias par habitant () et le taux d'obésité (). On trouve .
- La corrélation est-elle significative au seuil 5 % ?
- Peut-on conclure que manger de la pizza cause l'obésité ?
- Quelles variables confondantes proposeriez-vous ?
Corrigé :
-
Seuil : . Or . Oui, la corrélation est significative.
-
Non. Une corrélation, même significative, n'implique pas une causalité. D'autres explications possibles : la pizza n'est qu'un marqueur d'un mode de vie, ou un comportement de consommation lié à un revenu particulier.
-
Variables confondantes possibles :
- Niveau de vie : zones où il y a plus de pizzerias sont aussi des zones où il y a d'autres facteurs liés à l'obésité (sédentarité urbaine, accès limité à des aliments frais).
- Densité urbaine : zones denses = plus de restaurants ET plus de sédentarité.
- Âge moyen de la population.
Pièges à éviter
-
Corrélation ⇒ causalité. Le piège n°1, et c'est l'enseignement central du thème. Toujours chercher l'alternative (variable confondante, hasard, inversion de la cause).
-
Tester sans regarder le nuage. Un proche de 0 peut masquer une relation non-linéaire (par exemple parabolique). Toujours tracer.
-
Confondre corrélation forte et causalité prouvée. Même n'est pas une preuve de causalité, juste une preuve de relation linéaire.
-
Ignorer la taille de l'échantillon. Avec 5 individus, un est facilement du hasard ; avec 1 000, un peut être significatif mais minuscule en pratique.
Q&R pour le tuteur IA
Q : Comment détecter une variable confondante ? R : (1) Lister les facteurs qui pourraient influencer les deux variables. (2) Si possible, stratifier : refaire l'analyse en contrôlant cette variable (par exemple : analyser uniquement en hiver pour éliminer la saison). (3) Faire une analyse multivariée (au-delà du programme terminale, mais important conceptuellement).
Q : Pourquoi ? R : mesure le carré de la "linéarité". Il vaut 1 quand l'ajustement linéaire est parfait, 0 quand le nuage est totalement dispersé. Mathématiquement, est la fraction de variance expliquée par la régression linéaire.
Q : Une corrélation négative est-elle "moins forte" qu'une corrélation positive ? R : Non. Le signe indique le sens de la relation (positif : varient ensemble, négatif : varient à l'inverse). La force dépend de , pas du signe. est aussi forte qu'.
Q : Existe-t-il un cas où corrélation = causalité ? R : Oui, mais cela nécessite des expériences randomisées contrôlées (essais cliniques en médecine, A/B tests en marketing). En observation pure (sans intervention), on ne peut jamais prouver la causalité — on peut seulement l'écarter (si la corrélation est nulle) ou la rendre plausible.