Bac Maths Complémentaires 2026 — 9 thèmes appliqués

Chapitre 4 — Corrélation et causalité

Programme officiel — Maths complémentaires, thème "Corrélation et causalité".

Mobilise : statistiques descriptives, ajustement linéaire, esprit critique en science des données.

Cadrage

Ce thème enseigne à distinguer :

  • Une corrélation (deux variables évoluent ensemble) — relation statistique.
  • Une causalité (l'une cause l'autre) — relation mécanique ou explicative.

Une corrélation n'implique pas une causalité. C'est l'enseignement central du thème.

Corrélation statistique

Nuage de points et droite d'ajustement

Pour deux séries statistiques (xi)(x_i) et (yi)(y_i) liées (chaque individu a un couple (xi,yi)(x_i, y_i)), on trace un nuage de points dans un repère.

Ajustement linéaire : on cherche la droite y=ax+by = ax + b qui "passe au mieux" par le nuage (méthode des moindres carrés).

Coefficient de corrélation linéaire

Le coefficient rr (ou ρ\rho) mesure la "linéarité" du lien : r[1,1]r \in [-1, 1]

  • r=1r = 1 : alignement parfait positif (quand xx augmente, yy augmente proportionnellement).
  • r=1r = -1 : alignement parfait négatif.
  • r=0r = 0 : aucune corrélation linéaire (mais peut y avoir une autre forme de lien).
  • r>0,8|r| > 0{,}8 : corrélation forte.
  • r[0,5;0,8]|r| \in [0{,}5; 0{,}8] : corrélation moyenne.
  • r<0,5|r| < 0{,}5 : corrélation faible.

Calcul (à la calculatrice généralement) : r=cov(X,Y)σXσYr = \dfrac{\text{cov}(X, Y)}{\sigma_X \cdot \sigma_Y}

Coefficient de détermination R2R^2

R2=r2R^2 = r^2 mesure la part de la variance de YY expliquée par XX via l'ajustement linéaire.

  • R2=0,81R^2 = 0{,}81 → 81 % de la variation de YY est expliquée linéairement par XX.
  • Plus R2R^2 est proche de 1, meilleur est l'ajustement.

Causalité

Définition (critères de Bradford Hill, 1965)

Une causalité entre XX et YY suppose :

  1. Antériorité : XX précède temporellement YY.
  2. Plausibilité biologique/mécanique : un mécanisme explique le lien.
  3. Reproductibilité : observée dans plusieurs études indépendantes.
  4. Spécificité : un effet précis et identifiable.
  5. Gradient dose-réponse : plus de XX → plus de YY.

Variables confondantes

Une variable confondante ZZ est une variable qui influence simultanément XX et YY, créant une corrélation apparente entre XX et YY sans qu'il y ait causalité.

Exemple : ventes de glaces et noyades sont fortement corrélées en été. Mais l'une ne cause pas l'autre — la variable confondante est la température.

Exemples classiques

Cigogne et naissances

Donnée : corrélation positive entre nombre de cigognes par village et nombre de naissances.

Conclusion erronée : les cigognes apportent les bébés.

Variable confondante : les villages ruraux ont à la fois plus de cigognes (nature) et plus de naissances (familles plus nombreuses).

Crème glacée et noyades

Donnée : corrélation r0,9r \approx 0{,}9 entre consommation de glaces et noyades.

Variable confondante : la saison estivale (chaleur).

Salaire et santé

Donnée : corrélation positive entre salaire et longévité.

Variables confondantes : accès aux soins, alimentation, environnement de travail moins pénible. La causalité est complexe, multifactorielle.

Test statistique

Test de significativité

Question : avec nn observations, un coefficient rr observé est-il significativement différent de 0 (= il y a vraiment corrélation, pas du hasard) ?

Seuil empirique (au programme) : si r>2n|r| > \dfrac{2}{\sqrt{n}}, alors la corrélation est significative au seuil de 5 %.

Exemple : avec n=100n = 100 couples, le seuil est 2/10=0,22/10 = 0{,}2. Toute corrélation r>0,2|r| > 0{,}2 est significative ; toute corrélation r<0,2|r| < 0{,}2 est compatible avec le hasard.

Méthode pour analyser une corrélation

  1. Tracer le nuage : avant tout calcul, vérifier visuellement s'il y a une tendance linéaire.
  2. Calculer rr et R2R^2 (à la calculatrice).
  3. Vérifier la significativité : r>2/n|r| > 2/\sqrt{n} ?
  4. Si oui, chercher la causalité :
    • Est-ce que XX pourrait causer YY ? (sens 1)
    • Est-ce que YY pourrait causer XX ? (sens 2)
    • Existe-t-il une variable confondante ZZ ?
    • Est-ce simplement du hasard malgré la significativité ?

Exercice-type

Énoncé : Une étude sur 50 villes mesure le nombre de pizzerias par habitant (XX) et le taux d'obésité (YY). On trouve r=0,48r = 0{,}48.

  1. La corrélation est-elle significative au seuil 5 % ?
  2. Peut-on conclure que manger de la pizza cause l'obésité ?
  3. Quelles variables confondantes proposeriez-vous ?

Corrigé :

  1. Seuil : 2/50=2/7,070,2832/\sqrt{50} = 2/7{,}07 \approx 0{,}283. Or 0,48>0,283|0{,}48| > 0{,}283. Oui, la corrélation est significative.

  2. Non. Une corrélation, même significative, n'implique pas une causalité. D'autres explications possibles : la pizza n'est qu'un marqueur d'un mode de vie, ou un comportement de consommation lié à un revenu particulier.

  3. Variables confondantes possibles :

    • Niveau de vie : zones où il y a plus de pizzerias sont aussi des zones où il y a d'autres facteurs liés à l'obésité (sédentarité urbaine, accès limité à des aliments frais).
    • Densité urbaine : zones denses = plus de restaurants ET plus de sédentarité.
    • Âge moyen de la population.

Pièges à éviter

  1. Corrélation ⇒ causalité. Le piège n°1, et c'est l'enseignement central du thème. Toujours chercher l'alternative (variable confondante, hasard, inversion de la cause).

  2. Tester rr sans regarder le nuage. Un rr proche de 0 peut masquer une relation non-linéaire (par exemple parabolique). Toujours tracer.

  3. Confondre corrélation forte et causalité prouvée. Même r=0,99r = 0{,}99 n'est pas une preuve de causalité, juste une preuve de relation linéaire.

  4. Ignorer la taille de l'échantillon. Avec 5 individus, un r=0,7r = 0{,}7 est facilement du hasard ; avec 1 000, un r=0,1r = 0{,}1 peut être significatif mais minuscule en pratique.

Q&R pour le tuteur IA

Q : Comment détecter une variable confondante ? R : (1) Lister les facteurs qui pourraient influencer les deux variables. (2) Si possible, stratifier : refaire l'analyse en contrôlant cette variable (par exemple : analyser uniquement en hiver pour éliminer la saison). (3) Faire une analyse multivariée (au-delà du programme terminale, mais important conceptuellement).

Q : Pourquoi R2=r2R^2 = r^2 ? R : R2R^2 mesure le carré de la "linéarité". Il vaut 1 quand l'ajustement linéaire est parfait, 0 quand le nuage est totalement dispersé. Mathématiquement, R2R^2 est la fraction de variance expliquée par la régression linéaire.

Q : Une corrélation négative est-elle "moins forte" qu'une corrélation positive ? R : Non. Le signe indique le sens de la relation (positif : varient ensemble, négatif : varient à l'inverse). La force dépend de r|r|, pas du signe. r=0,9r = -0{,}9 est aussi forte qu'r=0,9r = 0{,}9.

Q : Existe-t-il un cas où corrélation = causalité ? R : Oui, mais cela nécessite des expériences randomisées contrôlées (essais cliniques en médecine, A/B tests en marketing). En observation pure (sans intervention), on ne peut jamais prouver la causalité — on peut seulement l'écarter (si la corrélation est nulle) ou la rendre plausible.

Cette fiche fait partie du kit

Bac Maths Complémentaires 2026 — 9 thèmes appliqués

Tu as lu la fiche. La science est claire : se tester multiplie par 3 ta rétention. Active le Kit pour générer quiz, flashcards et chatter avec le Tuteur IA sur cette fiche.

Réviser ce Kit · 15 jetons