Théorème de Glivenko-Cantelli

En théorie des probabilités, le théorème de Glivenko-Cantelli, communément appelé « théorème fondamental de la statistique »^[1] exprime dans quelle mesure une loi de probabilité peut être révélée par la connaissance d'un (grand) échantillon de ladite loi de probabilité.

Notations

Soit $X_{1},\ldots ,X_{n}$ un échantillon de variables aléatoires réelles i.i.d. définies sur un espace de probabilité $(\Omega ,{\mathcal {A}},\mathbb {P} )$ avec pour fonction de répartition commune $F$ .

Le théorème de Glivenko-Cantelli énonce la convergence uniforme presque partout de la fonction de répartition empirique $F_{n}$ vers $F$ . Il entraîne donc de plus la convergence en loi de $\mu _{n}$ vers la loi de probabilité $\mu$ correspondant dont la fonction de répartition est $F$ , une loi de probabilité étant caractérisée par sa fonction de répartition.

Énoncé

Théorème — Soient $(\Omega ,{\mathcal {A}},\mathbb {P} )$ un espace probabilisé. Soient $X_{1},\dots ,X_{n},\dots$ des variables aléatoires indépendantes et uniformément distribuées de même fonction de répartition $F$ . Pour $\omega \in \Omega$ , on appelle $F_{n}(\cdot ,\omega )$ la fonction de répartition empirique de l’échantillon $X_{1}(\omega ),\dots ,X_{n}(\omega )$ .

$\mathbb {P}$ -presque sûrement, la fonction de répartition empirique $F_{n}$ converge uniformément vers la fonction de répartition $F$ , ou bien, de manière équivalente :

\mathbb {P} _{\omega }\left(\lim _{n}\ \|F_{n}(\cdot ,\omega )-F\|_{\infty }=0\right)=1.

La fonction de répartition peut s'écrire comme une moyenne de variables aléatoires de Bernoulli, i.e.

F_{n}(x,\omega )={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}(\omega )\leq x\}}.

Puisque ces variables sont de moyenne $F(x)$ , la loi forte des grands nombres implique que

\forall x\in \mathbb {R} ,\quad \mathbb {P} \left(\lim _{n}\ |F_{n}(x,\omega )-F(x)|=0\right)=1,

mais il n'en découle pas nécessairement que

\mathbb {P} \left(\forall x\in \mathbb {R} ,\quad \lim _{n}\ |F_{n}(x,\omega )-F(x)|=0\right)=1,

puisqu'une intersection non dénombrable d'ensembles de probabilité 1 (ensembles presque sûrs) n'est pas nécessairement de probabilité 1. Cette intersection serait-elle de probabilité 1 qu'on n'aurait alors prouvé que la convergence simple, au lieu de la convergence uniforme énoncée par le théorème de Glivenko-Cantelli.

Le théorème de Donsker et l'inégalité DKW précisent le théorème de Glivenko-Cantelli en donnant des indications sur la rapidité de convergence, qui est de l'ordre de $1/{\sqrt {n}}.$

Démonstration

Cette preuve utilise le deuxième théorème de Dini^[2]. Pour une preuve combinatoire faisant intervenir des inégalités de concentration, voir la preuve des classes de Glivenko-Cantelli. La loi forte des grands nombres nous assure que pour tout $x\in \mathbb {R} ,F_{n}(x)$ converge presque-sûrement vers $F(x)$ et de plus $F_{n}$ est croissante pour tout $n\in \mathbb {N} ^{*}$ . Néanmoins quelques problèmes se posent pour appliquer ce théorème :

La fonction de répartition $F$ n'est pas nécessairement continue ;
La convergence n'a pas lieu sur un segment ;
La loi forte des grands nombres nous donne une convergence sur un ensemble qui dépend de $x\in \mathbb {R}$ , i.e. $\forall x\in \mathbb {R} ,\exists A_{x}\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A_{x})=1\ \mathrm {et} \ \forall \omega \in A_{x},\lim _{n\to +\infty }F_{n}(x,\omega )=F(x).$ Pour pouvoir appliquer le second théorème de Dini, il faudrait que $\exists A\in {\mathcal {A}}\ \mathrm {t.q.} \ \mathbb {P} (A)=1\ \mathrm {et} \ \forall x\in \mathbb {R} ,\forall \omega \in {\mathcal {A}},\lim _{n\to +\infty }F_{n}(x,\omega )=F_{n}(x).$

On résout les deux premiers points avec l'inverse généralisée de la fonction de répartition (appelée aussi fonction de quantile) $F^{\leftarrow }$ et le troisième grâce à la séparabilité de $\mathbb {R}$ (i.e. $\mathbb {R}$ admet un sous-ensemble dense et au plus dénombrable comme $\mathbb {Q}$ ).

Soient $U_{1},\dots ,U_{n}$ des variables i.i.d. uniformes sur $[0,1]$ alors la fonction de répartition inverse vérifie la propriété $X_{i}\ {\overset {\mathcal {L}}{=}}\ F^{\leftarrow }(U_{i})$ ^[3]. Alors

{\begin{aligned}\sup _{t\in \mathbb {R} }|F_{n}(t)-F(t)|&=\sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}\leq t\}}-F(t)\right|\\&\sim \sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{F^{\leftarrow }(U_{i})\leq t\}}-F(t)\right|=\sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq F(t)\}}-F(t)\right|\\&=\sup _{s\in F(\mathbb {R} )}\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq s\}}-s\right|\leq \sup _{s\in [0,1]}\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq s\}}-s\right|\end{aligned}}

Il suffit donc de montrer que le théorème de Glivenko-Cantelli est vrai dans le cas de variables aléatoires uniformes sur $[0,1]$ . Grâce à la loi forte des grands nombres, on a que :

\forall s\in [0,1],\exists A_{s}\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A_{s})=1\ {\textrm {et}}\ \forall \omega \in A_{s},{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}{\underset {n\to +\infty }{\longrightarrow }}s.

Il faut donc trouver un ensemble $A$ de mesure pleine qui soit uniforme pour tous les $s\in [0,1]$ . Comme $\mathbb {Q}$ est dénombrable et que l'intersection dénombrable d'ensembles de mesure pleine étant de mesure pleine, on en déduit que :

\exists A\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A)=1\ {\textrm {et}}\ \forall s\in [0,1]\cap \mathbb {Q} ,\forall \omega \in A,{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}{\underset {n\to +\infty }{\longrightarrow }}s.

Montrons que la propriété reste vraie pour tout $s\in [0,1]$ : soit $s\in [0,1]$ et $\omega \in A$ alors on se donne une suite croissante $(s_{n})_{n\in \mathbb {N} }$ et décroissante $(t_{n})_{n\in \mathbb {N} }$ appartenant à $[0,1]\cap \mathbb {Q}$ et de limite $s$ . Alors pour $l$ fixé et $n\geq 1$ :

{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s_{l}\}}\leq {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq t_{l}\}},

d'où, en faisant tendre $n\to +\infty$ ,

s_{l}\leq \liminf _{n\to +\infty }{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq \limsup _{n\to +\infty }{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq t_{l}

et on conclut en faisant tendre $l\to +\infty$ . On a donc montré que

\forall \omega \in A,{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\to s

sur $[0,1]$ . La convergence est uniforme par le deuxième théorème de Dini.

Généralisation

Article détaillé : Classe de Glivenko-Cantelli.

On pose $X_{1},\dots ,X_{n}$ des variables i.i.d. à valeurs dans un espace ${\mathcal {X}}$ de loi $P=\mathbb {P} ^{X}$ et ${\mathcal {F}}$ une classe de fonctions définies sur ${\mathcal {X}}$ à valeurs réelles. La classe ${\mathcal {F}}$ est appelée classe de Glivenko-Cantelli si elle vérifie

||P_{n}-P||_{\mathcal {F}}=\sup _{f\in {\mathcal {F}}}|P_{n}(f)-P(f)|~{\xrightarrow[{n\to +\infty }]{}}~0,

avec $P_{n}$ la mesure empirique définie par $P_{n}(f)={\frac {1}{n}}\sum _{i=1}^{n}f(X_{i})$ et $P(f)=\mathbb {E} [f(X_{1})]$ . Le théorème de Glivenko-Cantelli revient donc à dire que la classe des fonctions indicatrices ${\mathcal {F}}=\{x\mapsto \mathbf {1} _{\{x\leq t\}}:t\in \mathbb {R} \}$ est une classe de Glivenko-Cantelli.

Bibliographie

(en) Galen R. Shorack et Jon A. Wellner, Empirical Processes with Applications to Statistics, SIAM, septembre 2009, 998 p. (ISBN 978-0-89871901-7, lire en ligne)
(en) A. W. van der Vaart et J. A. Wellner, Weak Convergence and Empirical Processes : With Applications to Statistics, Springer, 1996, 508 p. (ISBN 978-0-387-94640-5, lire en ligne)
(en) Patrick Billingsley, Probability and Measure, John Wiley & Sons, 2012, 4^e éd., 656 p. (ISBN 978-1-118-34191-9, Modèle:Google Livers), p. 268

Voir aussi

Test de Kolmogorov-Smirnov

Références

↑ Benoît Cadre, « Modélisation statistique » (consulté le 4 mai 2024)
↑ Ivan Nourdin, Agrégation de mathématiques épreuve oral, Dunod, 2^e éd., p. 109
↑ Philippe Barbe et Michel Ledoux, Probabilité, EDP Sciences, coll. « Enseignement Sup », p. 50

[1] Benoît Cadre, « Modélisation statistique » (consulté le 4 mai 2024)

[2] Ivan Nourdin, Agrégation de mathématiques épreuve oral, Dunod, 2^e éd., p. 109

[3] Philippe Barbe et Michel Ledoux, Probabilité, EDP Sciences, coll. « Enseignement Sup », p. 50

[1]

[2]

[3]