En théorie des probabilités , le théorème de Glivenko -Cantelli , communément appelé « théorème fondamental de la statistique »[ 1] exprime dans quelle mesure une loi de probabilité peut être révélée par la connaissance d'un (grand) échantillon de ladite loi de probabilité.
Soit
X
1
,
…
,
X
n
{\displaystyle X_{1},\ldots ,X_{n}}
un échantillon de variables aléatoires réelles i.i.d. définies sur un espace de probabilité
(
Ω
,
A
,
P
)
{\displaystyle (\Omega ,{\mathcal {A}},\mathbb {P} )}
avec pour fonction de répartition commune
F
{\displaystyle F}
.
Le théorème de Glivenko-Cantelli énonce la convergence uniforme presque partout de la fonction de répartition empirique
F
n
{\displaystyle F_{n}}
vers
F
{\displaystyle F}
. Il entraîne donc de plus la convergence en loi de
μ
n
{\displaystyle \mu _{n}}
vers la loi de probabilité
μ
{\displaystyle \mu }
correspondant dont la fonction de répartition est
F
{\displaystyle F}
, une loi de probabilité étant caractérisée par sa fonction de répartition .
Théorème — Soient
(
Ω
,
A
,
P
)
{\displaystyle (\Omega ,{\mathcal {A}},\mathbb {P} )}
un espace probabilisé . Soient
X
1
,
…
,
X
n
,
…
{\displaystyle X_{1},\dots ,X_{n},\dots }
des variables aléatoires indépendantes et uniformément distribuées de même fonction de répartition
F
{\displaystyle F}
. Pour
ω
∈
Ω
{\displaystyle \omega \in \Omega }
, on appelle
F
n
(
⋅
,
ω
)
{\displaystyle F_{n}(\cdot ,\omega )}
la fonction de répartition empirique de l’échantillon
X
1
(
ω
)
,
…
,
X
n
(
ω
)
{\displaystyle X_{1}(\omega ),\dots ,X_{n}(\omega )}
.
P
{\displaystyle \mathbb {P} }
-presque sûrement , la fonction de répartition empirique
F
n
{\displaystyle F_{n}}
converge uniformément vers la fonction de répartition
F
{\displaystyle F}
, ou bien, de manière équivalente :
P
ω
(
lim
n
‖
F
n
(
⋅
,
ω
)
−
F
‖
∞
=
0
)
=
1.
{\displaystyle \mathbb {P} _{\omega }\left(\lim _{n}\ \|F_{n}(\cdot ,\omega )-F\|_{\infty }=0\right)=1.}
La fonction de répartition peut s'écrire comme une moyenne de variables aléatoires de Bernoulli, i.e.
F
n
(
x
,
ω
)
=
1
n
∑
i
=
1
n
1
{
X
i
(
ω
)
≤
x
}
.
{\displaystyle F_{n}(x,\omega )={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}(\omega )\leq x\}}.}
Puisque ces variables sont de moyenne
F
(
x
)
{\displaystyle F(x)}
, la loi forte des grands nombres implique que
∀
x
∈
R
,
P
(
lim
n
|
F
n
(
x
,
ω
)
−
F
(
x
)
|
=
0
)
=
1
,
{\displaystyle \forall x\in \mathbb {R} ,\quad \mathbb {P} \left(\lim _{n}\ |F_{n}(x,\omega )-F(x)|=0\right)=1,}
mais il n'en découle pas nécessairement que
P
(
∀
x
∈
R
,
lim
n
|
F
n
(
x
,
ω
)
−
F
(
x
)
|
=
0
)
=
1
,
{\displaystyle \mathbb {P} \left(\forall x\in \mathbb {R} ,\quad \lim _{n}\ |F_{n}(x,\omega )-F(x)|=0\right)=1,}
puisqu'une intersection non dénombrable d'ensembles de probabilité 1 (ensembles presque sûrs ) n'est pas nécessairement de probabilité 1. Cette intersection serait-elle de probabilité 1 qu'on n'aurait alors prouvé que la convergence simple , au lieu de la convergence uniforme énoncée par le théorème de Glivenko-Cantelli.
Le théorème de Donsker et l'inégalité DKW précisent le théorème de Glivenko-Cantelli en donnant des indications sur la rapidité de convergence, qui est de l'ordre de
1
/
n
.
{\displaystyle 1/{\sqrt {n}}.}
Cette preuve utilise le deuxième théorème de Dini [ 2] . Pour une preuve combinatoire faisant intervenir des inégalités de concentration , voir la preuve des classes de Glivenko-Cantelli . La loi forte des grands nombres nous assure que pour tout
x
∈
R
,
F
n
(
x
)
{\displaystyle x\in \mathbb {R} ,F_{n}(x)}
converge presque-sûrement vers
F
(
x
)
{\displaystyle F(x)}
et de plus
F
n
{\displaystyle F_{n}}
est croissante pour tout
n
∈
N
∗
{\displaystyle n\in \mathbb {N} ^{*}}
. Néanmoins quelques problèmes se posent pour appliquer ce théorème :
La fonction de répartition
F
{\displaystyle F}
n'est pas nécessairement continue ;
La convergence n'a pas lieu sur un segment ;
La loi forte des grands nombres nous donne une convergence sur un ensemble qui dépend de
x
∈
R
{\displaystyle x\in \mathbb {R} }
, i.e.
∀
x
∈
R
,
∃
A
x
∈
A
t.q.
P
(
A
x
)
=
1
e
t
∀
ω
∈
A
x
,
lim
n
→
+
∞
F
n
(
x
,
ω
)
=
F
(
x
)
.
{\displaystyle \forall x\in \mathbb {R} ,\exists A_{x}\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A_{x})=1\ \mathrm {et} \ \forall \omega \in A_{x},\lim _{n\to +\infty }F_{n}(x,\omega )=F(x).}
Pour pouvoir appliquer le second théorème de Dini, il faudrait que
∃
A
∈
A
t
.
q
.
P
(
A
)
=
1
e
t
∀
x
∈
R
,
∀
ω
∈
A
,
lim
n
→
+
∞
F
n
(
x
,
ω
)
=
F
n
(
x
)
.
{\displaystyle \exists A\in {\mathcal {A}}\ \mathrm {t.q.} \ \mathbb {P} (A)=1\ \mathrm {et} \ \forall x\in \mathbb {R} ,\forall \omega \in {\mathcal {A}},\lim _{n\to +\infty }F_{n}(x,\omega )=F_{n}(x).}
On résout les deux premiers points avec l'inverse généralisée de la fonction de répartition (appelée aussi fonction de quantile )
F
←
{\displaystyle F^{\leftarrow }}
et le troisième grâce à la séparabilité de
R
{\displaystyle \mathbb {R} }
(i.e.
R
{\displaystyle \mathbb {R} }
admet un sous-ensemble dense et au plus dénombrable comme
Q
{\displaystyle \mathbb {Q} }
).
Soient
U
1
,
…
,
U
n
{\displaystyle U_{1},\dots ,U_{n}}
des variables i.i.d. uniformes sur
[
0
,
1
]
{\displaystyle [0,1]}
alors la fonction de répartition inverse vérifie la propriété
X
i
=
L
F
←
(
U
i
)
{\displaystyle X_{i}\ {\overset {\mathcal {L}}{=}}\ F^{\leftarrow }(U_{i})}
[ 3] . Alors
sup
t
∈
R
|
F
n
(
t
)
−
F
(
t
)
|
=
sup
t
∈
R
|
1
n
∑
i
=
1
n
1
{
X
i
≤
t
}
−
F
(
t
)
|
∼
sup
t
∈
R
|
1
n
∑
i
=
1
n
1
{
F
←
(
U
i
)
≤
t
}
−
F
(
t
)
|
=
sup
t
∈
R
|
1
n
∑
i
=
1
n
1
{
U
i
≤
F
(
t
)
}
−
F
(
t
)
|
=
sup
s
∈
F
(
R
)
|
1
n
∑
i
=
1
n
1
{
U
i
≤
s
}
−
s
|
≤
sup
s
∈
[
0
,
1
]
|
1
n
∑
i
=
1
n
1
{
U
i
≤
s
}
−
s
|
{\displaystyle {\begin{aligned}\sup _{t\in \mathbb {R} }|F_{n}(t)-F(t)|&=\sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}\leq t\}}-F(t)\right|\\&\sim \sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{F^{\leftarrow }(U_{i})\leq t\}}-F(t)\right|=\sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq F(t)\}}-F(t)\right|\\&=\sup _{s\in F(\mathbb {R} )}\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq s\}}-s\right|\leq \sup _{s\in [0,1]}\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq s\}}-s\right|\end{aligned}}}
Il suffit donc de montrer que le théorème de Glivenko-Cantelli est vrai dans le cas de variables aléatoires uniformes sur
[
0
,
1
]
{\displaystyle [0,1]}
. Grâce à la loi forte des grands nombres, on a que :
∀
s
∈
[
0
,
1
]
,
∃
A
s
∈
A
t.q.
P
(
A
s
)
=
1
et
∀
ω
∈
A
s
,
1
n
∑
k
=
1
n
1
{
U
k
(
ω
)
≤
s
}
⟶
n
→
+
∞
s
.
{\displaystyle \forall s\in [0,1],\exists A_{s}\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A_{s})=1\ {\textrm {et}}\ \forall \omega \in A_{s},{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}{\underset {n\to +\infty }{\longrightarrow }}s.}
Il faut donc trouver un ensemble
A
{\displaystyle A}
de mesure pleine qui soit uniforme pour tous les
s
∈
[
0
,
1
]
{\displaystyle s\in [0,1]}
. Comme
Q
{\displaystyle \mathbb {Q} }
est dénombrable et que l'intersection dénombrable d'ensembles de mesure pleine étant de mesure pleine, on en déduit que :
∃
A
∈
A
t.q.
P
(
A
)
=
1
et
∀
s
∈
[
0
,
1
]
∩
Q
,
∀
ω
∈
A
,
1
n
∑
k
=
1
n
1
{
U
k
(
ω
)
≤
s
}
⟶
n
→
+
∞
s
.
{\displaystyle \exists A\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A)=1\ {\textrm {et}}\ \forall s\in [0,1]\cap \mathbb {Q} ,\forall \omega \in A,{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}{\underset {n\to +\infty }{\longrightarrow }}s.}
Montrons que la propriété reste vraie pour tout
s
∈
[
0
,
1
]
{\displaystyle s\in [0,1]}
: soit
s
∈
[
0
,
1
]
{\displaystyle s\in [0,1]}
et
ω
∈
A
{\displaystyle \omega \in A}
alors on se donne une suite croissante
(
s
n
)
n
∈
N
{\displaystyle (s_{n})_{n\in \mathbb {N} }}
et décroissante
(
t
n
)
n
∈
N
{\displaystyle (t_{n})_{n\in \mathbb {N} }}
appartenant à
[
0
,
1
]
∩
Q
{\displaystyle [0,1]\cap \mathbb {Q} }
et de limite
s
{\displaystyle s}
. Alors pour
l
{\displaystyle l}
fixé et
n
≥
1
{\displaystyle n\geq 1}
:
1
n
∑
k
=
1
n
1
{
U
k
(
ω
)
≤
s
l
}
≤
1
n
∑
k
=
1
n
1
{
U
k
(
ω
)
≤
s
}
≤
1
n
∑
k
=
1
n
1
{
U
k
(
ω
)
≤
t
l
}
,
{\displaystyle {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s_{l}\}}\leq {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq t_{l}\}},}
d'où, en faisant tendre
n
→
+
∞
{\displaystyle n\to +\infty }
,
s
l
≤
lim inf
n
→
+
∞
1
n
∑
k
=
1
n
1
{
U
k
(
ω
)
≤
s
}
≤
lim sup
n
→
+
∞
1
n
∑
k
=
1
n
1
{
U
k
(
ω
)
≤
s
}
≤
t
l
{\displaystyle s_{l}\leq \liminf _{n\to +\infty }{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq \limsup _{n\to +\infty }{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq t_{l}}
et on conclut en faisant tendre
l
→
+
∞
{\displaystyle l\to +\infty }
.
On a donc montré que
∀
ω
∈
A
,
1
n
∑
k
=
1
n
1
{
U
k
(
ω
)
≤
s
}
→
s
{\displaystyle \forall \omega \in A,{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\to s}
sur
[
0
,
1
]
{\displaystyle [0,1]}
. La convergence est uniforme par le deuxième théorème de Dini.
On pose
X
1
,
…
,
X
n
{\displaystyle X_{1},\dots ,X_{n}}
des variables i.i.d. à valeurs dans un espace
X
{\displaystyle {\mathcal {X}}}
de loi
P
=
P
X
{\displaystyle P=\mathbb {P} ^{X}}
et
F
{\displaystyle {\mathcal {F}}}
une classe de fonctions définies sur
X
{\displaystyle {\mathcal {X}}}
à valeurs réelles. La classe
F
{\displaystyle {\mathcal {F}}}
est appelée classe de Glivenko-Cantelli si elle vérifie
|
|
P
n
−
P
|
|
F
=
sup
f
∈
F
|
P
n
(
f
)
−
P
(
f
)
|
→
n
→
+
∞
0
,
{\displaystyle ||P_{n}-P||_{\mathcal {F}}=\sup _{f\in {\mathcal {F}}}|P_{n}(f)-P(f)|~{\xrightarrow[{n\to +\infty }]{}}~0,}
avec
P
n
{\displaystyle P_{n}}
la mesure empirique définie par
P
n
(
f
)
=
1
n
∑
i
=
1
n
f
(
X
i
)
{\displaystyle P_{n}(f)={\frac {1}{n}}\sum _{i=1}^{n}f(X_{i})}
et
P
(
f
)
=
E
[
f
(
X
1
)
]
{\displaystyle P(f)=\mathbb {E} [f(X_{1})]}
. Le théorème de Glivenko-Cantelli revient donc à dire que la classe des fonctions indicatrices
F
=
{
x
↦
1
{
x
≤
t
}
:
t
∈
R
}
{\displaystyle {\mathcal {F}}=\{x\mapsto \mathbf {1} _{\{x\leq t\}}:t\in \mathbb {R} \}}
est une classe de Glivenko-Cantelli.
(en) Galen R. Shorack et Jon A. Wellner , Empirical Processes with Applications to Statistics , SIAM , septembre 2009 , 998 p. (ISBN 978-0-89871901-7 , lire en ligne )
(en) A. W. van der Vaart et J. A. Wellner , Weak Convergence and Empirical Processes : With Applications to Statistics , Springer , 1996 , 508 p. (ISBN 978-0-387-94640-5 , lire en ligne )
(en) Patrick Billingsley , Probability and Measure , John Wiley & Sons , 2012 , 4e éd. , 656 p. (ISBN 978-1-118-34191-9 , Modèle:Google Livers ) , p. 268
↑ Benoît Cadre, « Modélisation statistique » (consulté le 4 mai 2024 )
↑ Ivan Nourdin, Agrégation de mathématiques épreuve oral , Dunod , 2e éd. , p. 109
↑ Philippe Barbe et Michel Ledoux, Probabilité , EDP Sciences , coll. « Enseignement Sup », p. 50