매우 불규칙한 분포도 충분히 많은 수를 더하면 중심극한정리에 따라 결국 정규분포 로 수렴한다.
주사위를 n개 흔들 때 나오는 눈의 합 S n = X 1 + ... + X n의 분포가 n이 확대됨에 따라 정규 분포에 의한 근사치에 접근한 모습
확률론 과 통계학 에서 중심 극한 정리 (中心 極限 定理, 영어 : central limit theorem , 약자 CLT)는 동일한 확률분포 를 가진 독립 확률 변수 n개의 평균 의 분포는 n이 적당히 크다면 정규분포 에 가까워진다는 정리 이다. 수학자 피에르시몽 라플라스 는 1774년에서 1786년 사이의 일련의 논문에서 이러한 정리의 발견과 증명을 시도하였다. 확률 과 통계학 에서 큰 의미가 있으며 실용적인 면에서도 품질관리, 식스 시그마 에서 많이 이용된다.
중심극한정리는 주어진 조건에 따라서 여러 가지가 있다.
가장 많이 쓰이는 중심극한정리는 린데베르그–레비 중심극한정리 (영어 : Lindeberg–Lévy central limit theorem )이며, 같은 분포를 가지는 독립 확률 변수에 대해 다룬다. 이 정리는 다음과 같다. 만약 확률 변수
X
1
,
X
2
,
⋯
{\displaystyle X_{1},X_{2},\cdots }
들이
서로 독립적이고,
같은 확률 분포를 가지고,
그 확률 분포의 기댓값 μ 와 표준편차 σ 가 유한하다면,
평균
S
n
=
(
X
1
+
⋯
+
X
n
)
/
n
{\displaystyle S_{n}=(X_{1}+\cdots +X_{n})/n}
의 분포는 기댓값 μ, 표준편차
σ
/
n
{\displaystyle \sigma /{\sqrt {n}}}
인 정규분포 N(μ,σ 2 /n )에 분포수렴 한다. 즉,
n
(
(
1
n
∑
i
=
1
n
X
i
)
−
μ
)
→
d
N
(
0
,
σ
2
)
{\displaystyle {\sqrt {n}}{\bigg (}{\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}X_{i}{\bigg )}-\mu {\bigg )}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\;\sigma ^{2})}
가 성립한다.
알렉산드르 랴푸노프 가 증명한 랴푸노프 중심극한정리 (영어 : Lyapunov central limit theorem )는 기본 정리에서 같은 분포를 가지는 조건을 다음과 같이 완화하였다. 만약 각 확률변수
X
i
{\displaystyle X_{i}}
가
서로 독립적이고,
각각 유한한 평균과 분산
μ
i
,
σ
i
2
{\displaystyle \mu _{i},\sigma _{i}^{2}}
를 가지며,
(랴푸노프 조건 )
s
i
2
=
∑
j
≤
i
σ
j
2
{\displaystyle s_{i}^{2}=\sum _{j\leq i}\sigma _{j}^{2}}
를 정의하면 어떤 양의 실수
δ
{\displaystyle \delta }
에 대하여
lim
n
→
∞
1
s
n
2
+
δ
∑
i
=
1
n
E
[
|
X
i
−
μ
i
|
2
+
δ
]
=
0
{\displaystyle \lim _{n\to \infty }{\frac {1}{s_{n}^{2+\delta }}}\sum _{i=1}^{n}\operatorname {E} {\big [}\,|X_{i}-\mu _{i}|^{2+\delta }\,{\big ]}=0}
가 성립할 때,
∑
i
(
X
i
−
μ
i
)
/
s
i
{\displaystyle \sum _{i}(X_{i}-\mu _{i})/s_{i}}
의 분포는 n이 커질수록 표준정규분포 에 분포수렴 한다.
1
s
n
∑
i
=
1
n
(
X
i
−
μ
i
)
→
d
N
(
0
,
1
)
{\displaystyle {\frac {1}{s_{n}}}\sum _{i=1}^{n}(X_{i}-\mu _{i}){\xrightarrow {\mathrm {d} }}{\mathcal {N}}(0,1)}
린데베르그 중심극한정리 (영어 : Lindeberg central limit theorem )는 랴푸노프 중심극한정리의 조건을 조금 더 완화한 것이다. 이 경우, 만약 각 확률변수
X
i
{\displaystyle X_{i}}
가
서로 독립적이고,
각각 유한한 평균과 분산
μ
i
,
σ
i
2
{\displaystyle \mu _{i},\sigma _{i}^{2}}
를 가지며,
(린데베르그 조건 ) 다음 공식이 성립할 때,
lim
n
→
∞
1
s
n
2
∑
i
=
1
n
E
[
(
X
i
−
μ
i
)
2
⋅
1
{
|
X
i
−
μ
i
|
>
ε
s
n
}
]
=
0
{\displaystyle \lim _{n\to \infty }{\frac {1}{s_{n}^{2}}}\sum _{i=1}^{n}\operatorname {E} {\big [}(X_{i}-\mu _{i})^{2}\cdot \mathbf {1} _{\{|X_{i}-\mu _{i}|>\varepsilon s_{n}\}}{\big ]}=0}
랴푸노프 중심극한정리와 같은 결론을 내릴 수 있다. 여기에서
1
{
⋯
}
{\displaystyle \mathbf {1} _{\{\cdots \}}}
는 지시 함수 이다.
마팅게일 의 경우, 각
X
i
{\displaystyle X_{i}}
들이 독립 변수가 아니므로 위 정리들은 성립하지 않는다. 다만, 이 경우에도 다음과 같은 마팅게일 중심극한정리 (영어 : martingale central limit theorem )가 성립한다. 만약 각 확률변수
X
i
{\displaystyle X_{i}}
가
마팅게일 을 이루며,
n
→
∞
{\displaystyle n\to \infty }
인 극한에서 다음이 성립하고,
1
n
∑
i
=
1
n
E
(
(
X
i
−
X
i
−
1
)
2
|
X
1
,
…
,
X
i
−
1
)
→
1
{\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}\operatorname {E} ((X_{i}-X_{i-1})^{2}|X_{1},\dots ,X_{i-1})\to 1}
모든
ϵ
>
0
{\displaystyle \epsilon >0}
에 대하여
n
→
∞
{\displaystyle n\to \infty }
인 극한에서 다음이 성립할 경우,
1
n
∑
i
=
1
n
E
(
(
X
i
−
X
i
−
1
)
2
;
|
X
i
−
X
i
−
1
|
>
ε
n
)
→
0
{\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}\operatorname {E} \left((X_{i}-X_{i-1})^{2};|X_{i}-X_{i-1}|>\varepsilon {\sqrt {n}}\right)\to 0}
X
n
/
n
{\displaystyle X_{n}/{\sqrt {n}}}
은
n
→
∞
{\displaystyle n\to \infty }
인 극한에서 표준정규분포 로 분포수렴 한다.
X
n
/
n
→
d
N
(
0
,
1
)
{\displaystyle X_{n}/{\sqrt {n}}{\xrightarrow {\mathrm {d} }}{\mathcal {N}}(0,1)}
여기서
E
(
A
|
B
)
{\displaystyle \operatorname {E} (A|B)}
는 조건부 기댓값,
E
(
A
;
B
)
{\displaystyle \operatorname {E} (A;B)}
는 제한 기댓값(영어 : restricted expectation )이다.
사건이 일어날 확률을
p
{\displaystyle p}
, 일어나지 않을 확률을
q
{\displaystyle q}
라 할 때,
N
{\displaystyle N}
번의 시행중에서 사건이
n
{\displaystyle n}
번 일어날 확률은 다음과 같다.
P
(
n
)
=
(
N
n
)
p
n
q
(
N
−
n
)
{\displaystyle \operatorname {P} (n)={N \choose n}{p^{n}}{q^{(N-n)}}}
이 확률분포가 결국
N
{\displaystyle N}
이 상당히 커지면, 이 확률분포는 거의 연속적이라고 볼 수 있다.
연속적인 분포에서의
n
=
n
¯
{\displaystyle \scriptstyle {n}={\bar {n}}}
에서 연속적인 확률밀도함수가 극대값을 가지게 된다면, 다음의 식을 만족하게 된다.
(
∂
P
∂
n
)
n
=
n
¯
=
0
{\displaystyle \left({\frac {\partial \operatorname {P} }{\partial n}}\right)_{{n}={\bar {n}}}=0}
로그 함수 는 단조증가 함수이므로, 다음의 식도 만족하게 된다.
(
∂
ln
P
∂
n
)
n
=
n
¯
=
0
{\displaystyle \left({\frac {\partial \ln {\operatorname {P} }}{\partial n}}\right)_{{n}={\bar {n}}}=0}
충분히 작은
η
{\displaystyle {\eta }}
에 대하여
n
≡
n
¯
+
η
{\displaystyle \scriptstyle {n}\equiv {\bar {n}}+{\eta }}
라 정의하고
n
¯
{\displaystyle \scriptstyle {\bar {n}}}
근처에서
η
{\displaystyle {\eta }}
에 대하여 테일러 전개하면 다음과 같다.
ln
P
(
n
)
=
ln
P
(
n
¯
)
+
B
1
η
+
1
2
B
2
η
2
+
1
6
B
3
η
3
+
…
{\displaystyle \ln {\operatorname {P} (n)}=\ln {\operatorname {P} ({\bar {n}})}+{B_{1}}{\eta }+{\frac {1}{2}}{B_{2}}{\eta }^{2}+{\frac {1}{6}}{B_{3}}{\eta }^{3}+\dots }
여기서 이미
B
1
=
(
∂
ln
P
∂
n
)
n
=
n
¯
{\displaystyle \scriptstyle {B_{1}}=\left({\frac {\partial \ln {\operatorname {P} }}{\partial n}}\right)_{{n}={\bar {n}}}}
이므로, 0이 된다는 걸 알 수 있다. 또한
η
{\displaystyle {\eta }}
가 충분히 작으므로, 다음과 같이
η
{\displaystyle {\eta }}
에 대한 2차식으로 근사할 수 있다.
ln
P
(
n
)
≈
ln
P
(
n
¯
)
+
1
2
B
2
η
2
{\displaystyle \ln {\operatorname {P} (n)}\approx \ln {\operatorname {P} ({\bar {n}})}+{\frac {1}{2}}{B_{2}}{\eta }^{2}}
양변에 로그를 풀어서 원래 모양으로 만들어주면 다음과 같다.
P
(
n
)
=
P
(
n
¯
)
e
1
2
B
2
(
n
−
n
¯
)
2
{\displaystyle \operatorname {P} (n)=\operatorname {P} ({\bar {n}})e^{{\frac {1}{2}}{B_{2}}{(n-{\bar {n}})}^{2}}}
여기서,
(
∂
ln
P
∂
n
)
n
=
n
¯
=
0
{\displaystyle \scriptstyle \left({\frac {\partial \ln {\operatorname {P} }}{\partial n}}\right)_{{n}={\bar {n}}}=0}
이므로 이것을 바탕으로 스털링 근사 를 이용하여
n
¯
{\displaystyle \scriptstyle {\bar {n}}}
을 구해보면,
∂
ln
P
∂
n
=
−
ln
n
+
ln
(
N
−
n
)
+
ln
p
−
ln
q
{\displaystyle {\frac {\partial \ln {\operatorname {P} }}{\partial n}}=-\ln {n}+\ln {(N-n)}+\ln {p}-\ln {q}}
(
N
−
n
¯
)
n
¯
p
q
=
1
{\displaystyle {\frac {(N-{\bar {n}})}{\bar {n}}}{\frac {p}{q}}=1}
∴
n
¯
=
N
p
=
m
{\displaystyle \therefore {\bar {n}}=Np=m}
n
¯
{\displaystyle {\bar {n}}}
은 평균이 됨을 알 수 있다.
이제
B
2
{\displaystyle {B}_{2}}
를 구해보면, 다음을 얻는다.
∂
2
ln
P
∂
2
n
=
−
1
n
−
1
N
−
n
{\displaystyle {\frac {\partial ^{2}\ln {\operatorname {P} }}{\partial ^{2}n}}=-{\frac {1}{n}}-{\frac {1}{N-n}}}
B
2
=
−
1
N
p
−
1
N
q
=
−
p
+
q
N
p
q
=
−
1
N
p
q
=
−
1
σ
2
{\displaystyle {B}_{2}=-{\frac {1}{Np}}-{\frac {1}{Nq}}=-{\frac {p+q}{Npq}}=-{\frac {1}{Npq}}=-{\frac {1}{\sigma ^{2}}}}
그렇다면 확률밀도함수 는 다음과 같이 쓸 수 있다.
P
(
n
)
=
A
e
−
(
n
−
m
)
2
2
σ
2
{\displaystyle \operatorname {P} (n)={A}{e^{-{\frac {(n-m)^{2}}{2\sigma ^{2}}}}}}
이 확률밀도 함수를 표준화시키면 최종적인 확률밀도 함수를 얻을 수 있다.
P
(
n
)
=
1
2
π
σ
e
−
(
n
−
m
)
2
2
σ
2
{\displaystyle \operatorname {P} (n)={\frac {1}{{\sqrt {2\pi }}\sigma }}{e^{-{\frac {(n-m)^{2}}{2\sigma ^{2}}}}}}
따라서
B
(
N
,
p
)
{\displaystyle {\mathrm {B} (N,p)}}
는
N
{\displaystyle N}
이 충분히 커질 때(보통 Np>5, Nq>5일 때),
Z
(
N
p
,
N
p
q
)
{\displaystyle {\mathrm {Z} (Np,Npq)}}
로 근사할 수 있다.