Centralne twierdzenie graniczne

Centralne twierdzenie graniczne – twierdzenie probabilistyki o zbieżności pewnych ciągów zmiennych losowych do rozkładu normalnego^[1]. Wyjaśnia ono powszechność w przyrodzie zbliżonych do niego rozkładów prawdopodobieństwa.

Wersje

Sformułowanie szczególne

Centralne twierdzenie graniczne to twierdzenie matematyczne mówiące, że jeśli $X_{i}$ są niezależnymi zmiennymi losowymi pochodzącymi z tej samej populacji o wartości oczekiwanej $\mu$ oraz dodatniej i skończonej wariancji $\sigma ^{2},$ to ciąg zmiennych losowych, w postaci znormalizowanych wartości oczekiwanych $U_{n}$

U_{n}={\frac {{\frac {1}{n}}\sum _{i=1}^{n}X_{i}-\mu }{\sigma /{\sqrt {n}}}}

zbieżny jest według rozkładu do standardowego rozkładu normalnego, gdy $n\to +\infty .$

Tzn.

\lim _{n\to \infty }P(U_{n}<u)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{u}e^{-x^{2}/2}\,dx

Sformułowanie ogólne

Centralne twierdzenie graniczne znane też pod nazwą twierdzenia Lindeberga-Lévy’ego mówi:

Niech $(X_{n,k})$ będzie schematem serii, w którym $EX_{n,k}=0$ dla $k\leqslant n$ i dla każdego $n$ mamy $\sum _{k=1}^{n}D^{2}X_{n,k}=1.$ Jeśli spełniony jest warunek Lindeberga, tj. dla każdego $\epsilon >0$ zachodzi $\lim _{n\to \infty }\sum _{k=1}^{n}EX_{n,k}^{2}\mathbf {1} _{\{|X_{n,k}|>\epsilon \}}=0,$ to $\sum _{k=1}^{n}X_{n,k}{\xrightarrow {D}}N(0,1).$

Dowód

Dowodów centralnego twierdzenia granicznego w wersji ogólnej jest kilka. Wszystkie są dość skomplikowane i wymagają korzystania z wielu zaawansowanych narzędzi matematycznych. Poniżej znajduje się jeden z prostszych dowodów, nie dający jednak oszacowania wartości błędu.

Pierwszym krokiem dowodu jest sformułowanie i udowodnienie użytecznych lematów.

Lemat 1

Niech $f\colon \mathbf {R} \to \mathbf {R}$ będzie funkcją trzykrotnie różniczkowalną taką, że $\forall x\in \mathbf {R}$ zachodzi $|f'''(x)|\leqslant A$ oraz $|f''(x)|\leqslant B.$ Wówczas: $\forall x,y\in \mathbf {R}$

a) ${\Bigg |}f(x+y)-f(x)-f'(x)y-{\frac {f''(x)y^{2}}{2!}}{\Bigg |}$ ${}\leqslant {\frac {A|y|^{3}}{3!}},$
b) ${\bigg |}f(x+y)-f(x)-f'(y){\bigg |}\leqslant {\frac {By^{2}}{2!}}.$

Dowód

Oznaczmy $\varphi _{x}(y)=f(x+y)-f(x)-f'(x)y-{\frac {f''(x)y^{2}}{2!}}.$ Wówczas $\varphi _{x}(0)=0,\varphi _{x}'(0)=0,\varphi _{x}''(0)=0.$

Ustalmy dowolne $y>0.$ Wówczas zgodnie z twierdzeniem Cauchy’ego istnieją takie $z,t,w>0,$ że:

{\Bigg |}{\frac {\varphi _{x}(y)}{y^{3}}}{\Bigg |}={\Bigg |}{\frac {\varphi _{x}(y)-\varphi _{x}(0)}{y^{3}-0}}{\Bigg |}

{}={\Bigg |}{\frac {\varphi _{x}'(z)}{3z^{2}}}{\Bigg |}

{}={\Bigg |}{\frac {\varphi _{x}'(z)-\varphi _{x}'(0)}{3z^{2}-3\cdot 0^{2}}}{\Bigg |}

{}={\Bigg |}{\frac {\varphi _{x}''(t)}{6t}}{\Bigg |}

{}={\Bigg |}{\frac {\varphi _{x}''(t)-\varphi _{x}''(0)}{6t-6\cdot 0}}{\Bigg |}

{}={\Bigg |}{\frac {\varphi _{x}'''(w)}{6}}{\Bigg |}\leqslant {\frac {A}{6}}.

Na tej samej zasadzie:

{\Bigg |}{\frac {\varphi _{x}(y)}{y^{2}}}{\Bigg |}

{}={\Bigg |}{\frac {\varphi _{x}''(t)}{2}}{\Bigg |}

{}\leqslant {\frac {B}{2}}.

\Box

Lemat 2

Jeżeli $X\sim N(0,1),$ to

E|X|^{3}=\int \limits _{R}|x|^{3}{\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}dx={\frac {4}{\sqrt {2\pi }}}.

Dowód

E|X|^{3}=\int \limits _{R}|x|^{3}{\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}dx

{}={\frac {2}{\sqrt {2\pi }}}\int \limits _{0}^{+\infty }x^{3}e^{-{\frac {x^{2}}{2}}}dx.

Dokonujemy podstawienia $x^{2}=t\Rightarrow dx={\frac {dt}{2x}}{:}$

E|X|^{3}={\frac {2}{\sqrt {2\pi }}}\int \limits _{0}^{+\infty }txe^{-{\frac {t}{2}}}{\frac {dt}{2x}}

{}={\frac {1}{\sqrt {2\pi }}}\int \limits _{0}^{+\infty }te^{-{\frac {t}{2}}}dt.

Teraz całkujemy przez części:

E|X|^{3}=-{\frac {2t}{\sqrt {2\pi }}}e^{-{\frac {t}{2}}}{\Bigg |}_{0}^{+\infty }+{\frac {2}{\sqrt {2\pi }}}\int \limits _{0}^{+\infty }e^{-{\frac {t}{2}}}dt

{}=-{\frac {4}{\sqrt {2\pi }}}e^{-{\frac {t}{2}}}{\Bigg |}_{0}^{+\infty }

{}={\frac {4}{\sqrt {2\pi }}}.

\Box

Drugi krok polega na oszacowaniu pewnej wartości:

Niech $f\colon \mathbf {R} \to \mathbf {R} ,f\in C^{3}(\mathbf {R} )$ będzie funkcją trzykrotnie różniczkowalną taką, że $|f'''(x)|\leqslant A\;\forall x\in \mathbf {R}$ oraz $|f''(x)|\leqslant B\;\forall x\in \mathbf {R} .$

Rozważamy niezależne zmienne $(G_{n,k})$ o rozkładzie normalnym takie, że $\forall n,k\;EG_{n,k}=0$ oraz $D^{2}G_{n,k}=D^{2}X_{n,k}.$

Wówczas:

\forall x\in \mathbf {R} \;{\Bigg |}Ef(x+X_{n,k})-Ef(x+G_{n,k}){\Bigg |}

{}={\Bigg |}Ef(x+X_{n,k})-f(x)-f'(x)\cdot EX_{n,k}

{}-{\frac {f''(x)}{2!}}EX_{n,k}^{2}-Ef(x+G_{n,k})+f(x)+f'(x)\cdot EG_{n,k}+{\frac {f''(x)}{2!}}EG_{n,k}^{2}{\Bigg |}

={\Bigg |}E{\Big [}f(x+X_{n,k})-f(x)-f'(x)\cdot X_{n,k}

{}-{\frac {f''(x)}{2!}}X_{n,k}^{2}{\Big ]}-E{\Big [}f(x+G_{n,k})-f(x)-f'(x)\cdot G_{n,k}-{\frac {f''(x)}{2!}}G_{n,k}^{2}{\Big ]}{\Bigg |}

\leqslant E{\Bigg |}f(x+X_{n,k})-f(x)-f'(x)\cdot X_{n,k}

{}-{\frac {f''(x)}{2!}}X_{n,k}^{2}{\Bigg |}+E{\Bigg |}f(x+G_{n,k})-f(x)-f'(x)\cdot G_{n,k}-{\frac {f''(x)}{2!}}G_{n,k}^{2}{\Bigg |}.

Przy czym ostatnia nierówność to nierówność trójkąta.

Drugi ze składników daje się na podstawie Lematu 1 oszacować w sposób następujący:

E{\Bigg |}f(x+G_{n,k})-f(x)-f'(x)\cdot G_{n,k}-{\frac {f''(x)}{2!}}G_{n,k}^{2}{\Bigg |}

{}\leqslant {\frac {A}{6}}E|G_{n,k}|^{3}.

Tymczasem $G_{n,k}={\sqrt {D^{2}X_{n,k}}}\cdot G,$ gdzie $G\sim N(0,1).$ W związku z tym (korzystając z Lematu 2):

E|G_{n,k}|^{3}=(D^{2}X_{n,k})^{3/2}\cdot E|G|^{3}

{}\leqslant 12\cdot (D^{2}X_{n,k})^{3/2}.

Wobec tego

{\frac {A}{6}}E|G_{n,k}|^{3}\leqslant 2A\cdot (D^{2}X_{n,k})^{3/2}

{}\leqslant 2A\cdot D^{2}X_{n,k}\cdot {\bigg (}\max _{1\leqslant k\leqslant n}{\sqrt {D^{2}X_{n,k}}}{\bigg )}.

Pierwszy ze składników można natomiast oszacować w sposób następujący:

E{\Bigg |}f(x+X_{n,k})-f(x)-f'(x)\cdot X_{n,k}-{\frac {f''(x)}{2!}}X_{n,k}^{2}{\Bigg |}

{}=E{\Bigg |}f(x+X_{n,k})-f(x)-f'(x)\cdot X_{n,k}-{\frac {f''(x)}{2!}}X_{n,k}^{2}{\Bigg |}\cdot \mathbf {1} _{\{|X_{n,k}|\leqslant \epsilon \}}

{}+E{\Bigg |}f(x+X_{n,k})-f(x)-f'(x)\cdot X_{n,k}

{}-{\frac {f''(x)}{2!}}X_{n,k}^{2}{\Bigg |}\cdot \mathbf {1} _{\{|X_{n,k}|>\epsilon \}}.

Z kolei szacujemy:

E{\Bigg |}f(x+X_{n,k})-f(x)-f'(x)\cdot X_{n,k}-{\frac {f''(x)}{2!}}X_{n,k}^{2}{\Bigg |}\cdot \mathbf {1} _{\{|X_{n,k}|\leqslant \epsilon \}}

{}\leqslant {\frac {A}{6}}E|X_{n,k}|^{3}\cdot \mathbf {1} _{\{|X_{n,k}|\leqslant \epsilon \}}

{}\leqslant {\frac {A}{6}}D^{2}X_{n,k}\cdot \epsilon

oraz

E{\Bigg |}f(x+X_{n,k})-f(x)-f'(x)\cdot X_{n,k}-{\frac {f''(x)}{2!}}X_{n,k}^{2}{\Bigg |}\cdot \mathbf {1} _{\{|X_{n,k}|>\epsilon \}}

{}\leqslant E|f(x+X_{n,k})-f(x)-f'(x)\cdot X_{n,k}|\cdot \mathbf {1} _{\{|X_{n,k}|>\epsilon \}}+E{\Bigg |}{\frac {f''(x)}{2!}}X_{n,k}^{2}{\Bigg |}\cdot \mathbf {1} _{\{|X_{n,k}|>\epsilon \}}

{}\leqslant B\cdot EX_{n,k}^{2}\cdot \mathbf {1} _{\{|X_{n,k}|>\epsilon \}}.

Ostatnia nierówność wynika z Lematu 1.

Zatem $\forall x\in \mathbf {R}$ mamy następujące oszacowanie:

|Ef(x+X_{n,k})-Ef(x+G_{n,k})|

{}\leqslant 2A\cdot D^{2}X_{n,k}\cdot {\bigg (}\max _{1\leqslant k\leqslant n}{\sqrt {D^{2}X_{n,k}}}{\bigg )}+{\frac {A}{6}}D^{2}X_{n,k}\cdot \epsilon +B\cdot EX_{n,k}^{2}\cdot \mathbf {1} _{\{|X_{n,k}|>\epsilon \}}.

Trzeci krok polega na wielokrotnym zastosowaniu oszacowania uzyskanego powyżej.

|Ef(X_{n,1}+X_{n,2}+\ldots +X_{n,n})-Ef(G_{n,1}+G_{n,2}+\ldots +G_{n,n})|

{}\leqslant |Ef(X_{n,1}+\ldots +X_{n,n})-Ef(X_{n,1}+\ldots +X_{n,n-1}+G_{n,n})|

{}+|Ef(X_{n,1}+\ldots +X_{n,n-1}+G_{n,n})-Ef(X_{n,1}+\ldots +X_{n,n-2}+G_{n,n-1}+G_{n,n})|

{}+\ldots +|Ef(X_{n,1}+G_{n,2}+\ldots +G_{n,n})-Ef(G_{n,1}+G_{n,2}+\ldots +G_{n,n})|.

Rozpatrzmy $k$ -ty z powyższych wyrazów.

Podstawiamy

Y:=X_{n,1}+\ldots +X_{n,k-1}+G_{n,k+1}+\ldots +G_{n,n}.

Zmienna $Y$ jest niezależna od $X_{n,k}$ i $G_{n,k}.$ Wobec tego:

|Ef(X_{n,1}+\ldots +X_{n,k}+G_{n,k+1}+\ldots +G_{n,n})-Ef(X_{n,1}+\ldots +X_{n,k-1}+G_{n,k}+\ldots +G_{n,n})|

{}=|Ef(Y+X_{n,k})-Ef(Y+G_{n,k})|={\bigg |}\int \limits _{R}Ef(y+X_{n,k})d\mu _{Y}(y)

{}-\int \limits _{R}Ef(y+G_{n,k})d\mu _{Y}(y){\bigg |}

{}\leqslant \int \limits _{R}|Ef(y+X_{n,k})

{}-Ef(y+G_{n,k})|d\mu _{Y}(y)

{}\leqslant 2A\cdot D^{2}X_{n,k}\cdot

{\bigg (}\max _{1\leqslant k\leqslant n}{\sqrt {D^{2}X_{n,k}}}{\bigg )}

{}+{\frac {A}{6}}D^{2}X_{n,k}\cdot \epsilon

{}+B\cdot EX_{n,k}^{2}\cdot \mathbf {1} _{\{|X_{n,k}|>\epsilon \}}.

Zatem:

|Ef(X_{n,1}+X_{n,2}+\ldots +X_{n,n})-Ef(G_{n,1}+G_{n,2}+\ldots +G_{n,n})|

${}\leqslant 2A\cdot {\bigg (}\sum _{k=1}^{n}D^{2}X_{n,k}{\bigg )}\cdot {\bigg (}\max _{1\leqslant k\leqslant n}{\sqrt {D^{2}X_{n,k}}}{\bigg )}$ ${}+{\frac {A}{6}}{\bigg (}\sum _{k=1}^{n}D^{2}X_{n,k}{\bigg )}\cdot \epsilon$ ${}+B\cdot {\bigg (}\sum _{k=1}^{n}EX_{n,k}^{2}\cdot \mathbf {1} _{\{|X_{n,k}|>\epsilon \}}{\bigg )}$ ${}\leqslant 2A\cdot {\bigg (}\max _{1\leqslant k\leqslant n}{\sqrt {D^{2}X_{n,k}}}{\bigg )}$ ${}+{\frac {A}{6}}\epsilon +B\cdot L_{n}(\epsilon ).$

Pierwszy i ostatni składnik z warunku Lindeberga zbiegają do zera, gdy $n$ dąży do nieskończoności. W związku z tym:

\forall \epsilon >0\;\limsup _{n\to \infty }|Ef(X_{n,1}+\ldots +X_{n,n})-Ef(G_{n,1}+\ldots +G_{n,n})|\leqslant A\cdot \epsilon .

Oznacza to, że:

Ef(X_{n,1}+\ldots +X_{n,k})

{}{\xrightarrow[{n\to \infty }]{}}Ef(G_{n,1}+\ldots +G_{n,n})=Ef(G),

gdzie

G\sim N(0,1).

Czwarty krok polega na wyliczenie dystrybuanty granicznej na podstawie powyższych oszacowań.

Weźmy funkcję $f\colon \mathbf {R} \to \mathbf {R} ,f\in \mathbb {C} ^{3}(R)$ spełniającą warunek $\forall x\in \mathbf {R} \;\mathbf {1} _{(t+\delta ,+\infty )}(x)$ ${}\leqslant f(x)\leqslant \mathbf {1} _{(t,+\infty )}(x)$ dla pewnych $t\in \mathbf {R} ,\delta >0.$

Wówczas:

P(X_{n,1}+\ldots +X_{n,n}\geqslant t)\geqslant Ef(X_{n,1}+\ldots +X_{n,n})\geqslant P(X_{n,1}+\ldots +X_{n,n}\geqslant t+\delta ).

Ale:

Ef(X_{n,1}+\ldots +X_{n,n}){\xrightarrow[{n\to \infty }]{}}Ef(G)

oraz

P(G\geqslant t)\geqslant Ef(G)\geqslant P(G\geqslant t+\delta ).

W związku z tym:

\liminf _{n\to \infty }P(X_{n,1}+\ldots +X_{n,n}\geqslant t)

{}\geqslant P(G\geqslant t+\delta ){\xrightarrow[{\delta \to 0^{+}}]{}}P(G\geqslant t)

oraz podobnie

\limsup _{n\to \infty }P(X_{n,1}+\ldots +X_{n,n}\geqslant t)

{}\leqslant P(G\geqslant t-\delta ){\xrightarrow[{\delta \to 0^{+}}]{}}P(G\geqslant t).

Otrzymujemy więc

P(X_{n,1}+\ldots +X_{n,n}\geqslant t){\xrightarrow[{n\to \infty }]{}}

P(G\geqslant t)\Rightarrow P(X_{n,1}+\ldots +X_{n,n}<t){\xrightarrow[{n\to \infty }]{}}P(G<t).

Ale z ciągłości dystrybuanty rozkładu normalnego wnioskujemy, że

P(X_{n,1}+\ldots +X_{n,n}\leqslant t){\xrightarrow[{n\to \infty }]{}}P(G\leqslant t).

Ponieważ punktowa zbieżność dystrybuant w punktach ciągłości dystrybuanty granicznej jest równoważna zbieżności według rozkładu, więc ostatecznie:

\sum _{k=1}^{n}X_{n,k}{\xrightarrow[{n\to \infty }]{D}}N(0,1).

\Box

Częste nieporozumienia

Centralne twierdzenie graniczne nie sprawi, by przy dostatecznie dużej próbie rozkład stał się normalny. Jedynie rozkład średniej z tej próby upodabnia się do normalnego.
Centralne twierdzenie graniczne jest prawdziwe tylko dla rozkładów o skończonej wariancji. Zobacz stabilność struktury.

Zobacz też

Przypisy

↑ centralne twierdzenie graniczne, [w:] Encyklopedia PWN [dostęp 2023-03-18] .

[epwn-1] centralne twierdzenie graniczne, [w:] Encyklopedia PWN [dostęp 2023-03-18] .

[1]