Personal tools

Rachunek prawdopodobieństwa i statystyka/Ćwiczenia 9: Rozkład normalny i centralne twierdzenie graniczne

From Studia Informatyczne

Ćwiczenia

Podajemy tu przykłady kilku konkretnych zastosowań centralnego twierdzenia granicznego.


Ćwiczenie 9.1

Rzucono \displaystyle 1000 razy symetryczną kostką do gry. Oblicz prawdopodobieństwo tego, że "szóstka" wypadła więcej niż 150 razy.


Aby rozwiązać to zadanie zauważmy najpierw, że interesująca nas ilość "szóstek" jest sumą 1000 niezależnych prób Bernoulliego o prawdopodobieństwie sukcesu \displaystyle p = {1\over 6} w każdej próbie (oznaczymy ją, tradycyjnie, przez \displaystyle S_{1000}). Zgodnie z centralnym twierdzeniem granicznym (patrz twierdzenie 9.4), suma ta ma w przybliżeniu rozkład \displaystyle N(np,\sqrt{npq}). Wstawiając wartości liczbowe i korzystając ze wzoru 9.2, otrzymujemy:


\displaystyle  P(S_{1000}  >  150)  =  1  -  P(S_{1000}  \le  150)  \approx  1   - \Phi_{1000\cdot \frac{1}{6}, \sqrt{1000\cdot \frac{1}{6}\cdot \frac{5}{6}}}(150)


\displaystyle  =  1             -              \Phi\left(\frac{150              - \frac{1000}{6}}{\sqrt{\frac{5000}{36}}}\right) \approx 1 - \Phi(-1.41) = \Phi(1.41) \approx 0.9207,


gdzie ostatnia liczba pochodzi z tablic rozkładu normalnego.

Ćwiczenie 9.2

Jakie jest prawdopodobieństwo, że przy \displaystyle 1000 rzutach monetą symetryczną, różnica między ilością reszek i orłów będzie wynosić co najmniej \displaystyle 100?

Podobnie jak poprzednio, ilość uzyskanych orłów jest sumą \displaystyle 1000, niezależnych prób Bernoulliego (\displaystyle S_{1000}) o prawdopodobieństwie sukcesu \displaystyle p   =   \frac{1}{2} w pojedynczej próbie. Chcemy obliczyć:


\displaystyle P(|S_{1000} -(1000 -  S_{1000})|  \ge  100)=P(|S_{1000} -500| \ge 50).


Zauważmy, że prawdopodobieństwo zdarzenia przeciwnego jest równe:


\displaystyle  F_{S_{1000}}(550) - F_{S_{1000}}(450) \approx \Phi_{500,\,5 \sqrt{10}}(550) - \Phi_{500,\,5 \sqrt{10}}(450)


\displaystyle  =\Phi(\sqrt{10}) - \Phi(-\sqrt{10}) = 2\Phi(\sqrt{10}) - 1 \approx 2 \Phi(3.16227766) - 1 \approx 0.9984346.


Tak więc interesujące nas prawdopodobieństwo jest w przybliżeniu równe \displaystyle 0.0016 - jest to o wiele bardziej zgodne z oczekiwaniami niż rozwiązanie tego samego zagadnienia w ćwiczeniu 7.6.



Ćwiczenie 9.3

Wykonano \displaystyle 10^4 dodawań, z dokładnością \displaystyle 10^{-8} w każdym. Jakim błędem obarczona jest suma?

Zwróćmy uwagę, że tak postawiony problem nie ma większego sensu - w najbardziej optymistycznym przypadku, gdy wszystkie dodawania były dokładne, błąd sumy jest równy zeru, zaś w najgorszym wypadku wynosi on \displaystyle 10^4 10^{-8} = 10^{-4}. Sprecyzujmy więc nasze zadanie i spróbujmy znaleźć taki przedział, w którym mieści się błąd sumy z prawdopodobieństwem co najmniej \displaystyle 0.99.

Oznaczając błędy powstające w kolejnych dodawaniach przez \displaystyle X_i, \displaystyle i = 1,\dots, \displaystyle 10^4, widzimy, że błąd sumy jest znowu sumą \displaystyle S_{10000}. Poszukujemy zatem takich liczb \displaystyle a i \displaystyle b, że:

\displaystyle P(S_{10000} \in (a,b)) \ge 0.99.
Zauważmy, że chociaż zadanie może mieć wiele rozwiązań, jednak w tym przypadku najrozsądniejsze wydaje się szukanie możliwie najmniejszego przedziału, symetrycznego względem punktu \displaystyle 0 (czasem ważniejsze są inne przedziały, na przykład nieograniczone, ale zawsze decyduje o tym specyfika konkretnego problemu). Szukamy więc ostatecznie możliwie najmniejszej liczby \displaystyle \varepsilon > 0, dla której:


\displaystyle P(|S_{10000}| \le \varepsilon) \ge 0.99.


Z założenia wiemy, że wszystkie zmienne losowe \displaystyle X_i mają taki sam rozkład jednostajny na przedziale \displaystyle (-\frac{1}{2}\cdot 10^{-8},\,\frac{1}{2}\cdot 10^{-8}) i dlatego ich nadzieja matematyczna \displaystyle m jest równa \displaystyle 0, zaś odchylenie standardowe \displaystyle \sigma wynosi \displaystyle \frac{1}{2\sqrt{3}}10^{-8}. Mamy więc:


\displaystyle  P(|S_{10000}|   \le   \varepsilon)   \approx    F_{S_{10000}}(\varepsilon)    - F_{S_{10000}}(-\varepsilon) \approx 2\Phi(\beta) - 1,


gdzie (ćwiczenie) \displaystyle \beta    = 2\sqrt{3}\cdot10^6\varepsilon.

W tablicach znajdujemy, że najmniejszym \displaystyle \beta spełniającym warunek:


\displaystyle 2\Phi(\beta)  -  1 \ge  0.99,


czyli:


\displaystyle \Phi(\beta) \ge  0.995,


jest \displaystyle \beta  =   2.58. Tak więc:


\displaystyle \varepsilon \approx 0.745\cdot 10^{-6}


jest szukaną przez nas liczbą. Zauważmy, że zmniejszając nasze żądania co do pewności wyniku, możemy zwiększyć jego dokładność. Przykładowo, gdybyśmy zażądali, aby:


\displaystyle P(|S_n| \le \varepsilon) \ge 0.9


(tylko \displaystyle 90\% pewności zamiast \displaystyle 99\%), to powtarzając poprzednie rachunki, można stwierdzić, że szukana liczba to:


\displaystyle \varepsilon  \approx 0.476\cdot 10^{-6}.


Ćwiczenie 9.4

Aby stwierdzić, jak wielu wyborców popiera obecnie partię \displaystyle ABC^2 (w sierpniu 2006 partia taka jeszcze nie istniała...), losujemy spośród nich reprezentatywną próbkę i na niej przeprowadzamy badanie. Jak duża powinna być ta próbka, aby uzyskany wynik różnił się od rzeczywistego poparcia dla partii \displaystyle ABC nie więcej niż o \displaystyle b =3\%, z prawdopodobieństwem co najmniej \displaystyle 1 - \alpha = 0.95?

Niech \displaystyle p \in (0,1) oznacza faktyczne (lecz nieznane) poparcie dla partii \displaystyle ABC. Jeżeli próbka składa się z \displaystyle n osób, z których \displaystyle S_n wyraziło poparcie dla \displaystyle ABC, to liczba \displaystyle \frac{S_n}{n} jest poparciem wyznaczonym na podstawie próbki. Możemy założyć, że \displaystyle S_n jest sumą niezależnych zmiennych losowych \displaystyle X_i o rozkładzie:


\displaystyle P(X_i =0) = 1-p,\;\;P(X_i = 1) =p.


Chcemy znaleźć takie \displaystyle n, aby:


\displaystyle  P\left( \left| \frac{S_n}{n} - p \right| \le b \right)  \ge  1  - \alpha.


Ponieważ średnia arytmetyczna \displaystyle \frac{S_n}{n} ma w przybliżeniu rozkład \displaystyle N(p,\sqrt{\frac{p(1-p)}{n}}) (patrz twierdzenie 9.5), więc powyższa nierówność jest (w przybliżeniu) równoważna następującej nierówności:


\displaystyle  2 \Phi\left(\frac{b\sqrt{n}}{\sqrt{p(1-p)}} \right) - 1 \ge  1  - \alpha,


która jest z kolei równoważna nierówności:


\displaystyle  n   \ge   \left(   \frac{\Phi^{-1}   \left(1-    \frac{\alpha}{2} \right)}{b} \right)^2(1-p)p.


Chociaż nie znamy \displaystyle p, wiemy, że:


\displaystyle (1-p)  p  \le \frac{1}{4}.


W takim razie liczba naturalna \displaystyle n, spełniająca nierówność:


\displaystyle  n   \ge   0.25\cdot \left(   \frac{\Phi^{-1}   \left(1-    \frac{\alpha}{2} \right)}{b} \right)^2,


określa wystarczającą wielkość próbki. Podstawiając \displaystyle b =  0.03 i \displaystyle \alpha = 0.05, otrzymujemy:


\displaystyle  n \ge 1067.


Jeżeli jeszcze przed losowaniem próbki mamy wstępne informacje o poparciu dla partii \displaystyle ABC - na przykład wiemy, że poparcie to jest mniejsze niż \displaystyle 20 \% - możemy powyższy wynik znacznie polepszyć: w tym przypadku \displaystyle p \le 0.2, a więc \displaystyle (1-p)p \le 0.16, co oznacza, że \displaystyle n \ge 683 jest wystarczającą wielkością próbki.

Ćwiczenie 9.5

W ćwiczeniu 8.7 pokazano, stosując nierówność Czebyszewa, że aby mieć \displaystyle 95  \% pewności otrzymania \displaystyle 100 różnych elementów ze zbioru \displaystyle 200-elementowego, należy wykonać \displaystyle 173 losowania ze zwracaniem. Czy wynik ten można polepszyć, stosując centralne twierdzenie graniczne?

Z formalnego punktu widzenia nie możemy stosować tutaj centralnego twierdzenia granicznego, gdyż nie są w naszym przypadku spełnione jego założenia. Pytamy jednak, czy mimo tego zmienna losowa \displaystyle T (określona w ćwiczeniu 8.7), oznaczająca liczbę potrzebnych losowań, ma rozkład normalny. Sprawdzimy normalność zmiennej losowej \displaystyle T "doświadczalnie", przeprowadzając odpowiednią symulację komputerową.

Wykonamy \displaystyle 500 takich samych doświadczeń - w każdym z nich losujemy \displaystyle 100 różnych elementów ze zbioru \displaystyle 200-elementowego. Za każdym razem notujemy liczbę wykonanych losowań, otrzymując ciąg o nazwie "dane". Przytaczamy istotny fragment kodu programu Maple, umożliwiającego realizację powyższego zadania:

 > losuj := rand(1..200):
 > liczba_prob := 500:
 > dane := NULL:
 > from 1 to liczba_prob do
 > lista := NULL:  n := 1: nowy := losuj():
 > while nops([lista]) < 100 do
 > while member(nowy,[lista]) do
 > nowy := losuj(): n := n+1 od;
 > lista := lista,nowy:
 > od:
 > dane := dane,n:
 > od:

Obliczamy średnią \displaystyle m i odchylenie standardowe: \displaystyle \sigma.

 > m := evalf(describe[mean]([dane]));
 > sigma := evalf(describe[standarddeviation]([dane]));
\displaystyle m := 138.9340000


\displaystyle \sigma  := 7.614567880


Na podstawie otrzymanych danych rysujemy histogram, zaznaczając także wykres gęstości rozkładu normalnego o obliczonych przed chwilą parametrach:




Otrzymane wyniki sugerują, że zmienna losowa \displaystyle T ma rozkład normalny - na wykładzie 13 poznamy test statystyczny, umożliwiający bardziej formalną weryfikację tego faktu. Zakładając więc, że zmienna losowa \displaystyle T ma rozkład normalny i znając jej nadzieję matematyczną oraz wariancję - obliczone w ćwiczeniu 8.6 - możemy łatwo poprawić wynik z ćwiczenia 8.7. Mianowicie:
\displaystyle P(T\leq  x)  \geq  0.5,


gdy:


\displaystyle  x \approx \Phi_{138.1306861,\sqrt{60.37514711}}^{-1}(0.95) = 150.9114366.


Zauważmy, że jest to wynik istotnie lepszy niż w ćwiczeniu 8.7.


Zadanie 9.1
Zmienna losowa \displaystyle \xi ma rozkład normalny \displaystyle N(m,\sigma). Znajdź rozkład zmiennej losowej \displaystyle e^\xi.

Zadanie 9.2
Niech \displaystyle q_p będzie kwantylem rzędu \displaystyle p w rozkładzie \displaystyle N(0,1). Oblicz kwantyl rzędu \displaystyle p w rozkładzie \displaystyle N(m,\sigma).

Zadanie 9.3
Zaprojektuj i przeprowadź eksperyment komputerowy, który weryfikuje centralne twierdzenie graniczne.

Zadanie 9.4
Prawdopodobieństwo zapłacenia kary za jazdę bez biletu wynosi \displaystyle 0.02. Jakie jest prawdopodobieństwo tego, że w trakcie \displaystyle 100 takich przejazdów co najmniej raz zapłacimy karę? Podaj dwa sposoby rozwiązania.

Zadanie 9.5
Przeprowadź symulację komputerową poprzedniego zadania: wylosuj 20 serii po 100 przejazdów w każdej serii i zobacz, ile razy w każdej serii płaciło się karę.

Zadanie 9.6
Rozwiąż jeszcze raz zadanie 7.10.

Zadanie 9.7
Wykonano 1000 rzutów monetą symetryczną. Jakie jest prawdopodobieństwo tego, że liczba orłów zawiera się w przedziale: (a) \displaystyle (490,510), (b) \displaystyle (450,550), (c) \displaystyle (500,600). Przed przystąpieniem do rozwiązywania podaj przewidywane wyniki w celu późniejszego porównania.

Zadanie 9.8
Ile razy należy rzucić kostką do gry, aby mieć \displaystyle 99\% pewności, że "szóstka" pojawi się co najmniej w \displaystyle 15\% wszystkich rzutów?

Zadanie 9.9
Zakładając, że \displaystyle 90\% osób przekraczających granicę nie popełnia [2] żadnego wykroczenia celnego oraz wiedząc, że osoba, która takie wykroczenie popełnia, jest ujawniana z prawdopodobieństwem \displaystyle 0.2, oblicz prawdopodobieństwo tego, że spośród tysiąca osób przekraczających granicę, będzie ujawnionych co najmniej \displaystyle 10 przypadków popełnienia wykroczenia.

Zadanie 9.10
Rozwiąż jeszcze raz zadanie 7.11 i porównaj wyniki.

Zadanie 9.11
Dokumentacja linii lotniczej XYZ wskazuje na to, że na lot w klasie business do Tokio zgłasza się średnio 6.72 pasażera. Ile miejsc w tej klasie należy przygotować na następny lot, aby mieć \displaystyle 90\% pewności, że wszyscy chętni dostaną miejsce w klasie business.

Zadanie 9.12
Pewną trasą, obsługiwaną przez dwie całkowicie równorzędne linie lotnicze, lata codziennie \displaystyle 1000 osób. Ile miejsc powinna przygotować każda z tych linii, aby obsłużyć \displaystyle 95\% klientów, którzy się do niej zgłoszą?

Zadanie 9.13
Ile osób należy przebadać, aby mieć \displaystyle 95\% pewności, że wyznaczona na jej podstawie frakcja ludzi palących (liczba palaczy do liczebności całej populacji) jest obarczona błędem mniejszym niż \displaystyle 0.005?

Zadanie 9.14
Wykonaj 100 serii po 60 rzutów monetą symetryczną, znajdując w każdej serii liczbę uzyskanych orłów \displaystyle S_{60}.

Narysuj histogram dla wartości \displaystyle S_{60}.

Oblicz teoretyczną średnią i odchylenie standardowe zmiennej losowej \displaystyle S_{60}.

Oblicz średnią i odchylenie standardowe zmiennej losowej \displaystyle S_{60}, na podstawie uzyskanej 100-elementowej próbki.

Oblicz \displaystyle P(|S_{60} - 30| \le 5).

Ile spośród obliczonych sum \displaystyle S_{60} spełnia warunek \displaystyle |S_{60} - 30| \le 5?

Zadanie 9.15
Niech \displaystyle S_n oznacza sumę orłów uzyskanych w trakcie \displaystyle n rzutów monetą symetryczną. Niech \displaystyle \varepsilon >0 będzie dowolną liczbą.

Oblicz:

\displaystyle  \displaystyle \lim_{n\rightarrow \infty} P\left(\left|S_n-\frac{n}{2} \right| \ge \varepsilon\right), \displaystyle  \displaystyle \lim_{n\rightarrow \infty} P\left(\left|S_n-\frac{n}{2} \right| \ge \varepsilon n\right), \displaystyle  \displaystyle \lim_{n\rightarrow \infty} P\left(\left|S_n-\frac{n}{2} \right| \ge \varepsilon\sqrt{n}\right). Wykaż, że:

\displaystyle  \displaystyle \lim_{n\rightarrow \infty} P\left(\left|S_n-(n-S_n) \right| \ge \varepsilon\right) = 1, \displaystyle  \displaystyle \lim_{n\rightarrow \infty} P\left(\left|\frac{n-S_n}{S_n} - 1 \right| \ge \varepsilon\right) = 1.

Zinterpretuj powyższe wyniki.

Zadanie 9.16
Niech \displaystyle R oznacza liczbę różnych elementów, otrzymanych podczas \displaystyle 150 losowań ze zwracaniem ze zbioru \displaystyle 200-elementowego. Wykonując odpowiednią symulację komputerową, określ charakter rozkładu zmiennej \displaystyle R.