Na moich zajęciach wykorzystuję jedną „prostą” sytuację, która może pomóc ci się zastanawiać i być może rozwinąć poczucie przeczucia, co może oznaczać pewien stopień swobody.
To rodzaj podejścia „Forrest Gump” do tematu, ale warto spróbować.
Rozważ, że masz 10 niezależnych obserwacji które pochodzą prosto z normalnej populacji, której średnia i wariancja są nieznane.X1,X2,…,X10∼N(μ,σ2)μσ2
Twoje obserwacje dostarczają zbiorowo informacji zarówno o i . W końcu twoje obserwacje są rozłożone wokół jednej centralnej wartości, która powinna być zbliżona do rzeczywistej i nieznanej wartości a także, jeśli jest bardzo wysoka lub bardzo niska, możesz spodziewać się, że zobaczysz swoje obserwacje gromadzą się wokół odpowiednio bardzo wysokiej lub bardzo niskiej wartości. Jednym dobrym „substytutem” dla (przy braku wiedzy o jego rzeczywistej wartości) jest , średnia z twoich obserwacji. μσ2μμμX¯
Ponadto, jeśli twoje obserwacje są bardzo blisko siebie, oznacza to, że możesz spodziewać się, że musi być mała, a także, jeśli jest bardzo duża, możesz spodziewać się niesamowicie różnych wartości dla do . σ2σ2X1X10
Jeśli obstawiałbyś tygodniowe wynagrodzenie, na które powinny być rzeczywiste wartości i , musisz wybrać parę wartości, w których postawiłbyś swoje pieniądze. Niech nie myśleć o niczym innym, jak dramatyczny jako utratę wypłaty chyba domyślać prawidłowo aż do 200. pozycji po przecinku. Nie. Pomyślmy o jakimś systemie cenowym, że im bliżej zgadniesz i tym więcej otrzymasz nagrody.μσ2μμσ2
W pewnym sensie, twój lepsze, bardziej świadome, bardziej uprzejmy przypuszczenie dla wartości „s może być . W tym sensie, to szacujemy , że musi być jakaś wartość około . Podobnie, jednym dobrym „substytutem” dla (na razie nie jest to wymagane) jest , twoja wariancja próbki, która jest dobrym oszacowaniem dla .μX¯μX¯σ2S2σ
Gdybyście wierzyli, że te substytuty są rzeczywistymi wartościami i , prawdopodobnie bylibyście w błędzie, ponieważ bardzo małe są szanse, że mieliście tyle szczęścia, że wasze obserwacje skoordynowały się, aby uzyskać prezent od jest równe a równe . Nie, prawdopodobnie tak się nie stało.μσ2X¯μS2σ2
Ale możesz być na różnych poziomach zła, od nieco złego do naprawdę, naprawdę, naprawdę bardzo źle (aka, „Pa, pa, czek; do zobaczenia w przyszłym tygodniu!”).
Ok, powiedzmy, że wziąłeś jako zgadywanie dla . Rozważ tylko dwa scenariusze: i . Po pierwsze, twoje obserwacje leżą całkiem blisko siebie. W tym drugim twoje obserwacje są bardzo różne. W którym scenariuszu powinieneś być bardziej zainteresowany potencjalnymi stratami? Jeśli pomyślałeś o drugim, masz rację. Oszacowanie bardzo rozsądnie zmienia twoje zaufanie do zakładu, ponieważ im większy , tym szerszy zakres, od którego można oczekiwać będzie się zmieniać.X¯μS2=2S2=20,000,000σ2σ2X¯
Ale poza informacjami na temat i , twoje obserwacje niosą również pewną pewną czystą przypadkową fluktuację, która nie dostarcza informacji ani o ani o . μσ2μσ2
Jak to zauważyć?
Załóżmy, dla argumentu, że istnieje Bóg i że ma on wystarczająco dużo czasu, aby dać sobie frywolność, mówiąc konkretnie prawdziwe (i jak dotąd nieznane) wartości zarówno i .μσ
A oto irytująca zwrotka akcji tej opowieści lizgońskiej: Mówi ci to po postawieniu zakładu. Może cię oświecić, może cię przygotować, a może kpić. Skąd mogłeś wiedzieć
To sprawia, że informacje o i zawarte w twoich obserwacjach są teraz zupełnie bezużyteczne. Centralna pozycja twoich obserwacji i wariancja nie pomagają już zbliżyć się do rzeczywistych wartości i , bo już je znasz.μσ2X¯S2μσ2
Jedną z korzyści z dobrej znajomości z Bogiem jest to, że faktycznie wiesz, na ile nie zgadłeś poprawnie , używając , czyli błąd oszacowania.μX¯(X¯−μ)
Cóż, skoro , to (zaufaj mi, jeśli chcesz), także (ok, też mi to zaufaj) i na koniec
(zgadnij co? zaufaj mi również w tym), który nie zawiera absolutnie żadnych informacji o lub .Xi∼N(μ,σ2)X¯∼N(μ,σ2/10)(X¯−μ)∼N(0,σ2/10)
X¯−μσ/10−−√∼N(0,1)
μσ2
Wiesz co? Jeśli weźmiesz jakieś indywidualne obserwacje za domysły dla , twój błąd oszacowania zostanie rozłożony jako . Pomiędzy oszacowaniem pomocą i dowolnego , wybranie byłoby lepszym biznesem, ponieważ , więc był mniej podatny na zbłądzenie z niż pojedynczy .μ(Xi−μ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi
W każdym razie również absolutnie nie informuje o ani ani .(Xi−μ)/σ∼N(0,1)μσ2
„Czy ta opowieść kiedyś się skończy?” możesz myśleć. Być może myślisz: „Czy są jakieś przypadkowe fluktuacje, które nie informują o i ?”.μσ2
[Wolę myśleć, że myślisz o tym drugim.]
Tak jest!
Kwadrat błędu oszacowania dla z podzielony przez ,
ma rozkład chi-kwadrat, który jest rozkładem kwadratu standardowego Normalnego , który, jestem pewien, zauważyłeś, ma absolutnie brak informacji o ani , ale przekazuje informacje o zmienności, której powinieneś się spodziewać.μXiσ
(Xi−μ)2σ2=(Xi−μσ)2∼χ2
Z2Z∼N(0,1)μσ2
Jest to bardzo dobrze znany rozkład, który powstaje naturalnie z samego scenariusza twojego problemu z hazardem dla każdej z twoich dziesięciu obserwacji, a także z twojej średniej:
a także ze zbioru dziesięciu wariantów obserwacji:
Teraz ten ostatni facet nie ma rozkładu chi-kwadrat, ponieważ jest sumą dziesięciu rozkładów chi-kwadrat, wszystkie niezależne od siebie (ponieważ
(X¯−μ)2σ2/10=(X¯−μσ/10−−√)2=(N(0,1))2∼χ2
∑i=110(Xi−μ)2σ2/10=∑i=110(Xi−μσ/10−−√)2=∑i=110(N(0,1))2=∑i=110χ2.
X1,…,X10). Każdy z tych pojedynczych rozkładów chi-kwadrat stanowi jeden wkład do wielkości losowej zmienności, z którą powinieneś się zmierzyć, przy mniej więcej takiej samej wartości do sumy.
Wartość każdego wkładu nie jest matematycznie równa pozostałym dziewięciu, ale wszystkie mają takie same oczekiwane zachowanie w rozkładzie. W tym sensie są one w jakiś sposób symetryczne.
Każdy z tych kwadratów chi stanowi jeden wkład w czystą, losową zmienność, której należy się spodziewać w tej sumie.
Gdybyś miał 100 obserwacji, powyższa suma byłaby większa, tylko dlatego, że ma więcej źródeł zakażeń .
Każde z tych „źródeł wkładu” o tym samym zachowaniu można nazwać stopniem swobody .
Teraz cofnij się o jeden lub dwa kroki, w razie potrzeby przeczytaj ponownie poprzednie akapity, aby uwzględnić nagłe przybycie poszukiwanego stopnia wolności .
Tak, każdy stopień swobody może być traktowany jako jedna jednostka zmienności, której wystąpienia obowiązkowo oczekuje się i która nie wnosi nic do poprawy zgadywania lub .μσ2
Chodzi o to, że zaczynasz liczyć na zachowanie tych 10 równoważnych źródeł zmienności. Gdybyś miał 100 obserwacji, miałbyś 100 niezależnych, równorzędnych źródeł ściśle przypadkowych wahań tej sumy.
Ta suma 10 kwadratów chi nazywa się odtąd rozkładami chi-kwadrat o 10 stopniach swobody i jest zapisywana . Możemy opisać, czego się od niego spodziewać, zaczynając od jego funkcji gęstości prawdopodobieństwa, którą można matematycznie wyprowadzić z gęstości z tego pojedynczego rozkładu chi-kwadrat (odtąd zwanego rozkładem chi-kwadrat z jednym stopniem swobody i zapisanym ), które można wyprowadzić matematycznie z gęstości rozkładu normalnego.χ210χ21
"Więc co?" --- możesz myśleć --- „To ma sens tylko wtedy, gdy Bóg poświęci czas, by powiedzieć mi wartości i , wszystkich rzeczy, które mógłby mi powiedzieć!”μσ2
Rzeczywiście, gdyby Bóg Wszechmogący był zbyt zajęty, aby powiedzieć ci wartości i , nadal miałbyś 10 źródeł, 10 stopni swobody.μσ2
Sprawy zaczynają się dziać dziwnie (Hahahaha; tylko teraz!), Kiedy buntujesz się przeciwko Bogu i próbujesz dogadać się samemu, nie oczekując, że On cię ochroni.
Masz i , estymatory dla i . Możesz znaleźć drogę do bezpieczniejszego zakładu.X¯S2μσ2
Możesz rozważyć obliczenie powyższej sumy za pomocą i w miejscach i :
ale to jest nie to samo co pierwotna suma.X¯S2μσ2
∑i=110(Xi−X¯)2S2/10=∑i=110(Xi−X¯S/10−−√)2,
"Dlaczego nie?" Pojęcie wewnątrz kwadratu obu sum jest bardzo różne. Na przykład jest mało prawdopodobne, ale możliwe, że wszystkie twoje obserwacje będą większe niż , w którym to przypadku , co oznacza , ale z kolei , ponieważ . μ(Xi−μ)>0∑10i=1(Xi−μ)>0∑10i=1(Xi−X¯)=0∑10i=1Xi−10X¯=10X¯−10X¯=0
Co gorsza, możesz łatwo udowodnić (Hahahaha; racja!), Że ze ścisłą nierównością, gdy co najmniej dwie obserwacje są różne (co nie jest niezwykłe).∑10i=1(Xi−X¯)2≤∑10i=1(Xi−μ)2
„Ale czekaj! Jest więcej!”
nie ma standardowego rozkładu normalnego,
nie ma Rozkład chi-kwadrat z jednym stopniem swobody,
nie ma rozkładu chi-kwadrat z 10 stopni swobody
nie ma standardowego rozkładu normalnego.
Xi−X¯S/10−−√
(Xi−X¯)2S2/10
∑i=110(Xi−X¯)2S2/10
X¯−μS/10−−√
„Czy to wszystko na nic?”
Nie ma mowy. Teraz nadchodzi magia! Zauważ, że
lub, równoważnie,
∑i=110(Xi−X¯)2σ2=∑i=110[Xi−μ+μ−X¯]2σ2=∑i=110[(Xi−μ)−(X¯−μ)]2σ2=∑i=110(Xi−μ)2−2(Xi−μ)(X¯−μ)+(X¯−μ)2σ2=∑i=110(Xi−μ)2−(X¯−μ)2σ2=∑i=110(Xi−μ)2σ2−∑i=110(X¯−μ)2σ2=∑i=110(Xi−μ)2σ2−10(X¯−μ)2σ2=∑i=110(Xi−μ)2σ2−(X¯−μ)2σ2/10
∑i=110(Xi−μ)2σ2=∑i=110(Xi−X¯)2σ2+(X¯−μ)2σ2/10.
Teraz wracamy do tych znanych twarzy.
Pierwszy termin ma rozkład chi-kwadrat z 10 stopniami swobody, a ostatni termin ma rozkład chi-kwadrat z jednym stopniem swobody (!).
Po prostu podzieliliśmy chi-kwadrat z 10 niezależnymi równorzędnymi źródłami zmienności na dwie części, obie pozytywne: jedna część jest chi-kwadrat z jednym źródłem zmienności, a druga możemy udowodnić (skok wiary? Wygrać przez WO? ) ma być również chi-kwadrat z 9 (= 10-1) niezależnymi równorzędnymi źródłami zmienności, przy czym obie części są od siebie niezależne.
To już dobra wiadomość, ponieważ teraz mamy jej dystrybucję.
Niestety używa , do którego nie mamy dostępu (pamiętaj, że Bóg bawi się obserwując naszą walkę).σ2
Cóż,
więc
dlatego
który jest rozkładem, który nie jest standardową normą, ale którego gęstość można uzyskać z gęstości standardowej normy i chi-kwadrat z stopni swobody.
S2=110−1∑i=110(Xi−X¯)2,
∑i=110(Xi−X¯)2σ2=∑10i=1(Xi−X¯)2σ2=(10−1)S2σ2∼χ2(10−1)
X¯−μS/10−−√=X¯−μσ/10√Sσ=X¯−μσ/10√S2σ2−−−√=X¯−μσ/10√(10−1)S2σ2(10−1)−−−−−−√=N(0,1)χ2(10−1)(10−1)−−−−−√,
(10−1)
Jeden bardzo, bardzo mądry facet zrobił matematykę [^ 1] na początku XX wieku i, jako niezamierzona konsekwencja, uczynił swojego szefa absolutnym światowym liderem w branży piwa Stout. Mówię o Williamie Sealy Gossecie (aka Student; tak, ten Student z dystrybucji ) i browarze Świętego Jakuba (aka Guinness Brewery ), którego jestem pobożnym.t
[^ 1]: @whuber powiedział w komentarzach poniżej, że Gosset nie zrobił matematyki, ale zgadł ! Naprawdę nie wiem, który wyczyn jest bardziej zaskakujący na ten czas.
To, mój drogi przyjacielu, jest początkiem rozkładu o stopniach swobody. Stosunek standardowej normy do pierwiastka kwadratowego niezależnego chi-kwadratu podzielony przez stopnie swobody, które w nieprzewidywalny zwrot pływów kończą się opisując oczekiwane zachowanie błędu oszacowania występującego podczas korzystania ze średniej próbki oszacować i stosując do oszacowania zmienności .t(10−1)X¯μS2X¯
Proszę bardzo. Z okropną ilością szczegółów technicznych rażąco przesadzonych za dywanikiem, ale nie zależnych wyłącznie od interwencji Boga, aby niebezpiecznie postawić całą wypłatę.