Niech przez k - wymiarowy wektor losowy, czyli zbiór stałej pozycji zmiennych losowych (mierzalne rzeczywistymi funkcjami).x =( X1, . . . , Xjot, . . . , Xk)k -
Rozważyć wiele takich wektorów, np , a indeks tych wektorów o i = 1 , . . . , n , powiedzmynja = 1 , . . . , n
i traktować je jako zespół zwany "próbka",S=( x 1 ,..., x ı ,.,., x n ). Następnie nazywamy każdyk-
xja= ( X1 i, . . . ,Xjoti, . . . ,Xk i)
S.= ( x1, . . . , xja, . . . , xn)k - wektor wymiarowy „obserwacja” (chociaż tak naprawdę staje się jednym tylko wtedy, gdy mierzymy i rejestrujemy realizację zaangażowanych zmiennych losowych).
Rozpatrzmy najpierw przypadek, w którym istnieje albo funkcja masy prawdopodobieństwa (PMF), albo funkcja gęstości prawdopodobieństwa (PDF), a także połącz takie funkcje. Oznaczmy przez stawu lub stawów PMF PDF każdego wektora losowego, a f ( x 1 , . . . , X i , . . . , X n ) stawu lub stawów PMF PDF tych wektorów razem. faja( xja),i = 1 , . . . , nfa( x1, . . . , xja, . . . , xn)
Następnie próbka nazywana jest „próbką niezależną”, jeżeli zachowana jest następująca równość matematyczna:S.
fa( x1, . . ., xja, . . . ,xn) = ∏ja = 1nfaja(xja),∀ ( x1, . . ., xja, . . . ,xn) ∈ DS.
gdzie jest wspólną domeną utworzoną przez n losowych wektorów / obserwacji.reS.n
Oznacza to, że „obserwacje” są „wspólnie niezależne” (w sensie statystycznym lub „niezależne w prawdopodobieństwie”, jak to kiedyś mówi stare powiedzenie). Zwyczaj polega na nazywaniu ich „niezależnymi obserwacjami”.
Należy zauważyć, że właściwość statystycznej niezależności jest powyżej wskaźnika , tj. Między obserwacjami. Nie ma to związku z tym, jakie są probabilistyczne / statystyczne relacje między zmiennymi losowymi w każdej obserwacji (w ogólnym przypadku traktujemy tutaj, gdzie każda obserwacja jest wielowymiarowa).ja
Należy również zauważyć, że w przypadkach, w których mamy ciągłe zmienne losowe bez gęstości, powyższe można wyrazić w kategoriach funkcji rozkładu.
To właśnie oznaczają „niezależne obserwacje” . Jest to precyzyjnie określona właściwość wyrażona w kategoriach matematycznych. Zobaczmy, co to oznacza .
NIEKTÓRE KONSEKWENCJE MAJĄCE NIEZALEŻNE UWAGI
A. Jeśli dwie obserwacje są częścią grupy wspólnie niezależnych obserwacji, to są one również „niezależne parami” (statystycznie),
fa( xja, xm) = fja( xja) fm( xm)∀ i ≠ m ,I , m = 1 , . . . , n
To z kolei oznacza, że warunkowe pliki PMF / PDF są równe plikom „marginalnym”
fa( xja∣ xm) = fja( xja)∀ i ≠ m ,I , m = 1 , . . . , n
Uogólnia to na wiele argumentów, powiedzmy uwarunkowanych lub uwarunkowanych
fa( xja, xℓ∣ xm) = f( xja, xℓ) ,fa( xja∣ xm, xℓ) = fja( xja)
itd., o ile indeksy po lewej stronie różnią się od indeksów po prawej stronie linii pionowej.
Oznacza to, że jeśli faktycznie obserwujemy jedną obserwację, prawdopodobieństwo charakteryzujące każdą inną obserwację próbki nie zmienia się. Jeśli chodzi o przewidywania , niezależna próbka nie jest naszym najlepszym przyjacielem. Wolelibyśmy mieć zależność, aby każda obserwacja pomogła nam powiedzieć coś więcej na temat każdej innej obserwacji.
B. Z drugiej strony niezależna próbka ma maksymalną zawartość informacyjną. Każda obserwacja, będąc niezależna, zawiera informacje, których nie można wywnioskować, w całości lub w części, na podstawie innych obserwacji w próbie. Tak więc suma jest maksymalna, w porównaniu z dowolną porównywalną próbą, w której istnieje pewna zależność statystyczna między niektórymi obserwacjami. Ale jaki jest pożytek z tych informacji, jeśli nie mogą nam pomóc poprawić naszych prognoz?
To jest pośrednia informacja o prawdopodobieństwach, które charakteryzują zmienne losowe w próbce. Im bardziej obserwacje te mają wspólne cechy (wspólny rozkład prawdopodobieństwa w naszym przypadku), tym bardziej jesteśmy w stanie lepiej je odkryć, jeśli nasza próbka jest niezależna.
Innymi słowy, jeśli próbka jest niezależna i „identycznie rozłożona”, to znaczy
faja( xja) = fm( xm) = f( X ) ,I ≠ m
fa( x )fajot( xj i)
fa( xja∣ xm) = fja( xja)xja faja
Dlatego jeśli chodzi o szacowanie (które czasami jest używane jako termin „catch-all”, ale tutaj należy je odróżnić od koncepcji przewidywania ), niezależna próba jest naszym „najlepszym przyjacielem”, jeśli jest połączona z „identycznie rozłożonym” " własność.
C. Wynika z tego również, że niezależna próbka obserwacji, z których każda charakteryzuje się zupełnie innym rozkładem prawdopodobieństwa, bez żadnych wspólnych cech, jest tak bezwartościowym zbiorem informacji, jak to tylko możliwe (oczywiście każda informacja sama w sobie jest godne uwagi, chodzi tutaj o to, że razem nie można ich łączyć w celu zaoferowania czegoś przydatnego). Wyobraź sobie próbkę zawierającą trzy obserwacje: jedną zawierającą (cechy ilościowe) owoce z Ameryki Południowej, drugą zawierającą góry Europy, a trzecią zawierającą ubrania z Azji. Całkiem interesujące informacje, wszystkie trzy, ale razem jako próbka nie mogą zrobić nic statystycznie użytecznego dla nas.
Innymi słowy, warunkiem koniecznym i wystarczającym, aby niezależna próbka była przydatna, jest to, że obserwacje mają pewne cechy statystyczne wspólne. Dlatego w statystyce słowo „próbka” nie jest synonimem ogólnie „zbierania informacji”, ale „zbieraniem informacji o podmiotach, które mają pewne wspólne cechy”.
ZASTOSOWANIE DO PRZYKŁADU DANYCH OP
W odpowiedzi na prośbę użytkownika @gung przyjrzyjmy się przykładowi OP w świetle powyższego. Racjonalnie zakładamy, że jesteśmy w szkole, w której jest więcej niż dwóch nauczycieli i więcej niż sześciu uczniów. A) a) pobieramy próbki zarówno uczniów, jak i nauczycieli, oraz b) uwzględniamy w naszym zestawie danych ocenę odpowiadającą każdej kombinacji nauczyciel-uczeń.
solP.T.S.= ( s1, . . . , s6)
s1= ( T1, P1, G1)s2)= ( T1, P2), G2))s3)= ( T1, P3), G3))s3)= ( T2), P4, G4)s4= ( T2), P5, G5)s5= ( T2), P6, G6)
P.jasolja
T.1, T2)
Ale niezależnie od tego, jakie przyjmiemy / przyczynowe założenie dotyczące relacji między nauczycielami a uczniami , pozostaje faktem, że obserwacjes1, s2), s3)zawierają tę samą zmienną losową (T.1), podczas gdy obserwacje s4, s5, s6 zawiera również tę samą zmienną losową (T.2)).
Zwróć uwagę na różnicę między „tą samą zmienną losową” a „dwiema różnymi zmiennymi losowymi o identycznych rozkładach”.
Więc nawet jeśli założymy, że „nauczyciele NIE wpływają na uczniów”, to jednak nasza próbka zdefiniowana powyżej nie jest próbą niezależną, ponieważ s1, s2), s3) są statystycznie zależne przez T.1, podczas s4, s5, s6 są statystycznie zależne przez T.2).
Załóżmy teraz, że wykluczamy zmienną losową „nauczyciel” z naszej próbki. Czy próba (uczeń, klasa) sześciu obserwacji jest próbką niezależną?
Tutaj przyjmujemy założenia dotyczące relacji strukturalnych między nauczycielami, uczniami i klasami.
Po pierwsze, czy nauczyciele bezpośrednio wpływają na zmienną losową „Ocena”, być może poprzez różne „postawy / style oceniania”? Na przykładT.1 może być „trudnym równiarką” T.2)może nie. W takim przypadku „niewidzenie” zmiennej „Nauczyciel” nie uniezależnia próbki, ponieważ jest ona terazsol1, G2), G3) które są zależne od wspólnego źródła wpływów, T.1 (i analogicznie dla pozostałych trzech).
Ale powiedz, że nauczyciele są pod tym względem identyczni. Następnie przy założonym założeniu, że „nauczyciele wpływają na uczniów”, mamy ponownie, że pierwsze trzy obserwacje są od siebie zależne, ponieważ nauczyciele wpływają na uczniów, którzy wpływają na stopnie, i dochodzimy do tego samego rezultatu, choć pośrednio w tym przypadku (i podobnie w przypadku pozostałe trzy). Zatem znowu próbka nie jest niezależna.
PRZYPADEK PŁCI
Teraz zróbmy próbkę sześciu obserwacji (Uczeń, Stopień) „warunkowo niezależną w odniesieniu do nauczyciela” (patrz inne odpowiedzi), zakładając, że w rzeczywistości wszyscy sześcioro uczniów ma tego samego nauczyciela. Ale dodatkowo uwzględnijmy w próbce zmienną losową „G e= Płeć ”, która tradycyjnie przyjmuje dwie wartości (M., F.), a ostatnio zaczął brać więcej. Nasza po raz kolejny trójwymiarowa próbka sześciu obserwacji jest teraz
s1= ( G e1, P1, G1)s2)= ( G e2), P2), G2))s3)= ( G e3), P3), G3))s3)= ( G e4, P4, G4)s4= ( G e5, P5, G5)s5= ( G e6, P6, G6)
Zwróć uwagę, że to, co zawarliśmy w opisie próby w odniesieniu do Płeć, nie jest faktyczną wartością, jaką przyjmuje dla każdego ucznia, ale zmienną losową „Płeć” . Spójrz na początek tej bardzo długiej odpowiedzi: Próbka nie jest zdefiniowana jako zbiór liczb (lub ustalonych liczbowo lub ogólnie wartości nie), ale jako zbiór zmiennych losowych (tj. Funkcji).
Now, does the gender of one pupil influences (structurally or statistically) the gender of the another pupil? We could reasonably argue that it doesn't. So from that respect, the Gei variables are independent. Does the gender of pupil 1, Ge1, affects in some other way directly some other pupil (P2,P3,...)? Hmm, there are battling educational theories if I recall on the matter. So if we assume that it does not, then off it goes another possible source of dependence between observations. Finally, does the gender of a pupil influence directly the grades of another pupil? if we argue that it doesn't, we obtain an independent sample (conditional on all pupils having the same teacher).