Jak rozumieć stopnie swobody?


257

Z Wikipedii istnieją trzy interpretacje stopni swobody statystyki:

W statystykach liczba stopni swobody to liczba wartości w końcowym obliczeniu statystyki, które mogą się zmieniać .

Szacunki parametrów statystycznych mogą opierać się na różnych ilościach informacji lub danych. Liczba niezależnych informacji, które wchodzą w oszacowanie parametru, nazywa się stopniami swobody (df). Zasadniczo stopnie swobody oszacowania parametru są równe liczbie niezależnych wyników wchodzących w oszacowanie minus liczba parametrów użytych jako etapy pośrednie w oszacowaniu samego parametru (który w wariancji próby jest jeden, ponieważ średnia z próby jest jedynym etapem pośrednim).

Matematycznie stopnie swobody są wymiarem dziedziny losowego wektora lub zasadniczo liczbą „wolnych” składników: ile składników należy znać, zanim wektor zostanie w pełni określony .

Odważne słowa są tym, czego nie do końca rozumiem. Jeśli to możliwe, niektóre sformułowania matematyczne pomogą wyjaśnić tę koncepcję.

Czy te trzy interpretacje są ze sobą zgodne?



Odpowiedzi:


242

To subtelne pytanie. Zajmuje przemyślany osoby nie zrozumieć te cytaty! Chociaż są sugestywne, okazuje się, że żaden z nich nie jest dokładnie ani ogólnie poprawny. Nie mam czasu (i nie ma tu miejsca) na pełne przedstawienie, ale chciałbym podzielić się jednym podejściem i wglądem, który to sugeruje.

Gdzie powstaje pojęcie stopni swobody (DF)? Konteksty, w których występuje w elementarnych metodach leczenia, to:

  • Test t-Studenta i jego warianty, takie jak rozwiązania Welcha lub Satterthwaite dla problemu Behrensa-Fishera (gdzie dwie populacje mają różne wariancje).

  • Rozkład chi-kwadrat (zdefiniowany jako suma kwadratów niezależnych standardowych normalnych), który jest zaangażowany w rozkład próbkowania wariancji.

  • Test F (współczynników szacowanych wariancji).

  • Test chi-kwadrat , obejmujący jego zastosowania w (a) testowaniu niezależności w tabelach awaryjnych oraz (b) testowaniu pod kątem dopasowania dopasowania oszacowań dystrybucyjnych.

W duchu testy te uruchamiają gamę od dokładności (test t Studenta i test F dla zmiennych Normalnych) do dobrych przybliżeń (test t Studenta i testy Welch / Satterthwaite dla niezbyt źle wypaczonych danych ) do oparcia się na asymptotycznych przybliżeniach (test chi-kwadrat). Interesującym aspektem niektórych z nich jest pojawienie się niezintegrowanych „stopni swobody” (testy Welcha / Satterthwaite i, jak zobaczymy, test chi-kwadrat). Jest to szczególnie interesujące, ponieważ jest to pierwsza wskazówka, że ​​DF nie jest żadną z rzeczy, o które się jej twierdzi.

Możemy od razu zlikwidować niektóre roszczenia w pytaniu. Ponieważ „ostateczne obliczenie statystyki” nie jest dobrze zdefiniowane (najwyraźniej zależy od tego, jakiego algorytmu używa się do obliczeń), może być jedynie niejasną sugestią i nie jest warte dalszej krytyki. Podobnie ani „liczba niezależnych wyników, które wchodzą w oszacowanie”, ani „liczba parametrów użytych jako etapy pośrednie” nie są dobrze zdefiniowane.

„Niezależne fragmenty informacji, które go do [an] szacunków” jest trudne do czynienia, ponieważ istnieją dwa różne, ale ściśle związane zmysły „niezależny”, które mogą być istotne tutaj. Jednym z nich jest niezależność zmiennych losowych; druga to funkcjonalna niezależność. Jako przykład tego ostatniego załóżmy, że zbieramy pomiary morfometryczne badanych - na przykład dla uproszczenia trzy długości boków , , , pola powierzchni i objętości z zestaw drewnianych klocków. Trzy długości boków można uznać za niezależne zmienne losowe, ale wszystkie pięć zmiennych jest zależnymi RV. Pięć jest również funkcjonalnieY Z S = 2 ( X Y + Y Z + Z X ) V = X Y Z ( X , Y , Z , S , V ) R 5 ω R 5 f ω g ω f ω ( X ( ψ ) , , V ( ψ ) ) = 0 g ωXYZS=2(XY+YZ+ZX)V=XYZzależne, ponieważ domena kodowa ( nie „domena”!) zmiennej losowej o wartości wektorowej wykrywa trójwymiarowy kolektor w . (Zatem lokalnie w dowolnym punkcie istnieją dwie funkcje i dla których i dla punktów „blisko” i pochodnych i ocenionych na(X,Y,Z,S,V)R5ωR5fωgωfω(X(ψ),,V(ψ))=0ψ ω f g ω ( X , S , V )gω(X(ψ),,V(ψ))=0ψωfgωsą liniowo niezależne.) Jednak - tutaj jest kicker - dla wielu miar prawdopodobieństwa w blokach podzbiory zmiennych, takie jak są zależne jako zmienne losowe, ale funkcjonalnie niezależne.(X,S,V)

Zostawszy ostrzeżenie o tych potencjalnych dwuznacznościach, trzymajmy test dobroci dopasowania do kwadratu Chi do badania , ponieważ (a) to proste, (b) jest to jedna z typowych sytuacji, w których ludzie naprawdę muszą wiedzieć o DF, aby uzyskać Prawidłowa wartość p oraz (c) jest często używana nieprawidłowo. Oto krótkie streszczenie najmniej kontrowersyjnego zastosowania tego testu:

  • Masz kolekcję wartości danych , traktowanych jako próbka populacji.(x1,,xn)

  • Oszacowałeś niektóre parametry rozkładu. Na przykład oszacowałeś średnią i odchylenie standardowe rozkładu normalnego, , że populacja jest normalnie rozmieszczona, ale nie wie (przed uzyskaniem danych), czym może być lub .θ 1 θ 2 = θ p θ 1 θ 2θ1,,θpθ1θ2=θpθ1θ2

  • Z góry, utworzony zbiór „koszy” dla danych. (Może to być problematyczne, gdy pojemniki są określane przez dane, nawet jeśli jest to często wykonywane). Dzięki tym pojemnikom dane są redukowane do zestawu zliczeń w każdym pojemniku. Przewidując, jakie mogą być prawdziwe wartości , ustawiłeś je tak (miejmy nadzieję), że każdy pojemnik otrzyma mniej więcej taką samą liczbę. (Binning o równym prawdopodobieństwie zapewnia, że ​​rozkład chi-kwadrat jest naprawdę dobrym przybliżeniem do prawdziwego rozkładu statystyki chi-kwadrat, który zostanie opisany.)( θ )k(θ)

  • Masz dużo danych - wystarczających, aby zapewnić, że prawie wszystkie pojemniki powinny mieć liczbę 5 lub większą. (Mamy nadzieję, że pozwoli to na odpowiednie przybliżenie rozkładu próbkowania statystyki przez pewien ).χ 2χ2χ2

Używając oszacowań parametrów, możesz obliczyć oczekiwaną liczbę w każdym przedziale. Statystyka chi-kwadrat jest sumą wskaźników

(observedexpected)2expected.

To, zdaniem wielu autorytetów, powinno mieć (w bardzo bliskim przybliżeniu) rozkład chi-kwadrat. Ale istnieje cała rodzina takich dystrybucji. Różnicuje je parametr często nazywany „stopniami swobody”. Standardowe rozumowanie dotyczące sposobu określania wygląda następującoννν

Mam liczby . To kawałków danych. Ale są między nimi ( funkcjonalne ) relacje. Na początek wiem z góry, że suma zliczeń musi wynosić . To jeden związek. Oszacowałem dwa (lub ogólnie ) parametry na podstawie danych. To dwie (lub ) dodatkowe relacje, co daje łącznych relacji. Zakładając, że wszystkie (parametry) są niezależne ( funkcjonalnie ), co pozostawia jedynie „stopnie swobody” ( funkcjonalnie ): taką wartość należy zastosować dla .k n p p p + 1 k - p - 1 νkknppp+1kp1ν

Problem z tym rozumowaniem (jakim jest rodzaj obliczeń, o którym wspominają cytaty w pytaniu) polega na tym, że jest on błędny, z wyjątkiem sytuacji, gdy istnieją specjalne warunki dodatkowe. Ponadto warunki te nie mają nic wspólnego z niezależnością (funkcjonalną lub statystyczną), liczbą „składników” danych, liczbą parametrów ani z niczym innym, o czym mowa w pierwotnym pytaniu.

Pokażę ci przykład. (Aby wyjaśnić to tak dokładnie, jak to możliwe, używam niewielkiej liczby pojemników, ale to nie jest konieczne.) Wygenerujmy 20 niezależnych i identycznie rozmieszczonych (iid) standardowych wartości normalnych i oszacuj ich średnią i standardowe odchylenie za pomocą zwykłych wzorów ( średnia = suma / liczba itp .). Aby przetestować dobroć dopasowania, utwórz cztery przedziały z punktami odcięcia w kwartylach standardowej normy: -0,675, 0, +0,657 i użyj liczb bin do wygenerowania statystyki chi-kwadrat. Powtarzaj tak, jak pozwala na to cierpliwość; Miałem czas na 10 000 powtórzeń.

Standardowa wiedza na temat DF mówi, że mamy 4 przedziały i ograniczenia 1 + 2 = 3, co oznacza, że ​​rozkład tych 10 000 statystyk chi-kwadrat powinien być zgodny z rozkładem chi-kwadrat z 1 DF. Oto histogram:

Rycina 1

Ciemnoniebieska linia przedstawia wykres PDF - ten, który naszym zdaniem działał - podczas gdy ciemnoczerwona linia przedstawia wykres (co byłoby dobrym zgadnij, jeśli ktoś ci powie, że jest niepoprawny). Żaden nie pasuje do danych.χ 2 ( 2 ) ν = 1χ2(1)χ2(2)ν=1

Można się spodziewać, że problem wynika z małego rozmiaru zestawów danych ( = 20) lub być może małego rozmiaru liczby pojemników. Jednak problem utrzymuje się nawet w przypadku bardzo dużych zestawów danych i większej liczby pojemników: nie jest to tylko brak osiągnięcia asymptotycznego przybliżenia.n

Coś poszło nie tak, ponieważ naruszyłem dwa wymagania testu chi-kwadrat:

  1. Musisz użyć oszacowania maksymalnego prawdopodobieństwa parametrów. (W praktyce wymóg ten może zostać nieznacznie naruszony.)

  2. Musisz oprzeć tę ocenę na liczbach, a nie na faktycznych danych! (To jest kluczowe .)

Rysunek 2

Czerwony histogram przedstawia statystyki chi-kwadrat dla 10 000 oddzielnych iteracji, zgodnie z tymi wymaganiami. Rzeczywiście, widocznie podąża za krzywą (z dopuszczalnym poziomem błędu próbkowania), jak pierwotnie oczekiwaliśmy.χ2(1)

Punktem tego porównania - które, mam nadzieję, że się pojawiło - jest to, że poprawny DF do obliczenia wartości p zależy od wielu rzeczy innych niż wymiary rozmaitości, liczby zależności funkcjonalnych lub geometrii normalnych zmiennych . Istnieje subtelna, delikatna interakcja między niektórymi zależnościami funkcjonalnymi, znajdowanymi w zależnościach matematycznych między wielkościami i rozkładami danych, ich statystykami i utworzonymi z nich estymatorami. W związku z tym nie może być tak, że DF można odpowiednio wytłumaczyć pod względem geometrii wielowymiarowych rozkładów normalnych lub pod względem niezależności funkcjonalnej, lub jako liczba parametrów lub cokolwiek innego tego rodzaju.

Doprowadzono nas zatem do przekonania, że ​​„stopnie swobody” są jedynie heurystyką, która sugeruje, jaki powinien być rozkład próbkowania statystyki (t, chi-kwadrat lub F), ale nie jest to dyspozycja. Wiara w to, że jest dyspozycyjna, prowadzi do rażących błędów. (Na przykład, największym hitem w Google podczas wyszukiwania „chi-kwadrat dobroci dopasowania” jest strona internetowa z uniwersytetu Ivy League, w której większość tego całkowicie się myli! W szczególności symulacja oparta na jej instrukcjach pokazuje, że chi-kwadrat wartość zalecana jako posiadająca 7 DF faktycznie ma 9 DF.)

Przy tym bardziej szczegółowym zrozumieniu warto ponownie przeczytać ten artykuł w Wikipedii: w jego szczegółach wszystko działa poprawnie, wskazując, gdzie heurystyka DF ma tendencję do działania i gdzie jest to przybliżenie lub w ogóle nie ma zastosowania.


Dobra relacja zilustrowanego tutaj zjawiska (nieoczekiwanie wysoki DF w testach chi-kwadrat GOF) pojawia się w tomie II Kendall & Stuart, wydanie 5 . Jestem wdzięczny za to, że to pytanie doprowadziło mnie z powrotem do tego wspaniałego tekstu, który jest pełen tak przydatnych analiz.


Edycja (styczeń 2017)

Oto Rkod do wygenerowania rysunku następującego: „Standardowa wiedza na temat DF ...”

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
To niesamowita odpowiedź. Wygrywasz za to w Internecie.
Adam

6
@ caracal: jak wiadomo, metody ML dla oryginalnych danych są rutynowe i szeroko rozpowszechnione: na przykład dla rozkładu normalnego MLE jest średnią próbki, a MLE jest pierwiastkiem kwadratowym z odchylenia standardowego próbki ( bez zwykłej korekcji odchylenia). Aby uzyskać oszacowania na podstawie zliczeń, obliczyłem funkcję prawdopodobieństwa dla zliczeń - wymaga to obliczenia wartości CDF w punktach odcięcia, pobrania ich dzienników, pomnożenia przez liczby i zsumowania - i zoptymalizowałem ją za pomocą ogólnego oprogramowania optymalizacyjnego. σμσ
whuber

4
@ caracal Prawdopodobnie już go nie potrzebujesz, ale przykład Rkodu do dopasowywania ML skumulowanych danych pojawia się teraz w powiązanym pytaniu: stats.stackexchange.com/a/34894 .
whuber

1
„Problem z tym rozumowaniem (jakim jest rodzaj obliczeń, na który wskazują cytaty w pytaniu) polega na tym, że jest on błędny, z wyjątkiem sytuacji, gdy istnieją specjalne warunki dodatkowe”. Przechodzę teraz (prawie) przez dwa semestry sekwencji modeli liniowych i rozumiem stopnie swobody, aby być rangą macierzy w „środku” formy kwadratowej. Jakie są te „dodatkowe warunki”?
Klarnecista

4
@Clarinetist Głównym celem mojej odpowiedzi jest zasugerowanie, że to, czego się nauczyłeś, opiera się na pomieszaniu dwóch koncepcji DF. Chociaż to zamieszanie nie stwarza problemów dla standardowych modeli normalnej teorii najmniejszych kwadratów, prowadzi do błędów nawet w prostych, typowych okolicznościach, takich jak analizy tabel awaryjności. Ta pozycja macierzy daje funkcjonalny DF. W modelu liniowym najmniejszych kwadratów zdarza się, że podaje poprawny DF dla niektórych rodzajów testów, takich jak testy F. W przypadku testu chi-kwadrat warunki specjalne wymieniono później w odpowiedzi jako punkty (1) i (2).
whuber

74

Lub po prostu: liczba elementów w tablicy numerycznej, które możesz zmieniać, aby wartość statystyki pozostała niezmieniona.

# for instance if:
x + y + z = 10

można zmienić, na przykład, X i Y w sposób losowy, ale nie można zmienić oo (można, ale nie w sposób losowy, więc nie jesteś wolny , aby go zmienić - patrz komentarz Harveya), bo będziesz zmienić wartość statystyki (Σ = 10). Tak więc w tym przypadku df = 2.


19
Nie można powiedzieć „nie możesz zmienić z”. W rzeczywistości musisz zmienić z, aby suma była równa 10. Ale nie masz wyboru (żadnej swobody) co do tego, co się zmieni. Możesz zmienić dowolne dwie wartości, ale nie trzecią.
Harvey Motulsky

53

Pojęcie wcale nie jest trudne do sprecyzowania matematycznego, biorąc pod uwagę odrobinę ogólnej wiedzy na temat wymiarowej geometrii euklidesowej, podprzestrzeni i rzutów ortogonalnych.n

Jeśli jest rzutem ortogonalnym z do wymiarowej podprzestrzeni a to dowolny wektor, wówczas jest w , i są ortogonalne, a jest ortogonalny komplementarną . Wymiar tego ortogonalnego dopełnienia, , wynosi . Jeśli może zmieniać się w przestrzeni wymiarowej, to może zmieniać się wR n p L x n P x L x - P x P x x - P x L L L n - p x n x - P x n - p x - P x n - pPRnpLxnPxLxPxPxxPxLLLnpxnxPxnp . przestrzeń wymiarowa. Z tego powodu mówimy, że ma Stopnie swobody .xPxnp

Te rozważania są ważne dla statystyki, ponieważ jeśli jest wymiarowym wektorem losowym, a jest modelem jego średniej, to znaczy, że średni wektor jest w , wówczas nazywamy wektorem reszt , i używamy reszt do oszacowania wariancji. Wektor reszt ma Stopnie swobody, to znaczy jest ograniczony do podprzestrzeni wymiaru .n L E ( X ) L X - P X n - p n - pXnLE(X)LXPXnpnp

Jeśli współrzędne są niezależne i normalnie rozmieszczone z tą samą wariancją toσ 2Xσ2

  • Wektory i są niezależne.X - P XPXXPX
  • Jeśli rozkład kwadratu normy wektora reszt jest z parametrem skali i innym parametrem, który okazuje się być stopnie swobody .| | X - P X | | 2 χ 2 σ 2 n - pE(X)L||XPX||2χ2σ2np

Szkic dowodu tych faktów podano poniżej. Te dwa wyniki są kluczowe dla dalszego rozwoju teorii statystycznej opartej na rozkładzie normalnym. Zauważ też, że właśnie dlatego ma parametryzację. Jest to również rozkład z parametrem skali i parametrem kształtu , ale w powyższym kontekście naturalne jest parametryzowanie w kategoriach stopni swobody. Γ 2 σ 2 ( n - p ) / 2χ2Γ2σ2(np)/2

Muszę przyznać, że nie uważam żadnego z akapitów cytowanych w artykule na Wikipedii za szczególnie pouczający, ale nie są one tak naprawdę błędne ani sprzeczne. Mówią w nieprecyzyjnym i ogólnie luźnym sensie, że kiedy obliczamy oszacowanie parametru wariancji, ale robimy to na podstawie reszt, opieramy obliczenia na wektorze, który może zmieniać się tylko w przestrzeni o wymiarach .np

Poza teorią liniowych modeli normalnych użycie pojęcia stopni swobody może być mylące. Służy na przykład do parametryzacji niezależnie od tego, czy istnieje odniesienie do czegokolwiek, co może mieć dowolny stopień swobody. Kiedy bierzemy pod uwagę analizę statystyczną danych kategorycznych, możemy mieć pewne wątpliwości co do tego, czy „niezależne elementy” powinny być liczone przed, czy po tabeli. Ponadto w przypadku ograniczeń, nawet dla normalnych modeli, które nie są ograniczeniami podprzestrzeni, nie jest oczywiste, jak rozszerzyć pojęcie stopni swobody. Różne sugestie istnieją zwykle pod nazwą efektywnych stopni swobody.χ2

Przed rozważeniem jakichkolwiek innych zastosowań i znaczeń stopni swobody zdecydowanie zalecę, aby nabrać pewności w kontekście normalnych modeli liniowych. Odniesieniem dotyczącym tej klasy modeli jest Pierwszy kurs teorii modeli liniowych , a we wstępie książki znajdują się dodatkowe odniesienia do innych klasycznych książek o modelach liniowych.

Dowód na podstawie wyników przedstawionych powyżej: Niech należy zauważyć, że macierz wariancji i wybrać zasadzie ortonormalną z i zasadzie ortonormalną z . Zatem jest ortonormalną podstawą . Niech oznacza wektor współczynników na tej podstawie, czyli Można to również zapisać jako gdzie jest macierzą ortogonalną zσ 2 I z 1 , ... , z P L oo s + 1 , ... , z n L z 1 , ... , z n R N ~ X N X ~ X I = oo T i X . ˜ X = Z T X Z z i ˜ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~nX

X~i=ziTX.
X~=ZTXZzi jest w kolumnach. Wtedy trzeba użyć tej ma rozkładu normalnego o średniej a ponieważ jest prostopadła, macierz wariancji . Wynika to z ogólnych wyników transformacji liniowej rozkładu normalnego. Podstawą było tak dobrane, że współczynniki są dla i współczynniki są dla . Ponieważ współczynniki są nieskorelowane i wspólne normalne, są one niezależne, co oznacza, że oraz X~Z σ 2 I P X ˜ X i i = 1 , , p X - P X ˜ X i i = p + 1 , , n P X = p i = 1 ˜ X i z i X - P X = n i = p + 1 ˜ZTξZσ2IPXX~ii=1,,pXPXX~ii=p+1,,n
PX=i=1pX~izi
XPX=i=p+1nX~izi
są niezależne. Ponadto, Jeśli to dla ponieważ wtedy i stąd . W tym przypadku jest sumą Niezależnych zmiennych losowych , których rozkład z definicji jest z parametrem skali i stopnie swobody.
||XPX||2=i=p+1nX~i2.
ξLE(X~i)=ziTξ=0i=p+1,,n z iξ | | X - P X | | 2 n - p N ( 0 , σ 2 ) χ 2 σ 2 n - pziLziξ||XPX||2npN(0,σ2)χ2σ2np

NRH, dzięki! (1) Dlaczego musi znajdować się w ? (2) Dlaczego i są niezależne? (3) Czy dof w kontekście zmiennej losowej jest zdefiniowane z dof w jego deterministycznym przypadku? Na przykład, czy przyczyną jest dof ponieważ jest prawdą, gdy jest zmienną deterministyczną zamiast zmiennej losowej? (4) Czy istnieją odniesienia (książki, artykuły lub linki), które mają taką samą / podobną opinię jak twoje? E(X)LPXXPX||XPX||2npX
Tim

@Tim, i są niezależne, ponieważ są normalne i nieskorelowane. PXXPX
mpiktas

@ Tim, przeredagowałem nieco odpowiedź i podałem dowód podanych wyników. Średnia musi znajdować się w aby udowodnić wynik . Jest to założenie modelowe. W literaturze powinieneś poszukać liniowych modeli normalnych lub ogólnych modeli liniowych, ale teraz mogę tylko przypomnieć niektóre stare, niepublikowane notatki z wykładów. Zobaczę, czy mogę znaleźć odpowiednie odniesienie. Lχ2
NRH

Cudowna odpowiedź. Dzięki za wgląd. Jedno pytanie: zgubiłem się, co miałeś na myśli, mówiąc „średni wektor jest w ”. Możesz wytłumaczyć? Czy próbujesz zdefiniować ? zdefiniować ? coś innego? Może to zdanie próbuje zrobić dla mnie zbyt wiele lub być zbyt zwięzłe. Czy możesz rozwinąć definicję we wspomnianym kontekście: czy to tylko ? Czy możesz wyjaśnić, co jest w tym kontekście (normalnych współrzędnych iid)? Czy to po prostu ? EXLELEE(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW

@DW jest operatorem oczekiwania. Tak jest wektorem coordinatewise oczekiwań . Podprzestrzeń to dowolna podprzestrzeń wymiarowa . Jest to przestrzeń wektorów i na pewno nie , ale bardzo dobrze może być jednowymiarowa. Najprostszym przykładem jest być może, gdy jest on rozpięty przez z 1 na wszystkich współrzędnych. Jest to model wszystkich współrzędnych o tej samej wartości średniej, ale możliwych jest wiele bardziej skomplikowanych modeli. EE(X)XLpRnnR1nX
NRH

30

Tak naprawdę nie różni się od sposobu, w jaki termin „stopnie swobody” działa w jakiejkolwiek innej dziedzinie. Załóżmy na przykład, że masz cztery zmienne: długość, szerokość, obszar i obwód prostokąta. Czy naprawdę wiesz cztery rzeczy? Nie, ponieważ istnieją tylko dwa stopnie swobody. Jeśli znasz długość i szerokość, możesz określić obszar i obwód. Jeśli znasz długość i obszar, możesz określić szerokość i obwód. Jeśli znasz obszar i obwód, możesz określić długość i szerokość (do obrotu). Jeśli masz wszystkie cztery, możesz powiedzieć, że system jest spójny (wszystkie zmienne się ze sobą zgadzają) lub niespójny (żaden prostokąt nie spełniałby wszystkich warunków). Kwadrat to prostokąt z usuniętym stopniem swobody;

W statystykach sprawy stają się coraz bardziej rozmyte, ale idea jest nadal taka sama. Jeśli wszystkie dane, których używasz jako danych wejściowych dla funkcji, są zmiennymi niezależnymi, masz tyle stopni swobody, ile masz danych wejściowych. Ale jeśli są one w jakiś sposób zależne, tak że gdybyś miał n-k danych wejściowych, mógłbyś dowiedzieć się o pozostałym k, wtedy faktycznie masz tylko n-k stopni swobody. Czasami trzeba to wziąć pod uwagę, aby nie przekonać się, że dane są bardziej niezawodne lub mają większą moc predykcyjną niż w rzeczywistości, licząc więcej punktów danych niż tak naprawdę niezależne bity danych.

(Zaczerpnięty z postu na stronie http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .)

Co więcej, wszystkie trzy definicje prawie próbują przekazać ten sam komunikat.


1
Zasadniczo słusznie, ale obawiam się, że środkowy akapit można odczytać w sposób, który dezorientuje korelację, niezależność (zmiennych losowych) i niezależność funkcjonalną (różnorodnych parametrów). Zachowanie rozróżnienia na niezależność korelacji jest szczególnie ważne, aby zachować.
whuber

@whuber: czy teraz jest w porządku?
Biostat

3
To prawda, ale sposób, w jaki używa terminów, prawdopodobnie wprowadziłby w błąd niektórych ludzi. Nadal nie odróżnia wyraźnie zależności zmiennych losowych od zależności funkcjonalnej. Na przykład dwie zmienne w (normalnym) dwuwymiarowym rozkładzie normalnym z niezerową korelacją będą zależne (jako zmienne losowe), ale nadal oferują dwa stopnie swobody.
whuber


2
Nasze Centrum pomocy zawiera jasne wskazówki, jak odwoływać się do materiałów napisanych przez innych , więc mam nadzieję, że OP wróci do tego postu, aby podjąć odpowiednie działania i zaangażować się w konstruktywne interakcje (chociaż nie widzieliśmy go od dłuższego czasu).
chl

19

Bardzo podoba mi się pierwsze zdanie z Małego podręcznika praktyki statystycznej. Rozdział o stopniach wolności

Jednym z pytań, których instruktor najbardziej obawia się matematycznie niewyszukanej publiczności, jest: „Czym dokładnie są stopnie swobody?”.

Myślę, że możesz naprawdę dobrze zrozumieć stopnie swobody, czytając ten rozdział.


6
Byłoby miło wyjaśnić, dlaczego stopnie swobody są ważne, a nie tylko to, co to jest. Na przykład wykazanie, że oszacowanie wariancji z 1 / n jest stronnicze, ale użycie 1 / (n-1) daje obiektywny estymator.
Tristan

9

Wikipedia twierdzi, że stopnie swobody z losowym wektorem może być interpretowane jako wymiarów podprzestrzeni wektorowych. Chcę przejść krok po kroku, bardzo zasadniczo przez to, jako częściową odpowiedź i rozwinięcie wpisu w Wikipedii.

Przykład proponowany jest losowego wektora odpowiadającego pomiaru ciągłego zmiennej dla różnych przedmiotów, wyrażoną jako wektor, sięgające od początku . Jego rzut ortogonalny na wektorze powoduje wektor równy rzutowi wektora środków pomiarowych ( ), tj. , kropkowane wektorem , Ta projekcja na podprzestrzeń rozpiętą przez wektor jeden ma . Pozostały wektor (odległość od średniej) jest rzutem najmniejszych kwadratów na[abc]T[111]Tx¯=1/3(a+b+c)[x¯x¯x¯]T1[111]T1degree of freedom(n1)-wymiarowe ortogonalne uzupełnienie tej podprzestrzeni i ma , jest całkowitą liczbą składników wektora (w naszym przypadku ponieważ jesteśmy w w przykład). Można to po prostu udowodnić, otrzymując iloczyn skalarny z różnicą między i :n1degrees of freedomn3R3[x¯x¯x¯]T[abc]T[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0
.

I związek ten rozciąga się do dowolnego punktu w płaszczyźnie prostopadłej do . Ta koncepcja jest ważna dla zrozumienia, dlaczego , krok w wyprowadzeniu rozkładu t ( tu i tutaj ).[x¯x¯x¯]T1σ2((X1X¯)2++(XnX¯)2)χn12

Weźmy punkt , odpowiadający trzem obserwacjom. Średnia jest , a wektor jest normalny (prostopadłego) do płaszczyzny, . Podłączenie współrzędnych punktu do równania płaskiego, .[355080]T55[555555]T55x+55y+55z=DD=9075

Teraz można wybrać inny punkt w tej płaszczyźnie, a jego średni współrzędnych będzie geometrycznie odpowiadającą jej rzut na wektorze . Dlatego dla każdej wartości średniej (w naszym przykładzie ) możemy wybrać nieskończoną liczbę par współrzędnych w bez ograniczeń ( ); jednak, ponieważ płaszczyzna znajduje się w , trzecia współrzędna zostanie wyznaczona przez równanie płaszczyzny (lub, geometrycznie, ortogonalna rzut punktu na .55[111]T55R22degrees of freedomR3[555555]T

Oto reprezentacja trzech punktów (w kolorze białym) leżących na płaszczyźnie (cerulean blue) prostopadłych do (strzałka): , i wszystkie na płaszczyźnie (podprzestrzeń z ) , a następnie ze średnią ich składników , a rzut ortogonalny na (podprzestrzeń z ) równą :[555555]T[355080]T[80805][901560]2df55[111]T1df[555555]T


9

Na moich zajęciach wykorzystuję jedną „prostą” sytuację, która może pomóc ci się zastanawiać i być może rozwinąć poczucie przeczucia, co może oznaczać pewien stopień swobody.

To rodzaj podejścia „Forrest Gump” do tematu, ale warto spróbować.

Rozważ, że masz 10 niezależnych obserwacji które pochodzą prosto z normalnej populacji, której średnia i wariancja są nieznane.X1,X2,,X10N(μ,σ2)μσ2

Twoje obserwacje dostarczają zbiorowo informacji zarówno o i . W końcu twoje obserwacje są rozłożone wokół jednej centralnej wartości, która powinna być zbliżona do rzeczywistej i nieznanej wartości a także, jeśli jest bardzo wysoka lub bardzo niska, możesz spodziewać się, że zobaczysz swoje obserwacje gromadzą się wokół odpowiednio bardzo wysokiej lub bardzo niskiej wartości. Jednym dobrym „substytutem” dla (przy braku wiedzy o jego rzeczywistej wartości) jest , średnia z twoich obserwacji. μσ2μμμX¯

Ponadto, jeśli twoje obserwacje są bardzo blisko siebie, oznacza to, że możesz spodziewać się, że musi być mała, a także, jeśli jest bardzo duża, możesz spodziewać się niesamowicie różnych wartości dla do . σ2σ2X1X10

Jeśli obstawiałbyś tygodniowe wynagrodzenie, na które powinny być rzeczywiste wartości i , musisz wybrać parę wartości, w których postawiłbyś swoje pieniądze. Niech nie myśleć o niczym innym, jak dramatyczny jako utratę wypłaty chyba domyślać prawidłowo aż do 200. pozycji po przecinku. Nie. Pomyślmy o jakimś systemie cenowym, że im bliżej zgadniesz i tym więcej otrzymasz nagrody.μσ2μμσ2

W pewnym sensie, twój lepsze, bardziej świadome, bardziej uprzejmy przypuszczenie dla wartości „s może być . W tym sensie, to szacujemy , że musi być jakaś wartość około . Podobnie, jednym dobrym „substytutem” dla (na razie nie jest to wymagane) jest , twoja wariancja próbki, która jest dobrym oszacowaniem dla .μX¯μX¯σ2S2σ

Gdybyście wierzyli, że te substytuty są rzeczywistymi wartościami i , prawdopodobnie bylibyście w błędzie, ponieważ bardzo małe są szanse, że mieliście tyle szczęścia, że ​​wasze obserwacje skoordynowały się, aby uzyskać prezent od jest równe a równe . Nie, prawdopodobnie tak się nie stało.μσ2X¯μS2σ2

Ale możesz być na różnych poziomach zła, od nieco złego do naprawdę, naprawdę, naprawdę bardzo źle (aka, „Pa, pa, czek; do zobaczenia w przyszłym tygodniu!”).

Ok, powiedzmy, że wziąłeś jako zgadywanie dla . Rozważ tylko dwa scenariusze: i . Po pierwsze, twoje obserwacje leżą całkiem blisko siebie. W tym drugim twoje obserwacje są bardzo różne. W którym scenariuszu powinieneś być bardziej zainteresowany potencjalnymi stratami? Jeśli pomyślałeś o drugim, masz rację. Oszacowanie bardzo rozsądnie zmienia twoje zaufanie do zakładu, ponieważ im większy , tym szerszy zakres, od którego można oczekiwać będzie się zmieniać.X¯μS2=2S2=20,000,000σ2σ2X¯

Ale poza informacjami na temat i , twoje obserwacje niosą również pewną pewną czystą przypadkową fluktuację, która nie dostarcza informacji ani o ani o . μσ2μσ2

Jak to zauważyć?

Załóżmy, dla argumentu, że istnieje Bóg i że ma on wystarczająco dużo czasu, aby dać sobie frywolność, mówiąc konkretnie prawdziwe (i jak dotąd nieznane) wartości zarówno i .μσ

A oto irytująca zwrotka akcji tej opowieści lizgońskiej: Mówi ci to po postawieniu zakładu. Może cię oświecić, może cię przygotować, a może kpić. Skąd mogłeś wiedzieć

To sprawia, że ​​informacje o i zawarte w twoich obserwacjach są teraz zupełnie bezużyteczne. Centralna pozycja twoich obserwacji i wariancja nie pomagają już zbliżyć się do rzeczywistych wartości i , bo już je znasz.μσ2X¯S2μσ2

Jedną z korzyści z dobrej znajomości z Bogiem jest to, że faktycznie wiesz, na ile nie zgadłeś poprawnie , używając , czyli błąd oszacowania.μX¯(X¯μ)

Cóż, skoro , to (zaufaj mi, jeśli chcesz), także (ok, też mi to zaufaj) i na koniec (zgadnij co? zaufaj mi również w tym), który nie zawiera absolutnie żadnych informacji o lub .XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
μσ2

Wiesz co? Jeśli weźmiesz jakieś indywidualne obserwacje za domysły dla , twój błąd oszacowania zostanie rozłożony jako . Pomiędzy oszacowaniem pomocą i dowolnego , wybranie byłoby lepszym biznesem, ponieważ , więc był mniej podatny na zbłądzenie z niż pojedynczy .μ(Xiμ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

W każdym razie również absolutnie nie informuje o ani ani .(Xiμ)/σN(0,1)μσ2

„Czy ta opowieść kiedyś się skończy?” możesz myśleć. Być może myślisz: „Czy są jakieś przypadkowe fluktuacje, które nie informują o i ?”.μσ2

[Wolę myśleć, że myślisz o tym drugim.]

Tak jest!

Kwadrat błędu oszacowania dla z podzielony przez , ma rozkład chi-kwadrat, który jest rozkładem kwadratu standardowego Normalnego , który, jestem pewien, zauważyłeś, ma absolutnie brak informacji o ani , ale przekazuje informacje o zmienności, której powinieneś się spodziewać.μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

Jest to bardzo dobrze znany rozkład, który powstaje naturalnie z samego scenariusza twojego problemu z hazardem dla każdej z twoich dziesięciu obserwacji, a także z twojej średniej: a także ze zbioru dziesięciu wariantów obserwacji: Teraz ten ostatni facet nie ma rozkładu chi-kwadrat, ponieważ jest sumą dziesięciu rozkładów chi-kwadrat, wszystkie niezależne od siebie (ponieważ

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10). Każdy z tych pojedynczych rozkładów chi-kwadrat stanowi jeden wkład do wielkości losowej zmienności, z którą powinieneś się zmierzyć, przy mniej więcej takiej samej wartości do sumy.

Wartość każdego wkładu nie jest matematycznie równa pozostałym dziewięciu, ale wszystkie mają takie same oczekiwane zachowanie w rozkładzie. W tym sensie są one w jakiś sposób symetryczne.

Każdy z tych kwadratów chi stanowi jeden wkład w czystą, losową zmienność, której należy się spodziewać w tej sumie.

Gdybyś miał 100 obserwacji, powyższa suma byłaby większa, tylko dlatego, że ma więcej źródeł zakażeń .

Każde z tych „źródeł wkładu” o tym samym zachowaniu można nazwać stopniem swobody .

Teraz cofnij się o jeden lub dwa kroki, w razie potrzeby przeczytaj ponownie poprzednie akapity, aby uwzględnić nagłe przybycie poszukiwanego stopnia wolności .

Tak, każdy stopień swobody może być traktowany jako jedna jednostka zmienności, której wystąpienia obowiązkowo oczekuje się i która nie wnosi nic do poprawy zgadywania lub .μσ2

Chodzi o to, że zaczynasz liczyć na zachowanie tych 10 równoważnych źródeł zmienności. Gdybyś miał 100 obserwacji, miałbyś 100 niezależnych, równorzędnych źródeł ściśle przypadkowych wahań tej sumy.

Ta suma 10 kwadratów chi nazywa się odtąd rozkładami chi-kwadrat o 10 stopniach swobody i jest zapisywana . Możemy opisać, czego się od niego spodziewać, zaczynając od jego funkcji gęstości prawdopodobieństwa, którą można matematycznie wyprowadzić z gęstości z tego pojedynczego rozkładu chi-kwadrat (odtąd zwanego rozkładem chi-kwadrat z jednym stopniem swobody i zapisanym ), które można wyprowadzić matematycznie z gęstości rozkładu normalnego.χ102χ12

"Więc co?" --- możesz myśleć --- „To ma sens tylko wtedy, gdy Bóg poświęci czas, by powiedzieć mi wartości i , wszystkich rzeczy, które mógłby mi powiedzieć!”μσ2

Rzeczywiście, gdyby Bóg Wszechmogący był zbyt zajęty, aby powiedzieć ci wartości i , nadal miałbyś 10 źródeł, 10 stopni swobody.μσ2

Sprawy zaczynają się dziać dziwnie (Hahahaha; tylko teraz!), Kiedy buntujesz się przeciwko Bogu i próbujesz dogadać się samemu, nie oczekując, że On cię ochroni.

Masz i , estymatory dla i . Możesz znaleźć drogę do bezpieczniejszego zakładu.X¯S2μσ2

Możesz rozważyć obliczenie powyższej sumy za pomocą i w miejscach i : ale to jest nie to samo co pierwotna suma.X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

"Dlaczego nie?" Pojęcie wewnątrz kwadratu obu sum jest bardzo różne. Na przykład jest mało prawdopodobne, ale możliwe, że wszystkie twoje obserwacje będą większe niż , w którym to przypadku , co oznacza , ale z kolei , ponieważ . μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

Co gorsza, możesz łatwo udowodnić (Hahahaha; racja!), Że ze ścisłą nierównością, gdy co najmniej dwie obserwacje są różne (co nie jest niezwykłe).i=110(XiX¯)2i=110(Xiμ)2

„Ale czekaj! Jest więcej!” nie ma standardowego rozkładu normalnego, nie ma Rozkład chi-kwadrat z jednym stopniem swobody, nie ma rozkładu chi-kwadrat z 10 stopni swobody nie ma standardowego rozkładu normalnego.

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10

„Czy to wszystko na nic?”

Nie ma mowy. Teraz nadchodzi magia! Zauważ, że lub, równoważnie,

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.
Teraz wracamy do tych znanych twarzy.

Pierwszy termin ma rozkład chi-kwadrat z 10 stopniami swobody, a ostatni termin ma rozkład chi-kwadrat z jednym stopniem swobody (!).

Po prostu podzieliliśmy chi-kwadrat z 10 niezależnymi równorzędnymi źródłami zmienności na dwie części, obie pozytywne: jedna część jest chi-kwadrat z jednym źródłem zmienności, a druga możemy udowodnić (skok wiary? Wygrać przez WO? ) ma być również chi-kwadrat z 9 (= 10-1) niezależnymi równorzędnymi źródłami zmienności, przy czym obie części są od siebie niezależne.

To już dobra wiadomość, ponieważ teraz mamy jej dystrybucję.

Niestety używa , do którego nie mamy dostępu (pamiętaj, że Bóg bawi się obserwując naszą walkę).σ2

Cóż, więc dlatego który jest rozkładem, który nie jest standardową normą, ale którego gęstość można uzyskać z gęstości standardowej normy i chi-kwadrat z stopni swobody.

S2=1101i=110(XiX¯)2,
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
(101)

Jeden bardzo, bardzo mądry facet zrobił matematykę [^ 1] na początku XX wieku i, jako niezamierzona konsekwencja, uczynił swojego szefa absolutnym światowym liderem w branży piwa Stout. Mówię o Williamie Sealy Gossecie (aka Student; tak, ten Student z dystrybucji ) i browarze Świętego Jakuba (aka Guinness Brewery ), którego jestem pobożnym.t

[^ 1]: @whuber powiedział w komentarzach poniżej, że Gosset nie zrobił matematyki, ale zgadł ! Naprawdę nie wiem, który wyczyn jest bardziej zaskakujący na ten czas.

To, mój drogi przyjacielu, jest początkiem rozkładu o stopniach swobody. Stosunek standardowej normy do pierwiastka kwadratowego niezależnego chi-kwadratu podzielony przez stopnie swobody, które w nieprzewidywalny zwrot pływów kończą się opisując oczekiwane zachowanie błędu oszacowania występującego podczas korzystania ze średniej próbki oszacować i stosując do oszacowania zmienności .t(101)X¯μS2X¯

Proszę bardzo. Z okropną ilością szczegółów technicznych rażąco przesadzonych za dywanikiem, ale nie zależnych wyłącznie od interwencji Boga, aby niebezpiecznie postawić całą wypłatę.


1
Dziękuję za taki wysiłek! Przyznaję jednak, że znalazłem twoje wyjaśnienie mniej niż przekonujące. Wydaje się być założycielem na tym kluczowym skrzyżowaniu: „Każde z tych„ źródeł wkładu ”o tym samym zachowaniu można nazwać stopniem wolności”. Gdybyś zamiast podsumował niezależnych normalne zmiennymi zamiast niezależnymi zmiennymi chi-kwadrat, by skończyć with-- jednego normalnego variate. W jakiś sposób „stopnie swobody” zostają całkowicie pochłonięte. Najwyraźniej jest coś wyjątkowego w kwadracie chi, którego jeszcze nie opisałeś. BTW, Gosset nie zrobił matematyki: zgadł! 1010
whuber

Bardzo dziękuję za twoją ocenę, @whuber! To niesamowite, jak wiele liter pojawia się, gdy zapominasz, co napisałeś. Jeśli chodzi o twoją ocenę, chciałem tylko zilustrować inny sposób myślenia - trochę mniej matematyczny w pewnym sensie. Poza tym nie rozumiem w pełni, o co ci chodziło. Jeśli zamiast tego zsumowałeś 10 niezależnych wariacji normalnych zamiast 10 niezależnych wariacji chi-kwadrat, skończyłbyś z - jedną normalną wariacją - które, jak sądzę, utrzymują twój kluczowy punkt . Postaram się to rozwinąć, mając nadzieję na ulepszenie posta.
Marcelo Ventura

2

Intuicyjne wyjaśnienie stopni swobody polega na tym, że reprezentują one liczbę niezależnych informacji dostępnych w danych do oszacowania interesującego parametru (tj. Nieznanej ilości) .

Na przykład w prostym modelu regresji liniowej formy:

Yi=β0+β1Xi+ϵi,i=1,,n

gdzie reprezentują niezależne normalnie rozkładane terminy błędów ze średnią 0 i odchyleniem standardowym , używamy 1 stopnia swobody do oszacowania przecięcia i 1 stopnia swobody do oszacowania nachylenia . Ponieważ rozpoczęliśmy od obserwacji i wykorzystaliśmy 2 stopnie swobody (tj. Dwa niezależne fragmenty informacji), pozostaje nam stopnie swobody (tj. niezależnych fragmentów informacji) dostępnych do oszacowania błędu odchylenie standardowe .ϵiσβ0β1nn2n2σ


Bardzo dziękuję za edycję mojej odpowiedzi, @COOLSerdash!
Isabella Ghement

2

Stopień swobody można zobaczyć jako liczbę obserwacji minus liczbę niezbędnych relacji między tymi obserwacjami. Na przykład, jeśli masz próbkę niezależnych obserwacji rozkładu normalnego . Zmienna losowa , gdzie . Stopień swobody wynosi tutaj ponieważ jest to jeden niezbędny związek między tymi obserwacjami .nX1,,Xni=1n(XiX¯n)2Xn12X¯n=1ni=1nXin1(X¯n=1ni=1nXi)

Aby uzyskać więcej informacji, zobacz to


0

Dla mnie pierwszym wyjaśnieniem, które zrozumiałem, było:

Jeśli znasz jakąś wartość statystyczną, taką jak średnia lub zmienność, ile zmiennych danych musisz znać, zanim poznasz wartość każdej zmiennej?

Jest to to samo, co powiedział aL3xa, ale bez nadawania punktowi danych specjalnej roli i bliski trzeciemu przypadkowi podanemu w odpowiedzi. W ten sposób ten sam przykład wyglądałby następująco:

Jeśli znasz średnią danych, musisz znać wartości dla wszystkich punktów danych oprócz jednego, aby poznać wartość dla wszystkich punktów danych.


Zmienne -> obserwacje
Richard Hardy

0

Pomyśl o tym w ten sposób. Rozbieżności są addytywne, gdy są niezależne. Na przykład, załóżmy, że mamy do rzucania lotkami na pokładzie i mierzymy standardowe odchylenia w i przemieszczeń z dokładnym środku planszy. Następnie . Ale, jeśli weźmiemy pierwiastek kwadratowy ze wzoru , otrzymamy wzór odległości dla współrzędnych ortogonalnych, . Teraz wszystko, co musimy wykazać, to to, że odchylenie standardowe jest reprezentatywną miarą przesunięcia od środka planszy. Ponieważ , mamy gotowy sposób na omówienie df. Zauważ, że gdyxyVx,y=Vx+VyVx=SDx2Vx,ySDx,y=SDx2+SDy2SDx=i=1n(xix¯)2n1n=1, następnie i współczynnik . Innymi słowy, nie ma żadnych odchyleń między współrzędną jednej strzałki a samym sobą. Po raz pierwszy mamy odchylenie dla i jest tylko jeden z nich, duplikat. To zduplikowane odchylenie to kwadratowa odległość między lub a ponieważ jest punktem środkowym między lub średnio i . Ogólnie rzecz biorąc, dla odległości usuwamy 1, ponieważ jest zależny od wszystkichx1x¯=0 xn=2x1x2 ˉ x =x1+x2i=1n(xix¯)2n100xn=2x1x2 ˉ x x1x2n ˉ x nn-1x¯=x1+x22x¯x1x2nx¯n z tych odległości. Teraz reprezentuje stopnie swobody, ponieważ normalizuje się pod względem liczby unikalnych wyników w celu uzyskania oczekiwanej odległości kwadratowej. podzielone na sumę tych kwadratowych odległości.n1

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.