Kiedy dane mają rozkład gaussowski, ile próbek je scharakteryzuje?

Dane gaussowskie rozmieszczone w jednym wymiarze wymagają dwóch parametrów do jego scharakteryzowania (średnia, wariancja), a plotka głosi, że około 30 losowo wybranych próbek jest zwykle wystarczających do oszacowania tych parametrów z dość dużą pewnością. Ale co się stanie, gdy liczba wymiarów wzrośnie?

W dwóch wymiarach (np. Wysokość, waga) potrzeba 5 parametrów, aby określić elipsę „najlepiej dopasowaną”. W trzech wymiarach wzrasta do 9 parametrów, aby opisać elipsoidę, aw 4-D zajmuje 14 parametrów. Interesuje mnie to, czy liczba próbek wymaganych do oszacowania tych parametrów również rośnie w porównywalnym tempie, wolniejszym tempie lub (proszę nie!) Wyższym tempie. Co więcej, jeśli istniałaby ogólnie przyjęta reguła, która sugeruje, ile próbek jest wymaganych do scharakteryzowania rozkładu gaussowskiego w danej liczbie wymiarów, dobrze byłoby wiedzieć.

Mówiąc ściślej, załóżmy, że chcemy zdefiniować symetryczną granicę „najlepiej dopasowanego” wyśrodkowaną w środku punktu, w którym możemy być pewni, że 95% wszystkich próbek spadnie. Chcę wiedzieć, ile próbek może potrzebować znalezienie parametrów do przybliżenia tej granicy (interwał w 1-D, elipsa w 2-D itp.) Z odpowiednio wysoką pewnością (> 95%) i jak ta liczba zmienia się jako liczba wymiarów wzrasta.

normal-distribution multivariate-analysis

— omatai
źródło

Bez wystarczająco precyzyjnej definicji „przypinania”, tak naprawdę nie jest możliwe udzielenie odpowiedzi na to pytanie, nawet dla jednowymiarowego Gaussa.

— Glen_b

Co powiesz na: ile próbek trzeba mieć co najmniej 95% pewności, że 95% wszystkich próbek (ale tylko 95% wszystkich próbek) będzie mieściło się w określonym przedziale / elipsa / elipsoida / hiperellipsoida?

— omatai

To znaczy ... 95% wszystkich próbek będzie znajdować się w określonej odległości od średniej. Ile próbek jest wymaganych do zdefiniowania tej odległości (przedział / elipsa / elipsoida / etc) z 95% lub lepszą pewnością?

— omatai

Gdy tylko masz jeszcze jedną niezależną wartość danych niż istnieją parametry (wartości whence w wymiarach ), możesz zbudować wokół nich 95% obszar pewności. (Można zrobić jeszcze lepiej, używając nietradycyjnych technik .) To odpowiedź - jest ostateczna - ale prawdopodobnie nie jest to, czego szukasz. Chodzi o to, że musisz ustalić absolutną skalę pożądanej dokładności, aby uzyskać odpowiedź na to pytanie.

(\binom{d + 2}{2})

$\binom{d+2}{2}$

d

$d$

— whuber

Snedecor i Cochran [ Metody statystyczne , wydanie 8] są autorytetami w zakresie pobierania próbek. Opisują ten proces w rozdziałach 4 i 6: „zakładamy z początku, że odchylenie standardowe populacji ... jest znane”. Później piszą: „Metoda jest zatem najbardziej użyteczna na wczesnych etapach pracy. ... Na przykład wcześniejsze małe eksperymenty wykazały, że nowe leczenie daje wzrost o około 20%, a wynosi około 7% Badacz ... [chce] SE na poziomie 2% i tym samym ustawia , dając ... To ... jest często pomocne w późniejszej pracy

σ_{D}

$\sigma_D$

σ

$\sigma$

\pm

$\pm$

\sqrt{2} (7) / \sqrt{n} = 2

$\sqrt{2}(7)/\sqrt{n}=2$

n = 25

$n=25$

— whuber

Odpowiedzi:

Ilość danych potrzebnych do oszacowania parametrów wielowymiarowego rozkładu normalnego z określoną dokładnością do określonej ufności nie zmienia się w zależności od wymiaru, wszystkie inne rzeczy są takie same. Dlatego możesz zastosować dowolną zasadę dotyczącą dwóch wymiarów do problemów o wyższych wymiarach bez żadnych zmian.

Dlaczego to powinno? Istnieją tylko trzy rodzaje parametrów: średnie, wariancje i kowariancje. Błąd oszacowania w średniej zależy tylko od wariancji i ilości danych, . Tak więc, gdy ma wielowymiarowego rozkładu normalnego i Posiadane odchylenia , wtedy oszacowania zależą tylko i . Skąd, w celu uzyskania odpowiedniej dokładności przy szacowaniu wszystkie tylko trzeba wziąć pod uwagę ilość danych potrzebnych do mającemu największą z $n$ $(X_1, X_2, \ldots, X_d)$ $X_i$ $\sigma_i^2$ $\mathbb{E[X_i]}$ $\sigma_i$ $n$ $\mathbb{E}[X_i]$ $X_i$ $\sigma_i$ . Dlatego, gdy rozważamy szereg problemów z estymacją dla zwiększenia wymiarów , wszystko, co musimy wziąć pod uwagę, to o ile wzrośnie największy . Kiedy powyższe parametry są ograniczone powyżej, dochodzimy do wniosku, że ilość potrzebnych danych nie zależy od wymiaru. $d$ $\sigma_i$

Podobne uwagi dotyczą oszacowania wariancji i kowariancji : jeśli pewna ilość danych wystarcza do oszacowania jednej kowariancji (lub współczynnika korelacji) z pożądaną dokładnością, to - pod warunkiem, że podstawowy rozkład normalny ma podobny wartości parametrów - ta sama ilość danych wystarczy do oszacowania dowolnego kowariancji lub współczynnika korelacji. $\sigma_i^2$ $\sigma_{ij}$

Aby zilustrować i dostarczyć empirycznego wsparcia dla tego argumentu, przestudiujmy niektóre symulacje. Poniżej przedstawiono parametry dla wielonormalnego rozkładu określonych wymiarów, rysuje wiele niezależnych, identycznie rozmieszczonych zestawów wektorów z tego rozkładu, szacuje parametry z każdej takiej próbki i podsumowuje wyniki tych oszacowań parametrów pod względem (1) ich średnich - -by wykazać, że są bezstronni (a kod działa poprawnie - i (2) ich odchylenia standardowe, które określają ilościowo dokładność szacunków. (Nie należy mylić tych odchyleń standardowych, które określają ilościowo różnicę między szacunkami uzyskanymi w wielu przypadkach iteracje symulacji, ze standardowymi odchyleniami użytymi do zdefiniowania leżącego u podstaw rozkładu wielonormalnego! $d$ zmiany, pod warunkiem, że jako zmiany nie wprowadzają większych odchyleń w samym podstawowym rozkładzie wielonormalnym. $d$

Rozmiary wariancji rozkładu podstawowego są kontrolowane w tej symulacji poprzez uczynienie największej wartości własnej macierzy kowariancji równej . Utrzymuje to „chmurę” gęstości prawdopodobieństwa w granicach wraz ze wzrostem wymiaru, bez względu na kształt tego obłoku. Symulacje innych modeli zachowania systemu wraz ze wzrostem wymiaru można utworzyć po prostu zmieniając sposób generowania wartości własnych; jeden przykład (z zastosowaniem rozkładu gamma) został skomentowany w poniższym kodzie. $1$ R

To, czego szukamy, to zweryfikowanie, czy odchylenia standardowe oszacowań parametrów nie zmieniają się znacząco po zmianie wymiaru . W związku z tym przedstawiono wyniki dla dwóch skrajnych, , a , stosując tę samą ilość danych ( ), w obu przypadkach. Warto zauważyć, że liczba parametrów oszacowana, gdy , równa , znacznie przewyższa liczbę wektorów ( ) i przekracza nawet poszczególne liczby ( ) w całym zbiorze danych. $d$ $d=2$ $d=60$ $30$ $d=60$ $1890$ $30$ $30*60=1800$

Zacznijmy od dwóch wymiarów, . Istnieje pięć parametrów: dwie wariancje (przy odchyleniach standardowych i w tej symulacji), kowariancja (SD = ) i dwa średnie (SD = i ). Przy różnych symulacjach (możliwych do uzyskania przez zmianę wartości początkowej losowego materiału siewnego) będą one się nieco różnić, ale będą miały konsekwentnie porównywalny rozmiar, gdy wielkość próbki wynosi . Na przykład w następnej symulacji SD wynoszą , , , i $d=2$ $0.097$ $0.182$ $0.126$ $0.11$ $0.15$ $n=30$ $0.014$ $0.263$ $0.043$ $0.04$ $0.18$ odpowiednio: wszystkie się zmieniły, ale mają porównywalne rzędy wielkości.

(Te twierdzenia można poprzeć teoretycznie, ale chodzi tutaj o przedstawienie czysto empirycznej demonstracji).

Teraz przechodzimy do , utrzymując wielkość próbki na poziomie . W szczególności oznacza to, że każda próbka składa się z wektorów, z których każdy ma składników. Zamiast wymienić wszystkie odchylenia standardowe z , Spójrzmy na ich zdjęcia za pomocą histogramów, aby zobrazować ich zakresy. $d=60$ $n=30$ $30$ $60$ $1890$

Postać

Wykresy rozrzutu w górnym rzędzie porównują rzeczywiste parametry sigma( ) i ( ) ze średnimi oszacowaniami dokonanymi podczas iteracji w tej symulacji. Szare linie odniesienia oznaczają miejsce doskonałej równości: wyraźnie szacunki działają zgodnie z przeznaczeniem i są bezstronne. $\sigma$ mu $\mu$ $10^4$

Histogramy pojawiają się w dolnym rzędzie, osobno dla wszystkich wpisów w macierzy kowariancji (po lewej) i dla średnich (po prawej). Wartości SD poszczególnych wariancji mieszczą się w przedziale od do podczas gdy wartości SD kowariancji między oddzielnymi składnikami zwykle mieszczą się w zakresie od do : dokładnie w zakresie osiągniętym, gdy . Podobnie, SD średnich oszacowań zwykle mieszczą się w zakresie od do , co jest porównywalne z tym, co zaobserwowano, gdy . Z pewnością nic nie wskazuje na to, że SD wzrosły jako $0.08$ $0.12$ $0.04$ $0.08$ $d=2$ $0.08$ $0.13$ $d=2$ $d$ wzrosła z do . $2$ $60$

Kod następuje.

#
# Create iid multivariate data and do it `n.iter` times.
#
sim <- function(n.data, mu, sigma, n.iter=1) {
  #
  # Returns arrays of parmeter estimates (distinguished by the last index).
  #
  library(MASS) #mvrnorm()
  x <- mvrnorm(n.iter * n.data, mu, sigma)
  s <- array(sapply(1:n.iter, function(i) cov(x[(n.data*(i-1)+1):(n.data*i),])), 
        dim=c(n.dim, n.dim, n.iter))
  m <-array(sapply(1:n.iter, function(i) colMeans(x[(n.data*(i-1)+1):(n.data*i),])), 
            dim=c(n.dim, n.iter))
  return(list(m=m, s=s))
}
#
# Control the study.
#
set.seed(17)
n.dim <- 60
n.data <- 30    # Amount of data per iteration
n.iter <- 10^4  # Number of iterations
#n.parms <- choose(n.dim+2, 2) - 1
#
# Create a random mean vector.
#
mu <- rnorm(n.dim)
#
# Create a random covariance matrix.
#
#eigenvalues <- rgamma(n.dim, 1)
eigenvalues <- exp(-seq(from=0, to=3, length.out=n.dim)) # For comparability
u <- svd(matrix(rnorm(n.dim^2), n.dim))$u
sigma <- u %*% diag(eigenvalues) %*% t(u)
#
# Perform the simulation.
# (Timing is about 5 seconds for n.dim=60, n.data=30, and n.iter=10000.)
#
system.time(sim.data <- sim(n.data, mu, sigma, n.iter))
#
# Optional: plot the simulation results.
#
if (n.dim <= 6) {
  par(mfcol=c(n.dim, n.dim+1))
  tmp <- apply(sim.data$s, 1:2, hist)
  tmp <- apply(sim.data$m, 1, hist)
}
#
# Compare the mean simulation results to the parameters.
#
par(mfrow=c(2,2))
plot(sigma, apply(sim.data$s, 1:2, mean), main="Average covariances")
abline(c(0,1), col="Gray")
plot(mu, apply(sim.data$m, 1, mean), main="Average means")
abline(c(0,1), col="Gray")
#
# Quantify the variability.
#
i <- lower.tri(matrix(1, n.dim, n.dim), diag=TRUE)
hist(sd.cov <- apply(sim.data$s, 1:2, sd)[i], main="SD covariances")
hist(sd.mean <- apply(sim.data$m, 1, sd), main="SD means")
#
# Display the simulation standard deviations for inspection.
#
sd.cov
sd.mean

— Whuber
źródło

Niektóre krótkie wartości liczbowe dają następujące rozkłady błędów dla dopasowania 30 próbek utworzonych ze standardowego rozkładu normalnego, a następnie dopasowania do jednowymiarowego Gaussa.

wprowadź opis zdjęcia tutaj

Kwartyle są wskazane. Zakłada się, że ten poziom zmienności jest pożądany w przypadku wielowymiarowym.

Nie mam czasu, aby pobić MatLab, aby uzyskać całkowity wynik, dlatego podzielę się moją „ogólną zasadą”. 30 jest podana jako zasada praktyczna lub heurystyczna, więc zakłada się, że heurystyka nie jest niedopuszczalna.

Moją heurystyką jest użycie trójkąta Pascala pomnożonego przez przypadek jednowymiarowy. wprowadź opis zdjęcia tutaj

Jeśli używam danych 2d, przechodzę do drugiego wiersza i sumuję, aby uzyskać 2x liczbę próbek lub 60 próbek. W przypadku danych 3d przechodzę do trzeciego wiersza i sumuję, aby uzyskać 4x liczbę próbek lub 120 próbek. W przypadku danych 5d przechodzę do 5. rzędu i sumuję, aby uzyskać 16-krotną liczbę próbek lub 480 próbek.

Powodzenia.

EDYTOWAĆ:

To było intuicyjne, ale wszystko trzeba bronić z matematyki. Nie mogę po prostu skoczyć z formułowania form wielomianowych z elementów skończonych z doświadczeniem, aby uzyskać boisko.

$k^{th}$ $2^k$

Moim pomysłem na podejście tutaj jest zrównanie AIC rozkładu wyższego wymiaru z większą liczbą próbek z rozkładem zredukowanego wymiaru z mniejszą liczbą próbek.

$AIC = n \log( \frac {RSS}{n}) + 2*k$ $RSS$ $n$ $k$

$AIC_1 = AIC_2$

$n_1 \log(\frac {RSS_1}{n_1}) +2k_1 = n_2 \log(\frac {RSS_2}{n_2}) +2k_2$

Dla każdego wymiaru, który eliminujemy, oznacza to, że średnia traci rząd, a kowariancja traci zarówno rząd, jak i kolumnę. Możemy to określić jako

$k \left( d\right)= d^2+d$

$k \left( d+1 \right) - k \left( d\right) = 2 d + 2$

Zakładając, że błąd na punkt próbki jest stały, wiąże resztkową sumę kwadratów z liczbą próbek, a wartość w logarytmie pozostaje stała. Różnica w liczbie próbek staje się stałą skalowania.

więc mamy:

$n_1 A +2(k_2+2d+2) = n_2 A +2k_2$

rozwiązanie problemu zwiększenia próbek o wymiar daje:

$n_2- n_1 = (2(k_2+2d+2) - 2k_2) A^{-1} = (4 d+4 ) \cdot A^{-1}$

$A^{-1} = 5$

wprowadź opis zdjęcia tutaj

W tym miejscu powiedziałbym, że heurystyka zaczyna się trochę na niskim poziomie, ale kończy się około dwukrotnością wymaganej liczby próbek. Moim zdaniem jego najlepsza użyteczność wynosi około 4 wymiarów.

EDYTOWAĆ:

Przeczytałem więc odpowiedź @whuber i podoba mi się. Jest empiryczny, w tym przypadku autorytatywny. Głosowałem za jego odpowiedzią.

W dalszej części próbuję dyskutować i mam nadzieję, że będę w stanie użyć więcej niż ~ 300 znaków i mam nadzieję, że będę mógł osadzać zdjęcia. Dlatego dyskutuję w granicach odpowiedzi. Mam nadzieję, że to w porządku.

Nie jestem w tym momencie przekonany, że użycie AIC w tym celu lub to, jak użyto wielkości próbki i rozmiarów parametrów, było nieprawidłowe.

Następne kroki:

powtórz wyniki @ whubera, potwierdź je empirycznie
Przetestuj AIC, przynajmniej w pewnym sensie całościowym, aby potwierdzić, czy jest to właściwe
Jeśli AIC jest odpowiedni, spróbuj użyć metod empirycznych, aby prześledzić błędy w rozumowaniu.

Komentarze i sugestie mile widziane.

— EngrStudent
źródło

Czy mógłbyś podać jakieś uzasadnienie swojej heurystyki?

— whuber

I czy możesz potwierdzić, że suma piątego rzędu wynosi w rzeczywistości 16?

— omatai

\neq

$\ne$

2^{d + 1} - 2

$2^{d+1}-2$

d = 9

$d=9$

54

$54$

9

$9$

9

$9$

36

$36$

@ Whuber, stwierdzam, że uczę się więcej na podstawie moich błędów (po tym, jak się o nich dowiem) niż na podstawie mojej poprawności. Zaskakujące jest to, że racja jest dokładnie taka, jak racja, dopóki nie dowiem się, że się mylę. Dziękuję Ci. ted.com/talks/kathryn_schulz_on_being_wrong.html

— EngrStudent