Alternatywa rozkładu empirycznego


13

HOJNOŚĆ:

Pełne nagroda zostanie przyznana osobie, która stanowi odniesienie do wszelkich opublikowanych papieru, który używa lub wymienia prognozy F~ poniżej.

Motywacja:

Ta sekcja prawdopodobnie nie jest dla ciebie ważna i podejrzewam, że nie pomoże ci zdobyć nagrody, ale ponieważ ktoś zapytał o motywację, oto nad czym pracuję.

Pracuję nad problemem teorii grafów statystycznych. Standardowy obiekt ograniczający wykres gęsty W:[0,1]2[0,1] jest funkcją symetryczną w tym sensie, że W(u,v)=W(v,u) . Próbkowanie wykresu na n wierzchołkach można traktować jako próbkowanie n jednolitych wartości w jednostkowym przedziale ( Ui dla i=1,,n), a następnie prawdopodobieństwo krawędzi (i,j) wynosi W(Ui,Uj) . Niech otrzymaną macierz sąsiedztwa nazwać .A

Wf=W/WW>0fAfffAW

Niestety metoda, którą znalazłem, wykazuje spójność, gdy próbkujemy z rozkładu o gęstości . Sposób, w jaki jest wymaga próbkowania siatki punktów (w przeciwieństwie do pobierania losowań z oryginalnego ). W tym pytaniu stats.SE pytam o jednowymiarowy (prostszy) problem tego, co się dzieje, gdy możemy tylko próbkować Bernoullisa tylko na takiej siatce, a nie próbować bezpośrednio z rozkładu.fAf

odniesienia do granic wykresów:

L. Lovasz i B. Szegedy. Granice gęstych sekwencji grafów ( arxiv ).

C. Borgs, J. Chayes, L. Lovasz, V. Sos i K. Vesztergombi. Zbieżne sekwencje gęstych wykresów i: Częstotliwości podgraphów, właściwości metryczne i testowanie. ( arxiv ).

Notacja:

Rozważ ciągły rozkład z cdf i pdf który ma dodatnie wsparcie dla przedziału . Załóżmy, że nie ma masy punktowej, jest wszędzie różna, a także, że jest supremum w przedziale . Niech oznacza, że zmienna losowa jest próbą z rozkładu . to iid jednolite zmienne losowe na .Ff[0,1]fFsupz[0,1]f(z)=c<f[0,1]XFXFUi[0,1]

Konfiguracja problemu:

Często możemy pozwolić być zmiennymi losowymi o rozkładzie i pracować ze zwykłą empiryczną funkcją rozkładu jako gdzie jest funkcją wskaźnika. Zauważ, że ten rozkład empiryczny jest sam w sobie losowy (gdzie jest ustalone).X1,,XnF

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

Niestety, nie jestem w stanie wyciągnąć próbek bezpośrednio z . Wiem jednak, że ma wsparcie dodatnie tylko na i mogę generować zmienne losowe gdzie jest zmienną losową o rozkładzie Bernoulliego z prawdopodobieństwem sukcesu gdzie i są zdefiniowane powyżej. Tak więc . Jednym oczywistym sposobem, w jaki mógłbym oszacować podstawie tych wartości , jest przyjęcie gdzieFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cUiYiBern(pi)FYi
F~n(t)=1i=1nYii=1tnYi
jest funkcją pułapu (to znaczy, po prostu zaokrąglij w górę do najbliższej liczby całkowitej) i przerysuj, jeśli (aby uniknąć dzielenia przez zero i powodowania upadku wszechświata) . Zauważ, że jest również zmienną losową, ponieważ są zmiennymi losowymi.i=1nYi=0F~(t)Yi

Pytania:

Od (co moim zdaniem powinno być) najłatwiejszego do najtrudniejszego.

  1. Czy ktoś wie, czy ten (lub coś podobnego) ma nazwę? Czy możesz podać odniesienie, w którym mogę zobaczyć niektóre z jego właściwości?F~n

  2. Jako , czy jest spójnym estymatorem (i czy możesz to udowodnić)?nF~n(t)F(t)

  3. Jaki jest limit dystrybucji jako ?F~n(t)n

  4. Idealnie chciałbym ograniczyć następujące w funkcji - np. , ale nie wiem, jaka jest prawda. oznacza Big O prawdopodobieństwanOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Kilka pomysłów i notatek:

  1. Wygląda to bardzo podobnie do próbkowania z odrzuceniem akceptacji i stratyfikacji opartej na siatce. Należy pamiętać, że tak nie jest, ponieważ nie odrzucamy kolejnej próby, jeśli odrzucimy propozycję.

  2. Jestem prawie pewien, że ten jest stronniczy. Myślę, że alternatywa jest obiektywna, ale ma nieprzyjemną właściwość .F~n

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. Interesuje mnie użycie jako estymatora wtyczek . Nie sądzę, aby była to przydatna informacja, ale może znasz jakiś powód, dla którego może być.F~n

Przykład w R.

Oto trochę kodu R, jeśli chcesz porównać rozkład empiryczny z . Przepraszam, że niektóre wcięcia są nieprawidłowe ... Nie wiem, jak to naprawić.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

wyjście z powyższych danych

EDYCJE:

EDYCJA 1 -

Zredagowałem to, aby odpowiedzieć na komentarze @ whuber.

EDYCJA 2 -

Dodałem kod R i trochę go wyczyściłem. Zmieniłem nieznacznie notację dla czytelności, ale zasadniczo jest taka sama. Planuję wystawić nagrodę za to, gdy tylko będę mógł, więc daj mi znać, jeśli chcesz uzyskać dodatkowe wyjaśnienia.

EDYCJA 3 -

Myślę, że odniosłem się do uwag kardynała. Poprawiłem literówki w całkowitej odmianie. Dodam nagrodę.

EDYCJA 4 -

Dodano sekcję „motywacja” dla @cardinal.


1
Twoje pytanie zaczęło być dwuznaczne w momencie, gdy odwoływałeś się do niezdefiniowanych obiektów i używałeś jakiegoś osobliwego zapisu. Na przykład pojawia się wcześnie, ale nie ma widocznego związku z i dopiero dzięki dalszemu czytaniu dowiadujemy się, że myślisz o nim jako o „nie dyskretnym rozkładzie” - ale co to za obiekt? Co najważniejsze, co oznacza „ ?” "zwykle oznacza supremum, ale może ma to coś wspólnego z niezbędnym wsparciem dla dystrybucji? Ponieważ wszystko w pytaniu zależy od tego, co to znaczy, nie mam sensu pytaniafFsupzf(z)sup
whuber

1
Dzięki @whuber za komentarze. Daj mi znać, jeśli poprawione pytanie jest nadal mylące.
user1448319

1
Aha! To pierwsze wskazanie, jakie widziałem, że nie jest ustalone i że jesteś zainteresowany asymptotykami. Jeśli to prawda, masz swobodę wyboru , czy nie otwiera to wielu możliwości, takich jak adaptacyjne wybieranie punktów próbnych (zamiast ograniczania do stałej siatki )? Jest również oczywiste, że przyjmujesz niepotwierdzone założenia, że jest ciągłe (równoważnie, jest absolutnie ciągłe ). Co jeszcze możesz założyć o rozkładzie który może pomóc w tej analizie? nn{i/n}fFF
whuber

2
Kilka innych pytań / uwag: Wydaje się, że domyślnie na podstawie tego, jak zamierzasz skonstruować , naprawdę bierzesz pod uwagę tablicę trójkątną , do celów analizy konwergencji. Ze sposobu, w jaki konstruujesz , wydaje się, że powinieneś być w stanie (równie łatwo) próbkować losowe zmienne Bernoulliego z warunkowym prawdopodobieństwem powodzenia gdzie jest jednolitą zmienną losową. Czy to prawda? (Trochę więcej kontekstu do twojego pytania prawdopodobnie rozwiązałoby wiele z tych pytań.) Pozdrawiam. piYi,ni=1,,npif(U)/cU
kardynał

2
To pytanie zostało tak bardzo poprawione, że nawet go nie rozpoznałem, dopóki nie zdałem sobie sprawy, że widziałem wcześniej komentarze. To jest teraz naprawdę interesujące i znacznie lepiej napisane pytanie.
Glen_b

Odpowiedzi:


1

Chociaż to odniesienie

EDYCJA: DODATKOWE ODNIESIENIE DO BARDZO PODOBNYCH STATYSTYK „Nieparametryczne oszacowanie z niekompletnych obserwacji” EL Kaplan i Paul Meier, Journal of American Statistics Association, t. 53, nr 282 (Jun., 1958), str. 457-481

nie jest zgodny z estymatorem podobnym do ECDF w Uważam, że jest logicznie równoważny z estymatorem Kaplana-Meiera (czyli estymatorem limitu produktu) stosowanym w analizie przeżycia, nawet jeśli ma to zastosowanie do przedziału czasu .[0,1][0,)

Oszacowanie stronniczości byłoby możliwe, gdy masz rozsądne oszacowanie dystrybucji za pomocą wygładzania jądra, jeśli jest ono odpowiednio zachowane (patrz np. Transformacja Khmaladze na Wikipedii).

W przypadku dwuwymiarowym na wykresie problem oszacowania z choć z trywialnym ograniczeniem symetrii, wydaje się podobny do podejścia Jean-Davida Fermaniana, Dragana Radulovica i Martena Wegkampa (2004): Słaba zbieżność kopuły empirycznej Procesy , Bernoulli , vol. 10, nr 5, 847–860, jak wskazuje kardynał @ „Metoda wielowymiarowej delty”.f=W/WA


0

To odpowiada na pytania 2 i 3 powyżej. Nadal jednak chcę referencji (od pytania 1).

Nie bierze to jeszcze pod uwagę, gdy .Yi=0

Rozważ , a następnie gdzie indeksy dolne oznaczają pochodne. Przypomnijmy . Niech Więc zwróć uwagę, że i . Również, g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
Zauważ, że przez niezależność . Cov(R,S)=0Yi

Teraz używamy rozszerzenia Taylor, aby uzyskać

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
gdzie W szczególności otrzymujemy
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

Skomentuj, jeśli zauważysz coś nie tak.

EDYCJE:

Edycja 1 -

Naprawiono literówkę w . Dzięki @cardinal za sugestię w komentarzach do pytania 4.VF(t)

Edycja 2 -

Naprawiono wiele literówek: miałem gdzie powinienem mieć w wielu miejscach. Nadal muszę odpowiedzieć na odpowiedź @ kardynała na temat .c1cYi=0


1
Drogi użytkowniku: To jest na dobrej drodze; Oto pewne sugestie. ( 1 ) Średnia z nie istnieje, przynajmniej dopóki nie określisz, co się stanie, gdy , więc ściśle mówiąc, analiza w odpowiedzi jest nieprawidłowa. Zdefiniowanie zachowania na poziomie zerowym zniszczy strukturę niezależności, ale nie wszystko stracone. ( 2 ) Zasadniczo to, co robisz, to stosowanie metody delta wielowymiarowej. Zauważ, że nie wymaga to istnienia średniej z , więc będzie czystsza (i bardziej poprawna), jeśli pójdziesz tą drogą. F~n(t)iYi=0F~n(t)
kardynał

2
( 3 ) Pozycja 4 na liście jest obsługiwana w następujący sposób. Zauważ, żePierwszy termin po prawej stronie, , to, więc wyraźnie jest . tylko poradzić sobie ze średnim terminem, ale łatwo ulega to nierówności Markowa, po której następuje Jensen i jest również .
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
kardynał

Drogi użytkowniku: Przydałaby się dodatkowa uwaga na temat twojej uwagi dotyczącej rozpatrywania sprawy . To, co opisujesz, to próbkowanie warunkowe. Warunki dla nie są niezależne (lub warunkowo niezależne), więc (domyślna) analiza w odpowiedzi nie zachodzi. Pomocne może być spojrzenie na przypadek aby to zobaczyć (po prostu narysuj tabelę ). iYi=0Yi{iYi>0}n=22×2
kardynał

Na marginesie warto zauważyć, że, więc tę definicję można uprościć. supCC|F~F|=01|F~F|
kardynał
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.