Dlaczego ecdf używa funkcji krokowej, a nie interpolacji liniowej?


13

Empiryczne funkcje CDF są zwykle szacowane przez funkcję krokową. Czy istnieje powód, dla którego odbywa się to w taki sposób, a nie przy użyciu interpolacji liniowej? Czy funkcja kroku ma jakieś interesujące właściwości teoretyczne, które sprawiają, że ją preferujemy?

Oto przykład dwóch:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

wprowadź opis zdjęcia tutaj


Powiązane ...................................

8
„… oszacowane przez funkcję krokową” zaprzecza subtelnemu błędnemu przekonaniu: ECDF nie jest jedynie szacowany przez funkcję krokową; to jest taka funkcja definicji. Jest identyczny z CDF zmiennej losowej. W szczególności, biorąc pod uwagę dowolną skończoną sekwencję liczb , zdefiniuj przestrzeń prawdopodobieństwa pomocą , dyskretny i jednolity. Niech będzie zmienną losową przypisującą do . ECDF jest CDF . ( Ω , S , P ) Ω = { 1 , 2 , , n } S P X x i i Xx1,x2,,xn(Ω,S,P)Ω={1,2,,n}SPXxiiXTo ogromne uproszczenie pojęciowe jest przekonującym argumentem za definicją.
whuber

Odpowiedzi:


22

To z definicji.

Funkcja rozkładu empirycznego zestawu obserwacji jest określona przez(Xn)

Fe(t)=#{XnXnt}n

Gdzie to ustawiona liczność. Jest to z natury funkcja krokowa. Jest prawie na pewno zbieżny z rzeczywistym CDF .#

Zauważ też, że dla każdego rozkładu z dla co najmniej dwóch (szczególnie niedegenerowane rozkłady dyskretne), twój wariant ECDF nie jest zbieżny z rzeczywistym CDF. Rozważmy na przykład dystrybucję Bernoulli z CDFxP(X=x)0x

FX(x)=pχx0+(1p)χx1
jest to funkcja krokowa, podczas gdy ecdf2 zbiegnie się do (częściowa funkcja liniowa łącząca i .( 0 , p ) ( 1 , 1 )χx0(p+(1p)min(x,1))(0,p)(1,1)

Dzięki Alex. Czy istnieje inna nazwa dla funkcji, którą napisałem? (ponieważ sądzę, że zbiega się on również z faktycznym CDF)
Tal Galili

5
@TalGalili Nie. Rozważ rozkład Bernoulliego. Twój ecdf2 nie zbiegnie się w tym przypadku. Można to nazwać wygładzonym ecdf. Podejrzewam, że zbiegnie się z faktycznym CDF, jeśli faktyczny CDF nie ma punktów z niezerowym prawdopodobieństwem, z wyjątkiem ekstremalnych punktów (gdzie nie wygładzasz)
AlexR

@AlexR możesz edytować swoją odpowiedź, aby dodać ten komentarz, ponieważ dyskretne rozkłady są przyczyną tak określonych - więc odpowiada na pytanie „dlaczego”.
Tim

1
@Tim Gotowe.
AlexR

Dzięki. Czy istnieje sposób zdefiniowania ciągłej funkcji empirycznej, która byłaby zbieżna z funkcją krokową, ale byłaby w pełni monotoniczna (tj. Bez żadnych ostrych „skoków”)?
Tal Galili,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.