Dlaczego ecdf używa funkcji krokowej, a nie interpolacji liniowej?

Empiryczne funkcje CDF są zwykle szacowane przez funkcję krokową. Czy istnieje powód, dla którego odbywa się to w taki sposób, a nie przy użyciu interpolacji liniowej? Czy funkcja kroku ma jakieś interesujące właściwości teoretyczne, które sprawiają, że ją preferujemy?

Oto przykład dwóch:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

r distributions ecdf

— Tal Galili
źródło

Powiązane ...................................

„… oszacowane przez funkcję krokową” zaprzecza subtelnemu błędnemu przekonaniu: ECDF nie jest jedynie szacowany przez funkcję krokową; to jest taka funkcja definicji. Jest identyczny z CDF zmiennej losowej. W szczególności, biorąc pod uwagę dowolną skończoną sekwencję liczb , zdefiniuj przestrzeń prawdopodobieństwa pomocą , dyskretny i jednolity. Niech będzie zmienną losową przypisującą do . ECDF jest CDF .

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \ldots, x_n$

(Ω, S, P)

$(\Omega,\mathfrak{S},\mathbb{P})$

Ω = {1, 2, \dots, n}

$\Omega=\{1,2,\ldots, n\}$

S

$\mathfrak{S}$

P

$\mathbb{P}$

X

$X$

x_{i}

$x_i$

i

$i$ $X$ To ogromne uproszczenie pojęciowe jest przekonującym argumentem za definicją.

— whuber

To z definicji.

Funkcja rozkładu empirycznego zestawu obserwacji jest określona przez $(X_n)$

F_{e} (t) = \frac{# {X_{n} ∣ X_{n} \leq t}}{n}

$F_e(t) = \frac{\#\{X_n \mid X_n \le t\}}n$

Gdzie to ustawiona liczność. Jest to z natury funkcja krokowa. Jest prawie na pewno zbieżny z rzeczywistym CDF . $\#$

Zauważ też, że dla każdego rozkładu z dla co najmniej dwóch (szczególnie niedegenerowane rozkłady dyskretne), twój wariant ECDF nie jest zbieżny z rzeczywistym CDF. Rozważmy na przykład dystrybucję Bernoulli z CDF $P(X = x) \ne 0$ $x$

F_{X} (x) = p χ_{x \geq 0} + (1 - p) χ_{x \geq 1}

$F_X(x) = p \chi_{x \ge 0} + (1-p) \chi_{x \ge 1}$ jest to funkcja krokowa, podczas gdy ecdf2 zbiegnie się do (częściowa funkcja liniowa łącząca i .

χ_{x \geq 0} \cdot (p + (1 - p) min (x, 1))

$\chi_{x\ge 0} \cdot (p + (1-p)\min(x, 1))$

(0, p)

$(0,p)$

(1, 1)

$(1,1)$

— AlexR
źródło

Dzięki Alex. Czy istnieje inna nazwa dla funkcji, którą napisałem? (ponieważ sądzę, że zbiega się on również z faktycznym CDF)

— Tal Galili

@TalGalili Nie. Rozważ rozkład Bernoulliego. Twój ecdf2 nie zbiegnie się w tym przypadku. Można to nazwać wygładzonym ecdf. Podejrzewam, że zbiegnie się z faktycznym CDF, jeśli faktyczny CDF nie ma punktów z niezerowym prawdopodobieństwem, z wyjątkiem ekstremalnych punktów (gdzie nie wygładzasz)

— AlexR

@AlexR możesz edytować swoją odpowiedź, aby dodać ten komentarz, ponieważ dyskretne rozkłady są przyczyną tak określonych - więc odpowiada na pytanie „dlaczego”.

— Tim

@Tim Gotowe.

${}{}$

— AlexR

Dzięki. Czy istnieje sposób zdefiniowania ciągłej funkcji empirycznej, która byłaby zbieżna z funkcją krokową, ale byłaby w pełni monotoniczna (tj. Bez żadnych ostrych „skoków”)?

— Tal Galili,