Kiedy nie mogę zastąpić zmiennej losowej jej średnią?

Częstym uproszczeniem w modelowaniu i symulacji jest zastąpienie zmiennej losowej jej wartością średnią.

Kiedy to uproszczenie doprowadziłoby do błędnego wniosku?

modeling mean random-variable

— Ankit Goyal
źródło

Czy „Var” oznacza zmienną lub wariancję lub wartość zagrożoną ?

— Henry

Byłoby fajnie założyć usługę, która płaci za subskrypcję Netflix swoich członków. Opłacilibyśmy tylko

, gdzie

jest losowo wybierany w dziedzinie

, więc wie, ya, wolne i straty! Później będziemy oferować niektórzy klienci opcję zamiast wynagrodzenia

| x | \frac{U S D}{m o n t h}

$\left|x\right|~\frac{\mathrm{USD}}{\mathrm{month}}$

x

$x$

[- 100, 100]

$\left[-100,100\right]$

x^{2} \frac{U S D}{m o n t h}

$x^2~\frac{\mathrm{USD}}{\mathrm{month}}$

— Nat

W bardzo prostym przypadku, jeśli dojdziemy do skrajności, możemy stracić prawie wszystkie informacje, na których nam zależy. Rozważ regresję Y na X, gdzie zastąpiliśmy zarówno Y, jak i X ich średnią. Wszelkie informacje o zboczu zostały utracone.

— Dason

Czy pytasz o zastąpienie brakujących wartości, czy pytasz o zastąpienie losowej zmiennej w określonym kontekście (np. Oparcie prognoz na modelu losowego efektu)?

— IWS

Odpowiedzi:

Jeśli zastąpisz brakującą wartość jakimś oszacowaniem punktowym, zignorujesz całą jej zmienność. W ten sposób nie będziesz propagować całej oryginalnej zmienności do swojego modelu. Twoje oszacowania parametrów wydają się mieć zbyt niski błąd standardowy . Jeśli wnioskujesz, twoje wartości p będą tendencyjnie niskie. Twoje przedziały ufności będą zbyt wąskie. Jeśli wykonasz prognozę, Twoje przedziały prognozy s będą zbyt wąskie.

Ogólnie: będziesz zbyt pewny swoich wniosków.

— Stephan Kolassa
źródło

Dobra odpowiedź! Pomyśl o tym: zmienna losowa ma rozkład. Można go obrócić w lewo, w prawo. Mogę być bimodalny itp. Zmniejszając zmienną do wartości średniej, usuwasz wszystkie te dodatkowe informacje (niepewność) i zastępujesz rozkład (przedziały) szacunkiem pojedynczego punktu.

— elevendollar

Jeśli zastąpisz brakującą wartość jakimś oszacowaniem punktowym, zakładasz również, że brakuje danych losowo. Średnia wartość zmiennej losowej może nie być równa średniej wartości danych, gdy jej brakuje.

— Neil G,

@NeilG przykro mi, że nitpick, ale zastąpienie brakującej wartości jej średnią nie oznacza bezpośrednio zakładania przypadkowego braku danych. Zwłaszcza, że - nieco myląca - terminologia dotycząca brakujących danych uważa, że „brakujące losowo” to dane, które losowo brakuje, zależne od innych, ale znanych danych ( en.wikipedia.org/wiki/Missing_data ). IMO sposób, w jaki dane są zastępowane, nie sugeruje nic o uzasadnieniu. To uzasadnienie powinno być jasno określone i prowadzić do właściwego sposobu postępowania z brakującymi danymi. To powiedziawszy, w pełni zgadzam się z odpowiedzią Stephana.

— IWS

@IWS W porządku, aby wskaźniki braków były uzależnione od obserwowanych danych. Brakujące losowo oznacza, że wskaźniki braków zależą od nieobserwowanych danych. Jeśli zamienisz zmienną na jej wartość średnią, pod warunkiem jej przestrzegania, może to nie być to samo, co jej bezwarunkowa wartość średnia - chyba że dane losowo zostaną pominięte.

— Neil G

@NeilG Czy nie masz na myśli „zagubienia całkowicie przypadkowo”, kiedy piszesz „zagubiony losowo” w ostatnim zdaniu ostatniego komentarza? Jeśli tak, to zgadzamy się, ale po prostu gadałem o terminologii. (patrz strona wiki, którą zamieściłem w moim komentarzu powyżej, zawsze uczono mnie, czytałem i stosowałem tę terminologię)

— IWS

Oprócz punktów Stephana:

W prawie każdej aplikacji, w której interesują Cię nieliniowe funkcje zmiennej losowej, podstawienie średniej spowoduje ogólnie błąd systematyczny i być może sprzeczne wyniki. Średnia prędkość i średnia masa cząstki na ogół nie będą zgodne ze średnią energią kinetyczną, ponieważ energia jest skalowana z V ^ 2.
Średnia wartość może nawet nie być możliwym wynikiem dla zmiennej losowej. Jeśli moje możliwe wyniki to 0 „umiera pacjent” i 1 „pacjent żyje”, prawdopodobnie nie jest pomocne posiadanie modelu opisującego pacjenta jako 0,1 „głównie martwego, ale nieco żywego”.

— Geoffrey Brent
źródło

Obowiązkowe: youtube.com/watch?v=xbE8E1ez97M

— Alexis

@Alexis, ale oczywiście!

— Geoffrey Brent,

Przykład z życia (związany z dwiema otrzymanymi odpowiedziami) na rynkach finansowych. Cena opcji opiera się na prawdopodobieństwie, że cena składnika aktywów przekroczy (lub poniżej) dany poziom.

Na przykład cena opcji zakupu składnika aktywów po cenie 100, gdy oczekiwana wartość składnika aktywów wynosi 80. Jeśli podstawisz zmienną losową (cenę składnika aktywów), otrzymasz cenę zero (jako nigdy nie miałbyś wartości 100, która kosztuje 80). Gdy weźmiesz pod uwagę stochastyczność zasobu (i jest to właściwy sposób na zrobienie tego), otrzymasz cenę dodatnią, ponieważ istnieje pewne prawdopodobieństwo, że cena aktywów przekroczy 100.

— Juan Ignacio Gil
źródło