Co znaczy Theta?

16

Jestem nowicjuszem w statystykach i znalazłem to .

W statystykach θ, mała grecka litera „theta”, jest zwykłą nazwą parametru (wektora) o pewnym ogólnym rozkładzie prawdopodobieństwa. Częstym problemem jest znalezienie wartości theta. Zauważ, że nazwanie parametru w ten sposób nie ma żadnego znaczenia. Równie dobrze moglibyśmy nazwać to czymkolwiek innym. W rzeczywistości wiele dystrybucji ma parametry, które zwykle mają inne nazwy. Na przykład powszechnie stosuje się odpowiednio nazwę średniej i odchylenia rozkładu normalnego μ (czytaj: „mu”) i odchylenia σ („sigma”).

Ale nadal nie wiem, co to oznacza zwykłym angielskim?

terminology

— Kamilski81
źródło

10

θ

$\theta$ jest tylko matematycznym symbolem i oznacza różne rzeczy w różnych kontekstach. Czasami

θ

$\theta$ jest używany w odniesieniu do parametru, który ma być oszacowany, ale nie ma realnej odpowiedzi na pytanie „Co to jest

θ

$\theta$ ?”. To tak, jakby zapytać „Co to jest litera A?”. Twój link nawet wskazuje na to, gdy mówi:„Zauważ, że nazywanie parametru w ten sposób nie ma żadnego znaczenia. Równie dobrze moglibyśmy nazwać go jakikolwiek inny”. .

— Makro

Jest to tylko sposób na nazwanie parametru statystycznego (który określa rozkład ilości związanej z tym „parametrem”) za pomocą litery specjalnej (innej niż litery angielskie).

— Stat-R

4

Większość z nas uznałaby ten cytat za wyjątkowo prosty angielski, ale aby poczynić postępy, musimy zaakceptować fakt, że pytanie nie dotyczy tego, jak czytać po angielsku. O co więc może być? Twierdzę, że prosi nas o wyjaśnienie terminów technicznych w cytacie: tych, z którymi jesteśmy tak zaznajomieni, że nie widzimy już, jak dziwne mogą być dla niewtajemniczonych statystycznie. To wzywa nas do zajęcia się znaczeniem rozkładu i parametrów (rozkładu, który nie jest dopasowaną krzywą lub innym modelem deterministycznym).

— whuber

31

To nie jest konwencja, ale dość często oznacza zbiór parametrów rozkładu. $\theta$

Tak było w przypadku zwykłego angielskiego, zamiast tego pokażmy przykłady.

Przykład 1. Chcesz przestudiować rzut staroświeckich pinezek (tych z dużym okrągłym dnem). Zakładasz, że prawdopodobieństwo, że spadnie, jest nieznaną wartością, którą nazywasz . Możesz nazwać zmienną losową i powiedzieć, że gdy pinezka spada, a gdy spada. Napisziłbyś model $\theta$ $X$ $X=1$ $X=0$

P (X = 1) = θ P (X = 0) = 1 - θ,

$P(X = 1) = \theta \\ P(X = 0) = 1-\theta,$

i byłbyś zainteresowany oszacowaniem (tutaj prawdopodobieństwo, że pinezka spada, spada). $\theta$

Przykład 2. Chcesz zbadać rozpad atomu radioaktywnego. W oparciu o literaturę wiesz, że radioaktywność maleje wykładniczo, więc decydujesz się modelować czas do rozpadu z rozkładem wykładniczym. Jeśli jest czasem rozpadu, model jest $t$

f (t) = θ e^{- θ t} .

$f(t) = \theta e^{-\theta t}.$

Tutaj oznacza gęstość prawdopodobieństwa, co oznacza, że prawdopodobieństwo, że rozpada atomów w odstępie czasu jest . Znowu będziesz zainteresowany oszacowaniem (tutaj wskaźnik rozpadu). $f(t)$ $(t, t+dt)$ $f(t)dt$ $\theta$

Przykład 3. Chcesz zbadać dokładność wagi. W oparciu o literaturę wiesz, że pomiar jest Gaussowski, więc decydujesz się na modelowanie ważenia standardowego obiektu o masie 1 kg jako

f (x) = \frac{1}{σ \sqrt{2 π}} \exp {- {(\frac{x - μ}{2 σ})}^{2}} .

$f(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left\{ -\left( \frac{x-\mu}{2\sigma} \right)^2\right\}.$

Tutaj jest miarą podaną przez skalę, jest gęstością prawdopodobieństwa, a parametrami są i , więc . Parametr jest wagą docelową (skala jest odchylona, jeśli ), a jest standardowym odchyleniem miary przy każdym ważeniu obiektu. Znowu będziesz zainteresowany oszacowaniem (tutaj odchylenie i niedokładność skali). $x$ $f(x)$ $\mu$ $\sigma$ $\theta = (\mu, \sigma)$ $\mu$ $\mu \neq 1$ $\sigma$ $\theta$

— gui11aume
źródło

1

+1 FWIW, ostatnio opublikowałem działający przykład w tym samym stylu na stats.stackexchange.com/a/34894 . Chociaż interpretowanie go jako „zwykłego angielskiego” byłoby mylące - nie boi się używać terminów technicznych - starałem się wyjaśnić tak jasno i krótko, jak to możliwe, co się dzieje, jakie są założenia i jak to zrobić. współpracuje ze sparametryzowaną rodziną rozkładów, aby uzyskać oszacowanie na podstawie danych. Dla niektórych może to być pomocny dodatek do twojej odpowiedzi tutaj.

— whuber

1

Świetna odpowiedź! Jestem jednak zdezorientowany, gdy stwierdzasz, że skala jest stronnicza, jeśli mu! = 1. W rzeczywistości po „normalizacji” standardowy rozkład normalny staje się x ~ N (0, 1). Lub, w języku angielskim, mu = 0 i wariancja = 1. Patrz np. En.wikipedia.org/wiki/…

— Mike Williamson

Mam na myśli to, że przyrząd ma odchylenie, jeśli wskazuje coś innego niż 1 kg, gdy mierzy obiekt o masie 1 kg. Być może słowo „skala” jest mylące. Tutaj oznacza tylko instrument.

— gui11aume

3

Co odnosi się do tego, co zależy od modelu pracy z. Na przykład w zwykłej regresji metodą najmniejszych kwadratów modelujesz zmienną zależną (zwykle nazywaną Y) jako liniową kombinację jednej lub więcej zmiennych niezależnych (zwykle nazywanych X), uzyskując coś w rodzaju $\theta$

$Y_i = b_0 + b_1x_1 + b_2x_2 + ... + b_px_p$

gdzie p jest liczbą zmiennych niezależnych. Parametry, których wartości są tu oraz jest nazwą dla wszystkich . Ale jest bardziej ogólne, może dotyczyć dowolnych parametrów, które chcemy oszacować. $\beta s$ $\theta$ $\beta s$ $\theta$

— Peter Flom - Przywróć Monikę
źródło

3

Peter, chociaż nie powiedziałeś tego dokładnie, obawiam się, że ta odpowiedź może sprawić nowicjuszowi błędne wrażenie, że symbol

zawsze będzie odnosił się do wektora parametru i, odwrotnie, że jest to jedyny sposób na odniesienie się do parametru wartość. Jak wskazuje mój komentarz powyżej, myślę, że odpowiedź jest niczym innym jak „

θ

$\theta$

jest matematycznym symbolem”, co sprawia, że tak naprawdę nie jest to pytanie statystyczne.

θ

$\theta$

— Makro,

1

@Macro Myślę, że w tym kontekście jasne jest, że takie jest znaczenie

że Kamilski chciał. Jasne, każdy symbol może odnosić się do wszystkiego. Ale w tym akapicie Makro oznacza ciebie, a nie kurs ekonomii, część SAS czy coś w tym rodzaju.

θ

$\theta$

— Peter Flom - Przywróć Monikę

1

ok cóż, nie sądzę, że analogia jest naprawdę trafna, ale wezmę ją za próbę hiperboli. W każdym razie naprawdę mam na myśli coś bardzo podstawowego, a mianowicie to, że nowicjusze matematyczni często mylą notację z czymś z natury znaczącym i czymś innym niż to, czym jest - po prostu etykietą. Chodzi mi o to, że ta odpowiedź (myślę nieumyślnie) nie rozwiała tego pomysłu. Jak wiesz,

może odnosić się do innych rzeczy, z którymi może się spotkać statystyk. Na przykład kąty są często oznaczone

.

θ

$\theta$

θ

$\theta$

— Makro

4

Wyjaśnienie to, chociaż jest jasne i technicznie poprawne, nie obejmuje w żaden sposób żadnych dystrybucji, a zatem wydaje się nie mieć związku z cytatem w pytaniu.

— whuber

1

W prostym angielskim:

Rozkład statystyczny to funkcja matematyczna która mówi, jakie jest prawdopodobieństwo różnych wartości zmiennej losowej o rozkładzie , tj. daje prawdopodobieństwo . Istnieją różne takie funkcje , ale na razie rozważmy jako rodzaj „ogólnej” funkcji. $f$ $X$ $f$ $f(x)$ $x$ $f$

Jednak aby był uniwersalny , to znaczy taki, który można zastosować do różnych danych (które mają podobne właściwości), potrzebuje parametrów, które zmieniają swój kształt, aby pasował do różnych danych. Prostym przykładem takiego parametru jest w rozkładzie normalnym, który informuje, gdzie jest środek (średnia) tego rozkładu, a zatem może opisywać zmienne losowe o różnych wartościach średnich. Rozkład normalny ma inny parametr a inne rozkłady mają również co najmniej jeden taki parametr. Parametry są często nazywane , gdzie dla rozkładu normalnego jest skrótem zarówno dla jak i $f$ $\mu$ $\sigma$ $\theta$ $\theta$ $\mu$ $\sigma$ (tj. jest wektorem dwóch wartości).

Dlaczego ważne? Rozkłady statystyczne służą do przybliżenia rozkładów empirycznych danych. Załóżmy, że masz zestaw danych dotyczących wieku grupy osób i mają one średnio 50 lat i chcesz przybliżać rozkład ich wieku przy użyciu rozkładu normalnego. Gdyby rozkład normalny nie pozwalał na różne wartości (np . Miałby stałą wartość tego parametru, powiedzmy ), byłoby to bezużyteczne dla tych danych. Ponieważ nie jest stały, rozkład normalny może wykorzystywać różne wartości , przy czym jest jedną z nich. Jest to prosty przykład, ale istnieją bardziej skomplikowane przypadki, w których wartości $\theta$ $\mu$ $\mu=0$ $\mu$ $\mu$ $\mu=50$ parametry nie są tak jasne, więc musisz użyć narzędzi statystycznych do oszacowania (znalezienia najbardziej odpowiednich) wartości. $\theta$ $\theta$

Można więc powiedzieć, że statystyki dotyczą znalezienia najlepszych wartości na podstawie danych $\theta$ (Bayesianie powiedzieliby: biorąc pod uwagę dane i priorytety).

— Tim
źródło