Jeffrey Wooldridge w swojej ekonometrycznej analizie przekrojów i danych panelowych (strona 357) mówi, że empiryczny Hesjan „nie ma gwarancji, że będzie pozytywnie określony, a nawet dodatni półfinałowy, dla konkretnej próbki, z którą pracujemy”. Wydaje mi się to niewłaściwe, ponieważ (oprócz problemów numerycznych) Hesjan musi być dodatnim półfinałem w wyniku definicji …
Zastanawiam się, czy oszacowanie maksymalnego prawdopodobieństwa kiedykolwiek użyte w statystykach. Uczymy się jego koncepcji, ale zastanawiam się, kiedy jest faktycznie używana. Jeśli przyjmiemy rozkład danych, znajdziemy dwa parametry, jeden dla średniej i jeden dla wariancji, ale czy rzeczywiście używasz go w rzeczywistych sytuacjach? Czy ktoś może mi powiedzieć prosty przypadek, …
θ^θ^\hat\thetaθ∗θ∗\theta^*nnn∥θ^−θ∗∥‖θ^−θ∗‖\lVert\hat\theta-\theta^*\rVertO(1/n−−√)O(1/n)O(1/\sqrt n)∥Eθ^−θ∗∥‖Eθ^−θ∗‖\lVert \mathbb E\hat\theta - \theta^*\rVert∥Eθ^−θ^∥‖Eθ^−θ^‖\lVert \mathbb E\hat\theta - \hat\theta\rVertO(1/n−−√)O(1/n)O(1/\sqrt{n}) Interesują mnie modele, które mają odchylenie, które zmniejsza się szybciej niż O(1/n−−√)O(1/n)O(1/\sqrt n) , ale w którym błąd nie zmniejsza się w tym szybszym tempie, ponieważ odchylenie nadal zmniejsza się jako O(1/n−−√)O(1/n)O(1/\sqrt n) . W szczególności chciałbym poznać warunki wystarczające …
To pytanie dotyczy oszacowania ograniczonego maksymalnego prawdopodobieństwa (REML) w określonej wersji modelu liniowego, a mianowicie: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), gdzie X(α)X(α)X(\alpha) jest macierzą ( n×pn×pn \times p ) sparametryzowaną przez α∈Rkα∈Rk\alpha \in \mathbb R^k , podobnie jak Σ(α)Σ(α)\Sigma(\alpha) . ββ\beta jest nieznanym wektorem parametrów …
W pierwszym rozdziale książki Geometria algebraiczna i statystyczna teoria uczenia się, która mówi o zbieżności oszacowań w różnych przestrzeniach funkcjonalnych, wspomina, że oszacowanie Bayesa odpowiada topologii rozkładu Schwartza, podczas gdy oszacowanie maksymalnego prawdopodobieństwa odpowiada topologii ponadnormatywnej (na stronie 7): Na przykład, sup normą, LpLpL^p -norm słaby Topologia Hilberta , topologia …
Wydaje się, że istnieje wiele zamieszania w porównaniu używania glmnetwewnątrz w caretcelu znalezienia optymalnej lambdy i korzystania cv.glmnetz tego samego zadania. Zadano wiele pytań, np .: Model klasyfikacji train.glmnet vs. cv.glmnet? Jaki jest właściwy sposób używania glmnet z karetką? Cross-validation `glmnet` za pomocą` caret` ale nie udzielono odpowiedzi, co może …
MLE = oszacowanie maksymalnego prawdopodobieństwa MAP = Maksimum a posteriori MLE jest intuicyjny / naiwny, ponieważ zaczyna się od prawdopodobieństwa obserwacji danego parametru (tj. Funkcji prawdopodobieństwa) i próbuje znaleźć parametr najlepiej zgodny z obserwacją . Ale nie bierze pod uwagę wcześniejszej wiedzy. MAP wydaje się bardziej rozsądny, ponieważ bierze pod …
Biorąc pod uwagę zestaw danych z wynikami binarnymi i pewną macierzą predykcyjną , standardowy model regresji logistycznej szacuje współczynniki które maksymalizują prawdopodobieństwo dwumianowe. Gdy ma pełną pozycję, jest unikalny; gdy nie ma doskonałej separacji, jest skończona.y∈{0,1}ny∈{0,1}ny\in\{0,1\}^nX∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p}βMLEβMLE\beta_{MLE}XXXβMLEβMLE\beta_{MLE} Czy ten model maksymalnego prawdopodobieństwa maksymalizuje AUC ROC (aka statystyka), czy też istnieje …
To trochę dziwna myśl, którą miałem podczas przeglądania starych statystyk i z jakiegoś powodu nie wydaje mi się, żebym wymyślił odpowiedź. Ciągły plik PDF informuje nas o gęstości obserwacji wartości w danym zakresie. Mianowicie, jeśli X∼ N.( μ , σ2))X∼N(μ,σ2)X \sim N(\mu,\sigma^2) , na przykład, to prawdopodobieństwo, że realizacja przypada …
Niedawno przejrzałem kilka starych artykułów Nancy Reid, Barndorff-Nielsen, Richarda Coxa i, tak, małego Ronalda Fishera, na temat koncepcji „wnioskowania warunkowego” w paradygmacie częstokroć, co wydaje się oznaczać, że wnioski są oparte tylko na „odpowiedni podzbiór” przestrzeni próbki, a nie całej przestrzeni próbki. Jako kluczowy przykład wiadomo, że przedziały ufności oparte …
Widzę w różnych miejscach wspomniane, że ANOVA dokonuje oszacowania za pomocą metody momentów. Twierdzenie to wprawia mnie w zakłopotanie, ponieważ chociaż nie znam metody momentów, rozumiem, że jest to coś innego niż metoda największego prawdopodobieństwa i nie jest ona równoważna; z drugiej strony, ANOVA może być postrzegana jako regresja liniowa …
To pytanie jest inspirowane długą dyskusją w komentarzach tutaj: W jaki sposób regresja liniowa wykorzystuje rozkład normalny? W zwykłym modelu regresji liniowej, dla uproszczenia, zapisanym tutaj tylko z jednym predyktorem: gdzie są znanymi stałymi, a są zerowymi średnimi niezależnymi błędami. Jeśli dodatkowo przyjmiemy rozkład normalny dla błędów, wówczas zwykłe estymatory …
Wykonując regresję, jeśli zastosujemy definicję z: Jaka jest różnica między częściowym prawdopodobieństwem, prawdopodobieństwem profilu i prawdopodobieństwem krańcowym? że, maksymalne prawdopodobieństwo Znajdź β i θ, które maksymalizuje L (β, θ | dane). Chociaż, Krańcowa Prawdopodobieństwo Integrujemy się θ z równania prawdopodobieństwa, wykorzystując fakt, że możemy zidentyfikować rozkład prawdopodobieństwa θ uwarunkowane beta. …
Po wycentrowaniu można przyjąć , że dwa pomiary x i −x są niezależnymi obserwacjami z rozkładu Cauchy'ego z funkcją gęstości prawdopodobieństwa: 1f(x:θ)=f(x:θ)=f(x :\theta) = ,-∞<x<∞1π(1+(x−θ)2)1π(1+(x−θ)2)1\over\pi (1+(x-\theta)^2) ,−∞<x<∞,−∞<x<∞, -∞ < x < ∞ Pokaż, że jeśli x2≤1x2≤1x^2≤ 1 MLE z θθ\theta wynosi 0, ale jeśli x2>1x2>1x^2>1 , są dwa MLE z …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.