Studiuję o oszacowaniu maksymalnego prawdopodobieństwa i czytam, że funkcja prawdopodobieństwa jest iloczynem prawdopodobieństwa każdej zmiennej. Dlaczego to jest produkt? Dlaczego nie suma? Próbowałem szukać w Google, ale nie mogę znaleźć żadnych sensownych odpowiedzi. https://en.wikipedia.org/wiki/Maximum_likelihood
Dlaczego tak często uzyskuje się szacunki maksymalnego prawdopodobieństwa parametrów, ale praktycznie nigdy nie słyszy się o szacunkach oczekiwanych parametrów prawdopodobieństwa (tj. Opartych raczej na wartości oczekiwanej niż trybie funkcji wiarygodności)? Czy dzieje się tak przede wszystkim z powodów historycznych, czy też z bardziej merytorycznych przyczyn technicznych lub teoretycznych? Czy pojawienie …
Jestem matematykiem, samokształcącym się statystyką i walczącym szczególnie z językiem. W książce, której używam, występuje następujący problem: Losowa zmienna jest podana jako -dystrybucja z . (Oczywiście ze względu na to pytanie można wziąć dowolny rozkład w zależności od jednego parametru). Następnie podaje się próbkę pięciu wartości , , , , …
Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …
Kontekst Wielowymiarowy gaussowski pojawia się często w uczeniu maszynowym, a następujące wyniki są używane w wielu książkach i kursach ML bez pochodnych. Biorąc pod uwagę dane w postaci macierzy o wymiarach , jeżeli założymy, że dane są zgodne ze zmiennym rozkładem Gaussa zmiennym o parametrach średnia ( ) i macierz …
Częstotliwościowe statystyki są dla mnie równoznaczne z podejmowaniem decyzji, które są dobre dla wszystkich możliwych próbek. Tj częstościowym reguła decyzyjna zawsze powinien starać się zminimalizować ryzyko częstościowym, która zależy na funkcji strata L i prawdziwego stanu natury θ 0 :δδ\deltaL.L.Lθ0θ0\theta_0 Rfar e q= Eθ0( L ( θ0, δ( Y) )Rfarmiq=miθ0(L.(θ0,δ(Y))R_\mathrm{freq}=\mathbb{E}_{\theta_0}(L(\theta_0,\delta(Y)) …
Rozważ wektor parametrów , przy czym θ 1 to parametr będący przedmiotem zainteresowania, a θ 2 parametr uciążliwy.(θ1,θ2)(θ1,θ2)(\theta_1, \theta_2)θ1θ1\theta_1θ2θ2\theta_2 Jeśli jest prawdopodobieństwo wykonana z danych x prawdopodobieństwo profil dla θ 1 jest określona jako L P ( θ 1 , x ) = L ( θ 1 , θ 2 …
„Podstawową” ideą statystyki do szacowania parametrów jest maksymalne prawdopodobieństwo . Zastanawiam się, jaki jest odpowiedni pomysł w uczeniu maszynowym. Qn 1. Czy uczciwie byłoby powiedzieć, że „podstawową” ideą uczenia maszynowego do szacowania parametrów jest: „Funkcje utraty” [Uwaga: mam wrażenie, że algorytmy uczenia maszynowego często optymalizują funkcję strat i stąd powyższe …
Kontekst : regresja hierarchiczna z pewnymi brakującymi danymi. Pytanie : Jak wykorzystać oszacowanie maksymalnego prawdopodobieństwa (FIML) pełnej informacji w celu usunięcia brakujących danych w R? Czy polecasz pakiet i jakie są typowe kroki? Bardzo pomocne byłyby również zasoby i przykłady online. PS : Jestem socjologiem, który niedawno zaczął używać R. …
Witaj Mam dwa problemy, które brzmią jak naturalni kandydaci na modele wielopoziomowe / mieszane, których nigdy nie używałem. Prostszy i taki, który mam nadzieję wypróbować jako wprowadzenie, wygląda następująco: Dane wyglądają jak wiele wierszy formularza x y innergroup outergroup gdzie x jest zmienną liczbową, na której chcę regresować y (inna …
Tło: Uwaga: Mój zestaw danych i kod r są zawarte poniżej tekstu Chciałbym użyć AIC do porównania dwóch modeli efektów mieszanych wygenerowanych przy użyciu pakietu lme4 w R. Każdy model ma jeden ustalony efekt i jeden efekt losowy. Efekt stały różni się w zależności od modelu, ale efekt losowy pozostaje …
Mam wrażenie, że na podstawie kilku artykułów, książek i artykułów, które przeczytałem, zalecanym sposobem dopasowania rozkładu prawdopodobieństwa na zbiorze danych jest oszacowanie maksymalnego prawdopodobieństwa (MLE). Jednak jako fizyk bardziej intuicyjny sposób polega na dopasowaniu pdf modelu do empirycznego pdf danych przy użyciu najmniejszych kwadratów. Dlaczego zatem MLE jest lepszy od …
Zadano mi to pytanie pewnego dnia i nigdy wcześniej go nie rozważałem. Moja intuicja wynika z zalet każdego estymatora. Maksymalne prawdopodobieństwo występuje najlepiej, gdy jesteśmy pewni procesu generowania danych, ponieważ w przeciwieństwie do metody momentów wykorzystuje wiedzę o całej dystrybucji. Ponieważ estymatory MoM wykorzystują tylko informacje zawarte w momentach, wydaje …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.