Pytania otagowane jako likelihood

Biorąc pod uwagę losową zmienną która wynika ze sparametryzowanego rozkładu F (X; θ) , prawdopodobieństwo definiuje się jako prawdopodobieństwo zaobserwowanych danych w funkcji θ: \ text {L} (θ) = \ text {P} (θ ; X = x)XF(X;θ)θ:L(θ)=P(θ;X=x)

10
Jaka jest różnica między „prawdopodobieństwem” a „prawdopodobieństwem”?
Strona wikipedia twierdzi, że prawdopodobieństwo i prawdopodobieństwo to odrębne pojęcia. W języku nietechnicznym „prawdopodobieństwo” jest zwykle synonimem „prawdopodobieństwa”, ale w zastosowaniu statystycznym istnieje wyraźne rozróżnienie w perspektywie: liczba, która jest prawdopodobieństwem niektórych zaobserwowanych wyników przy danym zestawie wartości parametrów, jest uważana za prawdopodobieństwo zbioru wartości parametrów z uwzględnieniem zaobserwowanych wyników. …

3
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


4
Dlaczego minimalizujemy prawdopodobieństwo ujemne, jeśli jest ono równoważne z maksymalizacją prawdopodobieństwa?
To pytanie zastanawiało mnie od dawna. Rozumiem użycie „logu” w celu maksymalizacji prawdopodobieństwa, więc nie pytam o „log”. Moje pytanie brzmi: skoro maksymalizacja prawdopodobieństwa dziennika jest równoważna z minimalizacją „negatywnego prawdopodobieństwa dziennika” (NLL), dlaczego wymyśliliśmy tę NLL? Dlaczego nie wykorzystujemy „pozytywnego prawdopodobieństwa” przez cały czas? W jakich okolicznościach preferowane jest …

7
Dlaczego ktoś miałby stosować podejście bayesowskie z „nieinformacyjnym” niewłaściwym wcześniejszym podejściem zamiast klasycznego?
Jeśli zainteresowanie polega jedynie na oszacowaniu parametrów modelu (oszacowanie punktowe i / lub przedziałowe), a wcześniejsze informacje nie są wiarygodne, słabe (wiem, że jest to trochę niejasne, ale staram się ustalić scenariusz, w którym wybór wcześniejsze jest trudne) ... Dlaczego ktoś miałby stosować podejście bayesowskie z „nieinformacyjnymi” niewłaściwymi priory zamiast …

9
Dlaczego ludzie używają wartości p zamiast obliczać prawdopodobieństwo modelu na podstawie danych?
Z grubsza mówiąc, wartość p daje prawdopodobieństwo zaobserwowanego wyniku eksperymentu, biorąc pod uwagę hipotezę (model). Mając to prawdopodobieństwo (wartość p), chcemy ocenić naszą hipotezę (jak prawdopodobne jest). Ale czy nie byłoby bardziej naturalne obliczanie prawdopodobieństwa hipotezy na podstawie obserwowanego wyniku? Więcej szczegółów Mamy monetę. Odwracamy go 20 razy i otrzymujemy …

3
Jak rygorystycznie zdefiniować prawdopodobieństwo?
Prawdopodobieństwo można określić na kilka sposobów, na przykład: Funkcja LLL z Θ×XΘ×X\Theta\times{\cal X} , który odwzorowuje (θ,x)(θ,x)(\theta,x) do L(θ∣x)L(θ∣x)L(\theta \mid x) to znaczy L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} . funkcja losowa L(⋅∣X)L(⋅∣X)L(\cdot \mid X) moglibyśmy również wziąć pod uwagę, że prawdopodobieństwo to tylko „zaobserwowane” prawdopodobieństwo L(⋅∣xobs)L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) w praktyce prawdopodobieństwo …

3
Jakiego rodzaju informacjami są informacje Fishera?
Załóżmy, że mamy losową zmienną . Jeśli jest parametrem prawdziwym, funkcja prawdopodobieństwa powinna być zmaksymalizowana, a pochodna równa zero. Jest to podstawowa zasada leżąca u podstaw estymatora maksymalnego prawdopodobieństwa.X∼ f( x | θ )X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Jak rozumiem, informacje Fishera są zdefiniowane jako ja( θ ) = E [ ( …


5
Wpis w Wikipedii dotyczący prawdopodobieństwa wydaje się niejednoznaczny
Mam proste pytanie dotyczące „prawdopodobieństwa warunkowego” i „prawdopodobieństwa”. (Sprawdziłem już to pytanie tutaj, ale bezskutecznie). Zaczyna się od strony Wikipedii dotyczącej prawdopodobieństwa . Mówią to: Prawdopodobieństwo zestaw wartości parametrów, , biorąc pod uwagę efekty jest równa prawdopodobieństwu tych zaobserwowanych wyników podanych wartości tych parametrów, to jestθθ\thetaxxx L(θ∣x)=P(x∣θ)L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = …


5
Twierdzenie Bayesa Intuicja
Próbowałem opracować intuicyjne rozumienie twierdzenia Bayesa w kategoriach wcześniejszego , późniejszego , prawdopodobieństwa i marginalnego prawdopodobieństwa. W tym celu używam następującego równania: gdzie reprezentuje hipotezę lub przekonanie, a reprezentuje dane lub dowody. Zrozumiałem pojęcie a posteriori - jest to jednocząca istota, która łączy wcześniejsze przekonanie i prawdopodobieństwo zdarzenia. Czego nie …

3
Czy istnieje jakaś różnica między częstym a bayesowskim w definicji prawdopodobieństwa?
Niektóre źródła podają, że funkcja prawdopodobieństwa nie jest prawdopodobieństwem warunkowym, niektóre twierdzą, że tak. To jest dla mnie bardzo mylące. Według większości źródeł, które widziałem, prawdopodobieństwo rozkładu z parametrem powinno być iloczynem funkcji masy prawdopodobieństwa, biorąc pod uwagę próbek x_i :n x iθθ\thetannnxixix_i L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^n p(x_i;\theta) Na …


1
Konwersja (normalizacja) bardzo małych wartości prawdopodobieństwa na prawdopodobieństwo
Piszę algorytm, w którym przy danym modelu obliczam prawdopodobieństwa dla listy zestawów danych, a następnie muszę znormalizować (według prawdopodobieństwa) każde z prawdopodobieństw. Więc coś w rodzaju [0,00043, 0,00004, 0,00321] można przekonwertować na coś takiego jak [0,2, 0,03, 0,77]. Mój problem polega na tym, że prawdopodobieństwa dziennika, z którymi pracuję, są …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.