Statystyki i duże zbiory danych modeling

2

Dystrybucja opisująca różnicę między ujemnymi zmiennymi dwumianowymi rozproszonymi?

Skellam Dystrybucja opisuje różnicę pomiędzy dwiema zmiennymi, które mają rozkład Poissona. Czy istnieje podobny rozkład opisujący różnicę między zmiennymi występującymi po ujemnych rozkładach dwumianowych? Moje dane są wytwarzane w procesie Poissona, ale zawierają sporo hałasu, co prowadzi do nadmiernej dyspersji w dystrybucji. Dlatego modelowanie danych z ujemnym rozkładem dwumianowym (NB) …

18 distributions modeling poisson-distribution negative-binomial skellam

1

Właściwości regresji logistycznych

Pracujemy z pewnymi regresjami logistycznymi i zdaliśmy sobie sprawę, że średnie oszacowane prawdopodobieństwo zawsze równa jest proporcji jednych w próbie; to znaczy, średnia dopasowanych wartości jest równa średniej próbki. Czy ktoś może mi wyjaśnić przyczynę lub podać źródło, w którym mogę znaleźć tę demonstrację?

17 regression logistic modeling generalized-linear-model maximum-likelihood

5

Regresja Poissona z dużymi danymi: czy zmiana jednostki miary jest błędna?

Ze względu na silnię w rozkładzie Poissona oszacowanie modeli Poissona (na przykład przy użyciu maksymalnego prawdopodobieństwa) staje się niepraktyczne, gdy obserwacje są duże. Na przykład, jeśli próbuję oszacować model wyjaśniający liczbę samobójstw w danym roku (dostępne są tylko dane roczne) i powiedzmy, że są tysiące samobójstw każdego roku, czy błędne …

17 modeling poisson-distribution large-data

3

Jaki jest związek między wartością R-kwadrat a wartością p w regresji?

tl; dr - w przypadku regresji OLS, czy wyższy R-kwadrat oznacza również wyższą wartość P? W szczególności dla jednej zmiennej objaśniającej (Y = a + bX + e), ale chciałbym również wiedzieć o n wielu zmiennych objaśniających (Y = a + b1X + ... bnX + e). Kontekst - Przeprowadzam …

17 regression modeling p-value r-squared

7

Dlaczego zniekształcone dane nie są preferowane do modelowania?

W większości przypadków, gdy ludzie mówią o transformacjach zmiennych (zarówno dla zmiennych predykcyjnych, jak i zmiennych odpowiedzi), dyskutują o sposobach leczenia skośności danych (takich jak transformacja logów, transformacja box i Cox itp.). Nie jestem w stanie zrozumieć, dlaczego usuwanie skośności jest uważane za tak powszechną najlepszą praktykę? W jaki sposób …

16 modeling skewness

1

Modele pasujące w R, w których współczynniki podlegają ograniczeniom liniowym

Jak powinienem zdefiniować wzór modelu w R, kiedy dostępne jest jedno (lub więcej) dokładnych ograniczeń liniowych wiążących współczynniki. Jako przykład powiedz, że wiesz, że b1 = 2 * b0 w prostym modelu regresji liniowej. Dziękuję Ci!

16 r regression modeling

2

Jakiego rozkładu użyć do modelowania czasu przed przybyciem pociągu?

Próbuję modelować niektóre dane dotyczące czasu przyjazdu pociągu. Chciałbym użyć dystrybucji, która przechwytuje „im dłużej czekam, tym bardziej prawdopodobne jest, że pociąg się pojawi” . Wydaje się, że taka dystrybucja powinna wyglądać jak CDF, więc P (przyjazd pociągu | czekał 60 minut) jest bliski 1. Jakiej dystrybucji należy tutaj zastosować?

16 distributions modeling

7

Jaką krzywą (lub model) powinienem dopasować do danych procentowych?

Próbuję stworzyć postać, która pokazuje związek między kopiami wirusów a pokryciem genomu (GCC). Tak wyglądają moje dane: Na początku po prostu nakreśliłem regresję liniową, ale moi przełożeni powiedzieli mi, że to nieprawda, i wypróbowałem krzywą sigmoidalną. Zrobiłem to za pomocą geom_smooth: library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour …

15 regression modeling curve-fitting percentage

2

Kiedy przestać udoskonalać model?

Przez ostatnie 3 lata studiowałem statystyki z wielu książek, a dzięki tej stronie wiele się nauczyłem. Niemniej jedno fundamentalne pytanie wciąż pozostaje dla mnie bez odpowiedzi. Może mieć bardzo prostą lub bardzo trudną odpowiedź, ale wiem na pewno, że wymaga dogłębnego zrozumienia statystyki. Przy dopasowywaniu modelu do danych, czy to …

15 modeling inference aic

5

Co dokładnie buduje model statystyczny?

Co dokładnie buduje model statystyczny? Obecnie, kiedy ubiegam się o pracę badawczą lub konsultacyjną, często pojawia się termin „budowanie modelu” lub „modelowanie”. Termin brzmi fajnie, ale do czego dokładnie się odnoszą? Jak Ci zbudować swój model? Spojrzałem w górę predykcyjną modelowania , który zawiera k-NN i regresji logistycznej.

15 modeling

3

Termin kwadratowy lub interakcyjny jest znaczący w oderwaniu, ale żaden z nich nie jest razem

W ramach zadania musiałem dopasować model do dwóch zmiennych predykcyjnych. Następnie musiałem narysować wykres reszt modelu w oparciu o jeden z zawartych predyktorów i na tej podstawie dokonać zmian. Na wykresie pokazano trend krzywoliniowy, dlatego włączyłem kwadratowy termin dla tego predyktora. Nowy model pokazał, że kwadrat jest znaczący. Jak dotąd …

15 statistical-significance multiple-regression modeling

4

Poszukuję dobrego wstępnego traktowania metaanalizy

Kolega (niestatystyczny) napotyka metaanalizę w artykułach, które recenzuje w czasopismach medycznych i szuka dobrego leczenia wprowadzającego, aby mógł się kształcić. Jakieś rekomendacje? Ulubione? Książki, monografie, nietechniczne artykuły z ankiet byłyby w porządku. (Tak, zna wpis z Wikipedii i inne rzeczy łatwo dostępne za pomocą wyszukiwarki Google, takie jak miły, mały …

15 modeling meta-analysis

5

Który algorytm klasyfikacji statystycznej może przewidzieć wartość prawda / fałsz dla sekwencji danych wejściowych?

Biorąc pod uwagę sekwencję danych wejściowych, muszę ustalić, czy sekwencja ta ma pewną pożądaną właściwość. Właściwość może być tylko prawdą lub fałszem, tzn. Istnieją tylko dwie możliwe klasy, do których może należeć sekwencja. Dokładny związek między sekwencją a właściwością jest niejasny, ale uważam, że jest bardzo spójny i powinien podlegać …

15 machine-learning classification modeling

2

Modelowanie rozkładu Poissona z nadmierną dyspersją

Mam zestaw danych, który spodziewałbym się podążać za rozkładem Poissona, ale jest on rozproszony około 3-krotnie. Obecnie modeluję tę naddyspersję za pomocą czegoś takiego jak następujący kod w R. ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) Wizualnie wydaje się, …

15 distributions modeling poisson-distribution overdispersion

2

Jaka jest dobra wcześniejsza dystrybucja dla stopni swobody w dystrybucji?

Chcę użyć przy dystrybucji do modelowania zwrotów aktywów o krótkich interwałach w modelu bayesowskim. Chciałbym oszacować oba stopnie swobody (wraz z innymi parametrami w moim modelu) dla rozkładu. Wiem, że zwroty z aktywów są dość nietypowe, ale nie wiem zbyt wiele poza tym. Jaka jest odpowiednia, lekko informacyjna wcześniejsza dystrybucja …

15 distributions bayesian modeling prior

Pytania otagowane jako modeling