Statystyki i duże zbiory danych

5

Robię wielowymiarową regresję Coxa, mam swoje znaczące zmienne niezależne i wartości beta. Model bardzo dobrze pasuje do moich danych. Teraz chciałbym użyć mojego modelu i przewidzieć przetrwanie nowej obserwacji. Nie jestem pewien, jak to zrobić za pomocą modelu Coxa. W regresji liniowej lub logistycznej byłoby łatwo, po prostu wstawić wartości …

38 regression survival prediction cox-model

2

Kiedy Poisson i ujemne regresje dwumianowe pasują do tych samych współczynników?

Zauważyłem, że w regresji R, Poissona i regresji dwumianowej ujemnej (NB) zawsze wydaje się pasować do tych samych współczynników dla predyktorów jakościowych, ale nie ciągłych. Na przykład oto regresja z predyktorem jakościowym: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), …

38 regression negative-binomial poisson-regression

3

Dlaczego naiwni klasyfikatorzy bayesowscy tak dobrze sobie radzą?

Klasyfikatory Naive Bayes są popularnym wyborem przy problemach z klasyfikacją. Istnieje wiele powodów, w tym: „Zeitgeist” - powszechna świadomość po sukcesie filtrów antyspamowych około dziesięć lat temu Łatwy do napisania Model klasyfikatora jest szybki w budowie Model można modyfikować za pomocą nowych danych treningowych bez konieczności jego odbudowywania Są jednak …

38 classification naive-bayes

2

Co to jest identyfikowalność modelu?

Wiem, że w przypadku modelu, którego nie można zidentyfikować, można powiedzieć, że dane są generowane przez wiele różnych przypisań do parametrów modelu. Wiem, że czasami można ograniczyć parametry, aby wszystkie były identyfikowalne, jak w przykładzie w wydaniu Cassella i Berger, wyd. 2, sekcja 11.2. Biorąc pod uwagę konkretny model, jak …

38 identifiability

9

Jaki jest związek między

Jaki jest związek między i na poniższym wykresie? Moim zdaniem istnieje ujemny związek liniowy, ale ponieważ mamy wiele wartości odstających, związek jest bardzo słaby. Czy mam rację? Chcę się dowiedzieć, jak wyjaśnić wykresy rozrzutu.XYYYXXX

38 self-study correlation scatterplot

7

Czy istnieje dobra przeglądarka / przeglądarka, która widzi zestaw danych R (plik .rda)

Chcę przeglądać plik .rda (zestaw danych R). Wiem o View(datasetname)poleceniu. Domyślna R.app dostarczana na komputery Mac nie ma bardzo dobrej przeglądarki danych (otwiera okno w X11). Podoba mi się przeglądarka danych RStudio, która otwiera się za pomocą Viewpolecenia. Wyświetla jednak tylko 1000 wierszy i pomija pozostałe. ( AKTUALIZACJA: Przeglądarka RStudio …

38 r

6

Jaki jest związek między wiarygodnymi regionami a testami hipotezy bayesowskiej?

W statystyce częstokrzyskiej istnieje ścisły związek między przedziałami ufności a testami. Wykorzystując wnioskowanie o w rozkładzie jako przykład, przedział ufności zawiera wszystkie wartości , które nie są odrzucane przez test na poziomie istotności .N ( μ , σ 2 ) 1 - α ˉ x ± t α / 2 …

38 hypothesis-testing bayesian confidence-interval frequentist credible-interval

4

Przybliżone statystyki zamówień dla normalnych zmiennych losowych

Czy są dobrze znane formuły dla statystyk porządkowych niektórych rozkładów losowych? W szczególności doceniono by statystyki pierwszego i ostatniego rzędu normalnej zmiennej losowej, ale bardziej ogólna odpowiedź. Edycja: Aby to wyjaśnić, szukam formuł aproksymujących, które można mniej lub bardziej wyraźnie ocenić, a nie dokładnego wyrażenia całkowego. Na przykład widziałem następujące …

38 distributions normal-distribution approximation order-statistics

8

Czy prawidłowe jest uwzględnienie miary wyjściowej jako zmiennej kontrolnej podczas testowania wpływu zmiennej niezależnej na wyniki zmian?

Próbuję uruchomić regresję OLS: DV: Zmiana masy ciała w ciągu roku (waga początkowa - waga końcowa) IV: Czy ćwiczysz czy nie. Wydaje się jednak rozsądne, że cięższe osoby będą tracić więcej masy na jednostkę ćwiczeń niż osoby szczuplejsze. Dlatego chciałem dołączyć zmienną kontrolną: CV: początkowa waga początkowa. Jednak teraz początkowa …

38 regression repeated-measures least-squares change-scores

5

„Grupowanie” szeregów czasowych w R.

Mam zestaw danych szeregów czasowych. Każda seria obejmuje ten sam okres, chociaż rzeczywiste daty w każdej serii czasowej mogą nie być dokładnie w jednej linii. To znaczy, jeśli szeregi czasowe miałyby zostać odczytane w matrycy 2D, wyglądałoby to tak: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A …

38 r time-series clustering cointegration

8

Jak efektywnie generować losowe macierze korelacji dodatnio-półpokrytych?

Chciałbym być w stanie efektywnie generować macierze korelacji dodatnich-półprzewodnikowych (PSD). Moja metoda gwałtownie zwalnia, gdy zwiększam rozmiar generowanych macierzy. Czy możesz zasugerować jakieś skuteczne rozwiązania? Jeśli znasz jakieś przykłady w Matlabie, byłbym bardzo wdzięczny. W jaki sposób przy generowaniu macierzy korelacji PSD wybrałbyś parametry opisujące macierze do wygenerowania? Średnia korelacja, …

38 random-generation correlation-matrix

9

Jak mogę skutecznie modelować sumę zmiennych losowych Bernoulliego?

Modeluję zmienną losową ( ), która jest sumą około 15-40k niezależnych zmiennych losowych Bernoulliego ( ), z których każda ma inne prawdopodobieństwo powodzenia ( ). Formalnie gdzie i \ Pr (X_i = 0) = 1-p_i .YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Interesuje mnie szybkie odpowiadanie na zapytania, takie jak Pr(Y<=k)Pr(Y<=k)\Pr(Y<=k) (gdzie podano kkk ). …

38 r distributions binomial random-variable poisson-binomial

3

Różnica między losowym lasem a wyjątkowo losowymi drzewami

Zrozumiałem, że losowy las i skrajnie losowe drzewa różnią się tym, że podziały drzew w losowym lesie są deterministyczne, podczas gdy są losowe w przypadku ekstremalnie losowych drzew (dokładniej, następny podział jest najlepszym podziałem wśród losowych jednolitych podziałów w wybranych zmiennych dla bieżącego drzewa). Ale nie do końca rozumiem wpływ …

38 machine-learning correlation references random-forest

3

Jak działa przybliżanie saddlepoint?

Jak działa przybliżanie saddlepoint? Dla jakiego rodzaju problemu jest to dobre? (Możesz użyć konkretnego przykładu lub przykładów jako ilustracji) Czy są jakieś wady, trudności, rzeczy, na które należy uważać, lub pułapki na nieostrożnych?

38 distributions mathematical-statistics mgf saddlepoint-approximation partial-moments

2

ImageNet: co to jest wskaźnik błędów w pierwszej i piątce?

W dokumentach klasyfikacyjnych ImageNet wskaźniki błędu 1 i 5 są ważnymi jednostkami do pomiaru sukcesu niektórych rozwiązań, ale jakie są te poziomy błędów? W ImageNet Classification with Deep Convolutional Neural Networks autorstwa Krizhevsky i in. każde rozwiązanie oparte na jednym CNN (strona 7) nie ma najwyższych 5 poziomów błędów, podczas …

38 classification neural-networks error measurement-error image-processing