Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

5
Prognozy w regresji Coxa
Robię wielowymiarową regresję Coxa, mam swoje znaczące zmienne niezależne i wartości beta. Model bardzo dobrze pasuje do moich danych. Teraz chciałbym użyć mojego modelu i przewidzieć przetrwanie nowej obserwacji. Nie jestem pewien, jak to zrobić za pomocą modelu Coxa. W regresji liniowej lub logistycznej byłoby łatwo, po prostu wstawić wartości …

2
Kiedy Poisson i ujemne regresje dwumianowe pasują do tych samych współczynników?
Zauważyłem, że w regresji R, Poissona i regresji dwumianowej ujemnej (NB) zawsze wydaje się pasować do tych samych współczynników dla predyktorów jakościowych, ale nie ciągłych. Na przykład oto regresja z predyktorem jakościowym: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), …

3
Dlaczego naiwni klasyfikatorzy bayesowscy tak dobrze sobie radzą?
Klasyfikatory Naive Bayes są popularnym wyborem przy problemach z klasyfikacją. Istnieje wiele powodów, w tym: „Zeitgeist” - powszechna świadomość po sukcesie filtrów antyspamowych około dziesięć lat temu Łatwy do napisania Model klasyfikatora jest szybki w budowie Model można modyfikować za pomocą nowych danych treningowych bez konieczności jego odbudowywania Są jednak …

2
Co to jest identyfikowalność modelu?
Wiem, że w przypadku modelu, którego nie można zidentyfikować, można powiedzieć, że dane są generowane przez wiele różnych przypisań do parametrów modelu. Wiem, że czasami można ograniczyć parametry, aby wszystkie były identyfikowalne, jak w przykładzie w wydaniu Cassella i Berger, wyd. 2, sekcja 11.2. Biorąc pod uwagę konkretny model, jak …

9
Jaki jest związek między
Jaki jest związek między i na poniższym wykresie? Moim zdaniem istnieje ujemny związek liniowy, ale ponieważ mamy wiele wartości odstających, związek jest bardzo słaby. Czy mam rację? Chcę się dowiedzieć, jak wyjaśnić wykresy rozrzutu.XYYYXXX

7
Czy istnieje dobra przeglądarka / przeglądarka, która widzi zestaw danych R (plik .rda)
Chcę przeglądać plik .rda (zestaw danych R). Wiem o View(datasetname)poleceniu. Domyślna R.app dostarczana na komputery Mac nie ma bardzo dobrej przeglądarki danych (otwiera okno w X11). Podoba mi się przeglądarka danych RStudio, która otwiera się za pomocą Viewpolecenia. Wyświetla jednak tylko 1000 wierszy i pomija pozostałe. ( AKTUALIZACJA: Przeglądarka RStudio …
38 r 


4
Przybliżone statystyki zamówień dla normalnych zmiennych losowych
Czy są dobrze znane formuły dla statystyk porządkowych niektórych rozkładów losowych? W szczególności doceniono by statystyki pierwszego i ostatniego rzędu normalnej zmiennej losowej, ale bardziej ogólna odpowiedź. Edycja: Aby to wyjaśnić, szukam formuł aproksymujących, które można mniej lub bardziej wyraźnie ocenić, a nie dokładnego wyrażenia całkowego. Na przykład widziałem następujące …

8
Czy prawidłowe jest uwzględnienie miary wyjściowej jako zmiennej kontrolnej podczas testowania wpływu zmiennej niezależnej na wyniki zmian?
Próbuję uruchomić regresję OLS: DV: Zmiana masy ciała w ciągu roku (waga początkowa - waga końcowa) IV: Czy ćwiczysz czy nie. Wydaje się jednak rozsądne, że cięższe osoby będą tracić więcej masy na jednostkę ćwiczeń niż osoby szczuplejsze. Dlatego chciałem dołączyć zmienną kontrolną: CV: początkowa waga początkowa. Jednak teraz początkowa …

5
„Grupowanie” szeregów czasowych w R.
Mam zestaw danych szeregów czasowych. Każda seria obejmuje ten sam okres, chociaż rzeczywiste daty w każdej serii czasowej mogą nie być dokładnie w jednej linii. To znaczy, jeśli szeregi czasowe miałyby zostać odczytane w matrycy 2D, wyglądałoby to tak: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A …

8
Jak efektywnie generować losowe macierze korelacji dodatnio-półpokrytych?
Chciałbym być w stanie efektywnie generować macierze korelacji dodatnich-półprzewodnikowych (PSD). Moja metoda gwałtownie zwalnia, gdy zwiększam rozmiar generowanych macierzy. Czy możesz zasugerować jakieś skuteczne rozwiązania? Jeśli znasz jakieś przykłady w Matlabie, byłbym bardzo wdzięczny. W jaki sposób przy generowaniu macierzy korelacji PSD wybrałbyś parametry opisujące macierze do wygenerowania? Średnia korelacja, …

9
Jak mogę skutecznie modelować sumę zmiennych losowych Bernoulliego?
Modeluję zmienną losową ( ), która jest sumą około 15-40k niezależnych zmiennych losowych Bernoulliego ( ), z których każda ma inne prawdopodobieństwo powodzenia ( ). Formalnie gdzie i \ Pr (X_i = 0) = 1-p_i .YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Interesuje mnie szybkie odpowiadanie na zapytania, takie jak Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k) (gdzie podano kkk ). …

3
Różnica między losowym lasem a wyjątkowo losowymi drzewami
Zrozumiałem, że losowy las i skrajnie losowe drzewa różnią się tym, że podziały drzew w losowym lesie są deterministyczne, podczas gdy są losowe w przypadku ekstremalnie losowych drzew (dokładniej, następny podział jest najlepszym podziałem wśród losowych jednolitych podziałów w wybranych zmiennych dla bieżącego drzewa). Ale nie do końca rozumiem wpływ …


2
ImageNet: co to jest wskaźnik błędów w pierwszej i piątce?
W dokumentach klasyfikacyjnych ImageNet wskaźniki błędu 1 i 5 są ważnymi jednostkami do pomiaru sukcesu niektórych rozwiązań, ale jakie są te poziomy błędów? W ImageNet Classification with Deep Convolutional Neural Networks autorstwa Krizhevsky i in. każde rozwiązanie oparte na jednym CNN (strona 7) nie ma najwyższych 5 poziomów błędów, podczas …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.