Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

8
Książka do czytania przed elementami uczenia statystycznego?
Na podstawie tego postu chcę przeanalizować elementy uczenia statystycznego. Na szczęście jest dostępny za darmo i zacząłem go czytać. Nie mam wystarczającej wiedzy, aby to zrozumieć. Czy możesz polecić książkę, która jest lepszym wprowadzeniem do tematów książki? Mam nadzieję, że coś, co da mi wiedzę potrzebną do zrozumienia tego? Związane …


5
Jaka jest różnica między N a N-1 w obliczaniu wariancji populacji?
Nie zrozumiałem, dlaczego tak jest, Ni N-1podczas obliczania wariancji populacji. Kiedy korzystamy Ni kiedy korzystamy N-1? Kliknij tutaj, aby uzyskać większą wersję Mówi, że gdy populacja jest bardzo duża, nie ma różnicy między N i N-1, ale nie mówi, dlaczego na początku występuje N-1. Edycja: Proszę nie mylić ni n-1które …

6
Czy regresja kalenicy jest bezużyteczna w dużych wymiarach ( )? W jaki sposób OLS może się nie dopasowywać?
Rozważ dobry stary problem regresji z predyktorami i wielkością próby . Zazwyczaj mądrość jest taka, że ​​estymator OLS będzie nadrzędny i generalnie będzie lepszy niż estymator regresji grzbietu:Standardowe jest stosowanie weryfikacji krzyżowej w celu znalezienia optymalnego parametru regularyzacji . Tutaj używam 10-krotnego CV. Aktualizacja wyjaśnienia: gdy , przez „estymator OLS” …

3
Jak definiujemy „powtarzalne badania”?
Pojawiło się to teraz w kilku pytaniach i zastanawiałem się nad czymś. Czy pole jako całość przesunęło się w kierunku „odtwarzalności”, koncentrując się na dostępności oryginalnych danych i omawianego kodu? Zawsze uczono mnie, że istotą odtwarzalności niekoniecznie jest, jak już mówiłem, możliwość kliknięcia przycisku Uruchom i uzyskania takich samych wyników. …


5
Prawidłowa pisownia (wielkie litery, kursywa, dzielenie wyrazów) „wartości p”?
Zdaję sobie sprawę, że jest to pedantyczne i banalne, ale jako badacz w dziedzinie poza statystyką, z ograniczoną formalną edukacją statystyczną, zawsze zastanawiam się, czy poprawnie piszę „wartość p”. Konkretnie: Czy litera „p” ma być pisana wielką literą? Czy „p” powinno być zapisane kursywą? (Lub czcionką matematyczną w TeX?) Czy …


3
Jaka jest intuicja stojąca za SVD?
Czytałem o rozkładzie wartości pojedynczej (SVD). W prawie wszystkich podręcznikach wspomniano, że rozkłada macierz na trzy macierze o podanej specyfikacji. Ale jaka jest intuicja dzielenia macierzy w takiej formie? PCA i inne algorytmy redukcji wymiarów są intuicyjne w tym sensie, że algorytm ma ładną właściwość wizualizacji, ale w przypadku SVD …

3
Grupowanie za pomocą K-Means i EM: w jaki sposób są one powiązane?
Studiowałem algorytmy dla grupowania danych (uczenie bez nadzoru): EM i k-średnich. Cały czas czytam: k-średnich jest wariantem EM, przy założeniu, że klastry są kuliste. Czy ktoś może wyjaśnić powyższe zdanie? Nie rozumiem, co oznaczają sfery i jak kmeany i EM są powiązane, ponieważ jeden wykonuje przyporządkowanie probabilistyczne, a drugi w …

2
Czy istnieje różnica między „kontrolowaniem” i „ignorowaniem” innych zmiennych w regresji wielokrotnej?
Współczynnik zmiennej objaśniającej w regresji wielokrotnej mówi nam o związku tej zmiennej objaśniającej ze zmienną zależną. Wszystko to podczas „kontrolowania” pozostałych zmiennych objaśniających. Jak do tej pory go przeglądałem: Podczas obliczania każdego współczynnika inne zmienne nie są brane pod uwagę, więc uważam je za ignorowane. Czy mam zatem rację, gdy …

1
Uzyskiwanie przewidywanych wartości (Y = 1 lub 0) z dopasowania modelu regresji logistycznej
Powiedzmy, że mam obiekt klasy glm(odpowiadający modelowi regresji logistycznej) i chciałbym zamienić przewidywane prawdopodobieństwa podane za predict.glmpomocą argumentu type="response"na odpowiedzi binarne, tj. lub . Jaki jest najszybszy i najbardziej kanoniczny sposób to zrobić w R?Y=1Y=1Y=1Y=0Y=0Y=0 Chociaż znowu jestem tego świadomy predict.glm, nie wiem, gdzie dokładnie znajduje się wartość odcięcia - …

4
Po co zawracać sobie głowę podwójnym problemem przy montażu SVM?
Biorąc pod uwagę punkty danych i etykiety , podstawowym problemem z twardym marginesem SVM jestx1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1 który jest programem kwadratowym ze …
50 svm 

16
Polecane książki na temat projektowania eksperymentów?
Jakie są zalecenia panelu dotyczące książek na temat projektowania eksperymentów? W idealnym przypadku książki powinny być nadal w formie drukowanej lub dostępne w formie elektronicznej, choć nie zawsze jest to możliwe. Jeśli czujesz się poruszony, aby dodać kilka słów o tym, co jest tak dobrego w książce, to też byłoby …

4
Dlaczego ANOVA jest równoważna regresji liniowej?
Czytałem, że ANOVA i regresja liniowa są tym samym. Jak to możliwe, biorąc pod uwagę, że wynikiem ANOVA jest pewna wartość i pewna wartość p, na podstawie których wnioskujesz, czy próbka oznacza, że ​​różne próbki są takie same lub różne.faFFppp Ale zakładając, że średnie nie są równe (odrzuć hipotezę zerową), …
50 regression  anova 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.