Statystyki i duże zbiory danych

8

Książka do czytania przed elementami uczenia statystycznego?

Na podstawie tego postu chcę przeanalizować elementy uczenia statystycznego. Na szczęście jest dostępny za darmo i zacząłem go czytać. Nie mam wystarczającej wiedzy, aby to zrozumieć. Czy możesz polecić książkę, która jest lepszym wprowadzeniem do tematów książki? Mam nadzieję, że coś, co da mi wiedzę potrzebną do zrozumienia tego? Związane …

50 machine-learning references

6

Jaka książka jest godna polecenia, aby rozpocząć naukę statystyki za pomocą R w tym samym czasie?

Książki do nauki statystyki za pomocą R. Jakiej dokładnie książki szukam. To, czego szukam, to książka, która uczy statystyk podczas korzystania z R, aby dać ci praktyczne doświadczenie, a tym samym pomaga ci razem uczyć się R. Widziałem na Amazon wiele książek, które próbują to zrobić, ale nie z R. …

50 r references

5

Jaka jest różnica między N a N-1 w obliczaniu wariancji populacji?

Nie zrozumiałem, dlaczego tak jest, Ni N-1podczas obliczania wariancji populacji. Kiedy korzystamy Ni kiedy korzystamy N-1? Kliknij tutaj, aby uzyskać większą wersję Mówi, że gdy populacja jest bardzo duża, nie ma różnicy między N i N-1, ale nie mówi, dlaczego na początku występuje N-1. Edycja: Proszę nie mylić ni n-1które …

50 variance population

6

Czy regresja kalenicy jest bezużyteczna w dużych wymiarach ( )? W jaki sposób OLS może się nie dopasowywać?

Rozważ dobry stary problem regresji z predyktorami i wielkością próby . Zazwyczaj mądrość jest taka, że estymator OLS będzie nadrzędny i generalnie będzie lepszy niż estymator regresji grzbietu:Standardowe jest stosowanie weryfikacji krzyżowej w celu znalezienia optymalnego parametru regularyzacji . Tutaj używam 10-krotnego CV. Aktualizacja wyjaśnienia: gdy , przez „estymator OLS” …

50 cross-validation regularization overfitting ridge-regression shrinkage

3

Jak definiujemy „powtarzalne badania”?

Pojawiło się to teraz w kilku pytaniach i zastanawiałem się nad czymś. Czy pole jako całość przesunęło się w kierunku „odtwarzalności”, koncentrując się na dostępności oryginalnych danych i omawianego kodu? Zawsze uczono mnie, że istotą odtwarzalności niekoniecznie jest, jak już mówiłem, możliwość kliknięcia przycisku Uruchom i uzyskania takich samych wyników. …

50 reproducible-research philosophical

13

Oprogramowanie do rysowania sieci bayesowskich (modele graficzne)

Szukam [darmowego] oprogramowania, które może produkować ładnie wyglądające modele graficzne, np Wszelkie sugestie będą mile widziane.

50 graphical-model software

5

Prawidłowa pisownia (wielkie litery, kursywa, dzielenie wyrazów) „wartości p”?

Zdaję sobie sprawę, że jest to pedantyczne i banalne, ale jako badacz w dziedzinie poza statystyką, z ograniczoną formalną edukacją statystyczną, zawsze zastanawiam się, czy poprawnie piszę „wartość p”. Konkretnie: Czy litera „p” ma być pisana wielką literą? Czy „p” powinno być zapisane kursywą? (Lub czcionką matematyczną w TeX?) Czy …

50 hypothesis-testing p-value terminology

1

Kodowanie typu hot-man vs dummy w Scikit-learn

Istnieją dwa różne sposoby kodowania zmiennych jakościowych. Powiedzmy, że jedna zmienna kategorialna ma n wartości. Kodowanie na gorąco konwertuje go na n zmiennych, podczas gdy kodowanie zastępcze konwertuje go na zmienne n-1 . Jeśli mamy k zmiennych kategorialnych, z których każda ma n wartości. Jedno kodowanie na gorąco kończy się …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

3

Jaka jest intuicja stojąca za SVD?

Czytałem o rozkładzie wartości pojedynczej (SVD). W prawie wszystkich podręcznikach wspomniano, że rozkłada macierz na trzy macierze o podanej specyfikacji. Ale jaka jest intuicja dzielenia macierzy w takiej formie? PCA i inne algorytmy redukcji wymiarów są intuicyjne w tym sensie, że algorytm ma ładną właściwość wizualizacji, ale w przypadku SVD …

50 matrix linear-algebra svd intuition

3

Grupowanie za pomocą K-Means i EM: w jaki sposób są one powiązane?

Studiowałem algorytmy dla grupowania danych (uczenie bez nadzoru): EM i k-średnich. Cały czas czytam: k-średnich jest wariantem EM, przy założeniu, że klastry są kuliste. Czy ktoś może wyjaśnić powyższe zdanie? Nie rozumiem, co oznaczają sfery i jak kmeany i EM są powiązane, ponieważ jeden wykonuje przyporządkowanie probabilistyczne, a drugi w …

50 machine-learning clustering data-mining k-means expectation-maximization

2

Czy istnieje różnica między „kontrolowaniem” i „ignorowaniem” innych zmiennych w regresji wielokrotnej?

Współczynnik zmiennej objaśniającej w regresji wielokrotnej mówi nam o związku tej zmiennej objaśniającej ze zmienną zależną. Wszystko to podczas „kontrolowania” pozostałych zmiennych objaśniających. Jak do tej pory go przeglądałem: Podczas obliczania każdego współczynnika inne zmienne nie są brane pod uwagę, więc uważam je za ignorowane. Czy mam zatem rację, gdy …

50 regression multiple-regression

1

Uzyskiwanie przewidywanych wartości (Y = 1 lub 0) z dopasowania modelu regresji logistycznej

Powiedzmy, że mam obiekt klasy glm(odpowiadający modelowi regresji logistycznej) i chciałbym zamienić przewidywane prawdopodobieństwa podane za predict.glmpomocą argumentu type="response"na odpowiedzi binarne, tj. lub . Jaki jest najszybszy i najbardziej kanoniczny sposób to zrobić w R?Y=1Y=1Y=1Y=0Y=0Y=0 Chociaż znowu jestem tego świadomy predict.glm, nie wiem, gdzie dokładnie znajduje się wartość odcięcia - …

50 r generalized-linear-model logistic

4

Po co zawracać sobie głowę podwójnym problemem przy montażu SVM?

Biorąc pod uwagę punkty danych i etykiety , podstawowym problemem z twardym marginesem SVM jestx1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1 który jest programem kwadratowym ze …

50 svm

16

Polecane książki na temat projektowania eksperymentów?

Jakie są zalecenia panelu dotyczące książek na temat projektowania eksperymentów? W idealnym przypadku książki powinny być nadal w formie drukowanej lub dostępne w formie elektronicznej, choć nie zawsze jest to możliwe. Jeśli czujesz się poruszony, aby dodać kilka słów o tym, co jest tak dobrego w książce, to też byłoby …

50 references experiment-design

4

Dlaczego ANOVA jest równoważna regresji liniowej?

Czytałem, że ANOVA i regresja liniowa są tym samym. Jak to możliwe, biorąc pod uwagę, że wynikiem ANOVA jest pewna wartość i pewna wartość p, na podstawie których wnioskujesz, czy próbka oznacza, że różne próbki są takie same lub różne.faFFppp Ale zakładając, że średnie nie są równe (odrzuć hipotezę zerową), …

50 regression anova