Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

1
Dlaczego moje wartości p różnią się między wynikami regresji logistycznej, testem chi-kwadrat i przedziałem ufności dla OR?
Zbudowałem regresję logistyczną, w której zmienna wynikowa jest leczona po otrzymaniu leczenia ( Curevs. No Cure). Wszyscy pacjenci w tym badaniu zostali poddani leczeniu. Interesuje mnie, czy cukrzyca jest związana z tym wynikiem. W R mój wynik regresji logistycznej wygląda następująco: Call: glm(formula = Cure ~ Diabetes, family = binomial(link …

2
Kiedy t-SNE wprowadza w błąd?
Cytując jednego z autorów: t-Distributed Stochastic Neighbor Embedding (t-SNE) to ( nagradzana ) technika redukcji wymiarowości, która szczególnie dobrze nadaje się do wizualizacji wysokowymiarowych zestawów danych. Brzmi więc całkiem nieźle, ale tak mówi Autor. Kolejny cytat autora (dotyczy: wspomnianego wyżej konkursu): Co zabrałeś z tego konkursu? Zawsze najpierw zwizualizuj swoje …

3
Czy znak wyników lub ładunków w PCA lub FA ma znaczenie? Czy mogę odwrócić znak?
Przeprowadziłem analizę składowych głównych (PCA) z R przy użyciu dwóch różnych funkcji ( prcompi princomp) i zauważyłem, że wyniki PCA różnią się znakiem. Jak to możliwe? Rozważ to: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 …
37 r  pca  factor-analysis 

4
Różnica między prognozą a prognozą?
Zastanawiałem się, jaka jest różnica i związek między prognozą a prognozą? Zwłaszcza w szeregach czasowych i regresji? Na przykład czy mam rację, że: W szeregach czasowych prognozowanie wydaje się oznaczać oszacowanie przyszłych wartości na podstawie przeszłych wartości szeregu czasowego. W regresji przewidywanie wydaje się oznaczać oszacowanie wartości, niezależnie od tego, …

3
Test ładowania początkowego a testowanie permutacji
Istnieje kilka popularnych technik ponownego próbkowania, które są często stosowane w praktyce, takich jak ładowanie, test permutacji, scyzoryk itp. Istnieje wiele artykułów i książek na temat tych technik, na przykład Philip I Good (2010) Permutation, Parametric i Bootstrap Tests hipotez Moje pytanie brzmi, która technika ponownego próbkowania zyskała większą popularność …


5
Analiza szeregów czasowych z walidacją krzyżową
Korzystałem z pakietu Caret w R do budowania modeli predykcyjnych do klasyfikacji i regresji. Caret zapewnia zunifikowany interfejs do dostrajania hiperparametrów modelu poprzez weryfikację krzyżową lub wiązanie rozruchu. Na przykład, jeśli budujesz prosty model „najbliższych sąsiadów” do celów klasyfikacji, ilu sąsiadów powinieneś użyć? 2? 10? 100? Caret pomaga odpowiedzieć na …

2
Jeśli interesująca jest tylko prognoza, po co używać lasso nad grzbietem?
Na stronie 223 we wstępie do nauki statystycznej autorzy podsumowują różnice między regresją grzbietu a lasso. Podają przykład (ryc. 6.9), kiedy „lasso ma tendencję do przewyższania regresji grzbietu pod względem stronniczości, wariancji i MSE”. Rozumiem, dlaczego lasso może być pożądane: skutkuje rzadkimi rozwiązaniami, ponieważ zmniejsza wiele współczynników do 0, co …

8
Jaka jest różnica między prognozowaniem a wnioskowaniem?
Czytam poprzez „ Wprowadzenie do uczenia statystycznego ”. W rozdziale 2 omawiają powód oszacowania funkcji .faff 2.1.1 Dlaczego oszacowanie ?faff Są dwa główne powody, dla których możemy chcieć oszacować f : przewidywanie i wnioskowanie . Każdego z nich dyskutujemy. Przeczytałem go kilka razy, ale nadal jestem częściowo niejasny co do …



1
Dlaczego test Mantela jest lepszy od testu Morana?
Test Mantela jest szeroko stosowany w badaniach biologicznych w celu zbadania korelacji między rozkładem przestrzennym zwierząt (pozycja w przestrzeni) z, na przykład, ich genetycznym spokrewnieniem, szybkością agresji lub innymi atrybutami. Korzysta z niego wiele dobrych czasopism ( PNAS, Animal Behavior, Molecular Ecology ... ). Sfabrykowałem kilka wzorów, które mogą występować …


2
Kto wynalazł stochastyczne zejście gradientu?
Staram się zrozumieć historię zejścia gradientowego i stochastycznego . Gradientowe zejście zostało wynalezione w Cauchy w 1847 roku. Méthode générale pour la résolution des systèmes d'équations symultanes . str. 536–538 Więcej informacji na ten temat można znaleźć tutaj . Od tego czasu metody zejścia gradientowego ciągle się rozwijają i nie …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.