Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych






2
Miary o zmiennym znaczeniu w losowych lasach
Bawiłem się losowymi lasami w celu regresji i mam trudności z ustaleniem, co dokładnie oznaczają dwie miary ważności i jak należy je interpretować. importance()Funkcja daje dwie wartości dla każdej zmiennej: %IncMSEa IncNodePurity. Czy istnieją proste interpretacje tych 2 wartości? W IncNodePurityszczególności, czy jest to po prostu kwota wzrostu RSS po …

3
Jak interpretować wartość F i p w ANOVA?
Jestem nowy w statystyce i obecnie zajmuję się ANOVA. Przeprowadzam test ANOVA w R. używając aov(dependendVar ~ IndependendVar) Dostaję - między innymi - wartość F i wartość p. Moja hipoteza ( ) jest taka, że ​​wszystkie średnie grupowe są równe.H.0H.0H_0 Dostępnych jest wiele informacji na temat sposobu obliczania F , …

4
Regresja logistyczna w R (iloraz szans)
Próbuję przeprowadzić analizę regresji logistycznej w R. Brałem udział w kursach obejmujących ten materiał przy użyciu STATA. Bardzo trudno jest mi powielić funkcjonalność R. Czy w tym obszarze jest dojrzały? Wydaje się, że dostępna jest niewielka dokumentacja lub wytyczne. Wydawanie wyników ilorazu szans wydaje się wymagać instalacji epicalci / lub …
40 r  logistic  odds-ratio 

3
Empiryczny związek między średnią, medianą i trybem
W przypadku unimodalnego rozkładu, który jest umiarkowanie wypaczony, mamy następującą empiryczną zależność między średnią, medianą i trybem: Jak uzyskano ten związek?(Mean - Mode) ∼ 3(Średnia - mediana)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Czy Karl Pearson opracował tysiące takich relacji przed sformułowaniem takiego wniosku, czy też …

7
Normalizacja i standaryzacja danych w sieciach neuronowych
Próbuję przewidzieć wynik złożonego układu wykorzystującego sieci neuronowe (ANN). Wartości wyników (zależne) wynoszą od 0 do 10 000. Różne zmienne wejściowe mają różne zakresy. Wszystkie zmienne mają z grubsza normalne rozkłady. Rozważam różne opcje skalowania danych przed treningiem. Jedną z opcji jest skalowanie wejściowych (niezależnych) i wyjściowych (zależnych) zmiennych do …

3
Czy istnieją przypadki, w których PCA jest bardziej odpowiednie niż t-SNE?
Chcę zobaczyć, jak 7 miar zachowania korekty tekstu (czas spędzony na poprawianiu tekstu, liczba naciśnięć klawiszy itp.) Odnoszą się do siebie. Miary są skorelowane. Uruchomiłem PCA, aby zobaczyć, jak miary rzutują się na PC1 i PC2, co pozwoliło uniknąć nakładania się osobnych testów dwukierunkowej korelacji między miarami. Zapytano mnie, dlaczego …
39 pca  tsne 




7
Czy Bayesian przyznałby, że istnieje jedna stała wartość parametru?
W analizie danych bayesowskich parametry są traktowane jak zmienne losowe. Wynika to z bayesowskiej subiektywnej koncepcji prawdopodobieństwa. Ale czy Bayesianie teoretycznie uznają, że istnieje jedna prawdziwa stała wartość parametru w „prawdziwym świecie”? Wydaje się, że oczywistą odpowiedzią jest „tak”, ponieważ wówczas próba oszacowania parametru byłaby prawie bezsensowna. Docenione byłoby cytowanie …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.