Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

3
Czy PCA będzie działać dla typów danych boolowskich (binarnych)?
Chcę zmniejszyć wymiarowość układów wyższego rzędu i uchwycić większość kowariancji na polu najlepiej dwuwymiarowym lub jednowymiarowym. Rozumiem, że można to zrobić za pomocą analizy głównych składników, i używałem PCA w wielu scenariuszach. Jednak nigdy nie użyłem go z typami danych boolowskich i zastanawiałem się, czy warto robić PCA z tym …

3
Wytyczna wyboru hiperparametrów w głębokim uczeniu się
Szukam artykułu, który mógłby pomóc w wytyczeniu sposobu wyboru hiperparametrów głębokiej architektury, takich jak piętrowe auto-kodery lub sieci głęboko wierzące. Istnieje wiele hiperparametrów i jestem bardzo zdezorientowany, jak je wybrać. Również stosowanie weryfikacji krzyżowej nie jest opcją, ponieważ szkolenie naprawdę zajmuje dużo czasu!

1
Jaka jest wariancja ważonej mieszanki dwóch gaussów?
Powiedzieć, że mają dwa normalnych rozkładów A i B ze środkami i i wariancje i . Chcę wziąć ważoną mieszaninę tych dwóch rozkładów przy użyciu wag i gdzie i . Wiem, że średnia tej mieszaniny to .μAμA\mu_AμBμB\mu_BσAσA\sigma_AσBσB\sigma_Bpppqqq0≤p≤10≤p≤10\le p \le 1q=1−pq=1−pq = 1-pμAB=(p×μA)+(q×μB)μAB=(p×μA)+(q×μB)\mu_{AB} = (p\times\mu_A) + (q\times\mu_B) Jaka byłaby ta wariancja? …

1
Ręcznie obliczone
Wiem, że jest to dość specyficzne Rpytanie, ale mogę myśleć o wariancji proporcji wyjaśnionej, , niepoprawnie. Tutaj idzie.R2R2R^2 Próbuję użyć Rpakietu randomForest. Mam trochę danych treningowych i danych testowych. Po dopasowaniu losowego modelu lasu randomForestfunkcja umożliwia wprowadzenie nowych danych testowych do przetestowania. Następnie podaje procent wariancji wyjaśniony w tych nowych …

3
Uczenie się online czy offline?
Jaka jest różnica między nauką offline i online ? Czy to tylko kwestia uczenia się w całym zestawie danych (offline) czy uczenia się przyrostowo (jedna instancja na raz)? Jakie są przykłady algorytmów używanych w obu?

3
Zastosuj osadzanie wyrazów do całego dokumentu, aby uzyskać wektor cech
Jak użyć osadzania wyrazów, aby zamapować dokument na wektor cech, odpowiedni do zastosowania w uczeniu nadzorowanym? Słowo osadzanie odwzorowuje każdy wyraz www w wektor v∈Rdv∈Rdv \in \mathbb{R}^d , gdzie ddd jest około niezbyt dużą ilość (na przykład 500). Popularne osadzanie słów to word2vec i Glove . Chcę zastosować nadzorowaną naukę …

2
Testy A / B: test Z vs test t vs chi kwadrat vs dokładny test Fishera
Próbuję zrozumieć rozumowanie, wybierając konkretne podejście testowe, gdy mamy do czynienia z prostym testem A / B - (tj. Dwie odmiany / grupy z odpowiedzią binarną (przekształconą lub nie). Jako przykład wykorzystam poniższe dane Version Visits Conversions A 2069 188 B 1826 220 Najlepsza odpowiedź tutaj jest świetna i mówi …

4
Czym jest niezmienność translacji w wizji komputerowej i splotowej sieci neuronowej?
Nie mam tła z zakresu widzenia komputerowego, ale kiedy czytam artykuły i artykuły dotyczące przetwarzania obrazów i splotowych sieci neuronowych, ciągle spotykam się z tym terminem translation invariance, lub translation invariant. Czy czytam dużo, że zapewnia to konwolucja translation invariance? !! co to znaczy? Sam zawsze tłumaczyłem to sobie, jakby …

3
Jakie są różnice między „epoką”, „partią” i „minibatchem”?
O ile wiem, przyjmując Stochastic Gradient Descent jako algorytm uczenia się, ktoś używa „epoki” dla pełnego zestawu danych i „partii” dla danych wykorzystywanych w jednym kroku aktualizacji, podczas gdy inny używa odpowiednio „partii” i „minibatchu”, oraz inni używają „epoki” i „minibatchu”. To powoduje wiele zamieszania podczas dyskusji. Jakie jest prawidłowe …

1
Analiza PCA i korespondencji w odniesieniu do Biplot
Biplot jest często używany do wyświetlania wyników analizy głównych składników (i powiązanych technik). Jest to podwójny lub nakładkowy wykres rozrzutu pokazujący obciążenia komponentów i oceny komponentów jednocześnie. @Amoeba poinformował mnie dzisiaj, że udzielił odpowiedzi odbiegającej od mojego komentarza do pytania, które dotyczy tego, w jaki sposób współrzędne biplot są produkowane …

3
Losowa liczba Ustaw. Nasiona (N) w R [duplikat]
To pytanie ma już odpowiedź tutaj: Czym dokładnie jest ziarno w generatorze liczb losowych? 3 odpowiedzi Zdaję sobie sprawę, że używa się set.seed()w R do generowania liczb pseudolosowych. Zdaję sobie również sprawę z tego, że używając tego samego numeru, np. set.seed(123)Ubezpieczenia, możesz odtwarzać wyniki. Ale nie rozumiem, co oznaczają same …

2
Interpretacja wyniku R dla regresji dwumianowej
Jestem całkiem nowy z dwumianowymi testami danych, ale musiałem to zrobić, a teraz nie jestem pewien, jak interpretować wynik. Zmienna y, zmienna odpowiedzi, jest dwumianowa, a czynniki objaśniające są ciągłe. Oto co otrzymałem podsumowując wynik: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q …

3
Wyprowadzić wariancję współczynnika regresji w prostej regresji liniowej
W prostej regresji liniowej mamy y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + u , gdzie u∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2) . Wyprowadziłem estymator: β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , gdziex¯x¯\bar{x} iy¯y¯\bar{y} to średnie próbkixxxiyyy. Teraz chcę, aby znaleźć wariancję beta 1 . …


3
Wariancja -krotnie szacunki krzyżowej walidacji jako : jaka jest rola „stabilności”?
TL, DR: Wydaje się, że wbrew często powtarzanym zaleceniom, krzyżowa walidacja typu „jeden do jednego” (LOO-CV) - to znaczy,krotnie CV z(liczbą fałdów) równą(liczba obserwacji treningowych) - daje oszacowania błędu uogólnienia, które są najmniej zmienne dla dowolnego, a nie najbardziej zmienne, przy założeniu pewnegowarunku stabilności w modelu / algorytmie, zestawie danych …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.