Statystyki i duże zbiory danych

4

Mam pytanie dotyczące klasyfikacji w ogóle. Niech f będzie klasyfikatorem, który generuje zbiór prawdopodobieństw przy danych danych D. Normalnie można by powiedzieć: cóż, jeśli P (c | D)> 0,5, przypiszemy klasę 1, w przeciwnym razie 0 (niech to będzie binarna Klasyfikacja). Moje pytanie brzmi: co, jeśli się dowiem, że jeśli …

49 machine-learning classification binary-data threshold

1

Jak duży powinien być rozmiar partii dla stochastycznego spadku gradientu?

Rozumiem, że stochastyczne zejście gradientu może być wykorzystane do optymalizacji sieci neuronowej z wykorzystaniem propagacji wstecznej poprzez aktualizację każdej iteracji inną próbką zestawu danych szkoleniowych. Jak duży powinien być rozmiar partii?

49 machine-learning neural-networks gradient-descent backpropagation

4

Dlaczego współczynnik korelacji między zmiennymi losowymi X i XY wynosi zwykle 0,7

Zaczerpnięte z praktycznych statystyk badań medycznych, gdzie Douglas Altman pisze na stronie 285: ... dla dowolnych dwóch wielkości X i Y, X będzie skorelowane z XY. Rzeczywiście, nawet jeśli X i Y są próbkami liczb losowych, spodziewalibyśmy się, że korelacja X i XY wyniesie 0,7 Próbowałem tego w R i …

49 correlation random-variable intuition

2

Jak interpretować porównanie średnich z różnych wielkości próby?

Weźmy pod uwagę oceny książek na stronie internetowej. Książka A jest oceniana przez 10 000 osób ze średnią oceną 4,25 i wariancją . Podobnie Księga B jest oceniana przez 100 osób i ma ocenę 4,5 przy σ = 0,25 .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Teraz ze względu na dużą próbkę …

49 t-test mean sample-size

4

W jaki sposób regresja, test t i ANOVA są wszystkimi wersjami ogólnego modelu liniowego?

Jak wyglądają wszystkie wersje tej samej podstawowej metody statystycznej?

49 regression self-study anova generalized-linear-model t-test

1

Bootstrap kontra scyzoryk

Zarówno metody bootstrap, jak i jackknife mogą być użyte do oszacowania błędu systematycznego i błędu standardowego oszacowania, a mechanizmy obu metod ponownego próbkowania nie różnią się znacznie: próbkowanie z wymianą vs. pomijanie jednej obserwacji na raz. Jednak scyzoryk nie jest tak popularny jak bootstrap w badaniach i praktyce. Czy jest …

49 r confidence-interval bootstrap jackknife

6

Czy „średnia ocena” Amazon jest myląca?

Jeśli dobrze rozumiem, oceny książek w skali 1-5 to wyniki Likerta. Oznacza to, że 3 dla mnie niekoniecznie musi być 3 dla kogoś innego. To IMO w skali porządkowej. Tak naprawdę nie należy uśredniać skal porządkowych, ale zdecydowanie można wybrać tryb, medianę i percentyle. Czy więc „w porządku” jest naginanie …

49 mean ordinal-data likert

3

Dlaczego regresja logistyczna jest klasyfikatorem liniowym?

Skoro używamy funkcji logistycznej do przekształcania liniowej kombinacji danych wejściowych w nieliniowe dane wyjściowe, w jaki sposób regresję logistyczną można uznać za klasyfikator liniowy? Regresja liniowa jest jak sieć neuronowa bez warstwy ukrytej, więc dlaczego sieci neuronowe są uważane za klasyfikatory nieliniowe, a regresja logistyczna jest liniowa?

49 logistic classification neural-networks

4

Ręczne obliczanie wartości P z wartości t w teście t

Mam przykładowy zestaw danych z 31 wartościami. Przeprowadziłem dwustronny test t za pomocą R, aby sprawdzić, czy prawdziwa średnia jest równa 10: t.test(x=data, mu=10, conf.level=0.95) Wynik: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 …

49 r statistical-significance t-test p-value

2

Jaka jest różnica między efektami losowymi, stałymi i marginalnymi?

Staram się poszerzyć swoją wiedzę na temat statystyki. Pochodzę z nauk fizycznych z podejściem opartym na „recepturze” do testowania statystycznego, gdzie, jak mówimy, jest ciągły, czy jest normalnie rozproszony - regresja OLS . W swoim czytaniu natrafiłem na pojęcia: model efektów losowych, model efektów stałych, model marginalny. Moje pytania to: …

49 random-effects-model fixed-effects-model marginal

6

Jaki jest najlepszy sposób na zapamiętanie różnicy między czułością, specyficznością, precyzją, dokładnością i pamięcią?

Pomimo tego, że widziałem te terminy 502847894789 razy, nie mogę przez całe życie zapamiętać różnicy między czułością, swoistością, precyzją, dokładnością i pamięcią. Są to dość proste pojęcia, ale nazwy są dla mnie bardzo nieintuicyjne, więc ciągle się mylę. Jaki jest dobry sposób myślenia o tych pojęciach, aby nazwy zaczęły mieć …

49 terminology accuracy sensitivity-specificity

4

Losowy czas obliczania lasu w R.

Korzystam z pakietu imprezowego w R z 10 000 wierszy i 34 funkcjami, a niektóre funkcje czynnikowe mają ponad 300 poziomów. Czas przetwarzania jest za długi. (Jak dotąd zajęło to 3 godziny i jeszcze się nie skończyło.) Chcę wiedzieć, które elementy mają duży wpływ na czas obliczeń losowego lasu. Czy …

49 r random-forest

1

Wskaźniki wydajności do oceny uczenia się bez nadzoru

Czy w odniesieniu do uczenia się bez nadzoru (takiego jak klastrowanie) istnieją jakieś wskaźniki pozwalające ocenić wydajność?

49 machine-learning clustering data-mining unsupervised-learning

6

Co to są zmienne losowe iid?

Jak poszedłbyś wyjaśnić iid (niezależne i identycznie rozpowszechniane) osobom nietechnicznym?

49 random-variable intuition

4

Czy korelacja = 0,2 oznacza, że istnieje związek „tylko u 1 na 5 osób”?

W książce The Idiot Brain: A Neuroscientist wyjaśnia, na czym polega twoja głowa , napisał Dean Burnett Korelacja między wzrostem a inteligencją jest zwykle cytowana jako około , co oznacza, że wzrost i inteligencja wydają się być powiązane tylko u na osób.0.20.20.2111555 Dla mnie brzmi to źle: rozumiem korelację bardziej …

48 correlation neuroscience