Statystyki i duże zbiory danych

1

Czy podczas transformowania zmiennych musisz używać tej samej transformacji? Na przykład mogę wybrać i wybrać zmienne transformowane, jak w: Niech będzie wiekiem, długością zatrudnienia, długością pobytu i dochodem.x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) A może musisz być spójny ze swoimi transformacjami i używać tego samego? Jak w: Y …

41 r regression logistic data-transformation

3

Jaki jest rozkład odległości euklidesowej między dwiema losowymi zmiennymi o normalnym rozkładzie?

Załóżmy, że otrzymujesz dwa obiekty, których dokładne lokalizacje są nieznane, ale są rozmieszczone zgodnie z normalnymi rozkładami o znanych parametrach (np. i b ∼ N ( v , t ) ) . Można założyć, obie są normalne dwuwymiarowe, takie, że pozycje są opisane przez rozkład w ( x , y …

41 normal-distribution distance-functions

4

Jakie odniesienia należy przytoczyć, aby poprzeć użycie 30 jako wystarczająco dużej próbki?

Wielokrotnie czytałem / słyszałem, że wielkość próbki co najmniej 30 jednostek jest uważana za „dużą próbkę” (założenia dotyczące normalności środków zwykle w przybliżeniu zachowują się z powodu CLT, ...). Dlatego w moich eksperymentach zwykle generuję próbki 30 jednostek. Czy możesz podać mi odniesienie, które należy zacytować, gdy używasz próbki o …

41 references sample-size normality-assumption central-limit-theorem rule-of-thumb

8

Jak mogę sprawdzić, czy dane próbki są pobierane z rozkładu Poissona?

Znam testy normalności, ale jak mam przetestować „Poissona”? Mam próbkę ~ 1000 nieujemnych liczb całkowitych, które, jak podejrzewam, pochodzą z rozkładu Poissona i chciałbym to przetestować.

41 hypothesis-testing distributions poisson-distribution goodness-of-fit

13

Dlaczego średni wiek jest lepszą statystyką niż średni wiek?

Jeśli spojrzysz na Wolfram Alpha Lub ta strona w Wikipedii Lista krajów według mediany wieku Wyraźnie mediana wydaje się być statystyką wyboru, jeśli chodzi o wiek. Nie jestem w stanie wyjaśnić sobie, dlaczego średnia arytmetyczna byłaby gorszą statystyką. Dlaczego tak jest Pierwotnie opublikowane tutaj, ponieważ nie wiedziałem, że ta strona …

41 mean median

4

Dlaczego zerowa korelacja niekoniecznie oznacza niezależność

Jeśli dwie zmienne mają korelację 0, to dlaczego niekoniecznie są one niezależne? Czy zmienne skorelowane z zerami są niezależne w szczególnych okolicznościach? Jeśli to możliwe, szukam intuicyjnego wyjaśnienia, a nie wysoce technicznego.

41 correlation independence

1

Jak interpretować miary błędów?

Korzystam z klasyfikowania w Weka dla określonego zestawu danych i zauważyłem, że jeśli próbuję przewidzieć wartość nominalną, dane wyjściowe wyraźnie pokazują prawidłowe i niepoprawne wartości. Jednak teraz uruchamiam go dla atrybutu liczbowego, a wynikiem jest: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error …

41 machine-learning error weka mse rms

5

Praktyczna optymalizacja hiperparametrów: wyszukiwanie losowe vs. siatka

Obecnie przechodzę przez Losowe wyszukiwanie Bengio i Bergsta w celu optymalizacji hiperparametrów [1], w którym autorzy twierdzą, że losowe wyszukiwanie jest bardziej wydajne niż wyszukiwanie siatkowe w osiąganiu w przybliżeniu jednakowej wydajności. Moje pytanie brzmi: czy ludzie tutaj zgadzają się z tym twierdzeniem? W swojej pracy korzystałem z wyszukiwania siatki …

41 machine-learning hyperparameter optimization

3

Jaka jest różnica między rozkładem normalnym a rozkładem Gaussa

Czy istnieje głęboka różnica między rozkładem normalnym a rozkładem Gaussa, widziałem wiele dokumentów, które używają ich bez różnicy, i zwykle nazywam je również tym samym. Jednak mój PI niedawno powiedział mi, że normalny jest szczególnym przypadkiem Gaussa ze średnią = 0 i std = 1, co słyszałem również jakiś czas …

41 normal-distribution terminology

9

Jak interpretować wartości pomiaru F?

Chciałbym wiedzieć, jak interpretować różnicę wartości miary. Wiem, że miara f jest zrównoważonym środkiem między precyzją a pamięcią, ale pytam o praktyczne znaczenie różnicy w miarach F. Na przykład, jeśli klasyfikator C1 ma dokładność 0,4, a inny klasyfikator C2 dokładność 0,8, wówczas możemy powiedzieć, że C2 poprawnie sklasyfikował podwójność przykładów …

41 classification precision-recall

5

Czym różnią się oceny skłonności od dodawania zmiennych towarzyszących w regresji i kiedy są one preferowane w stosunku do tej ostatniej?

Przyznaję, że jestem stosunkowo nowy w ocenach skłonności i analizie przyczynowej. Jedną z rzeczy, która nie jest dla mnie oczywista jako nowicjusz, jest to, że „równoważenie” za pomocą wyników skłonności różni się matematycznie od tego, co dzieje się, gdy dodamy zmienne towarzyszące w regresji? Czym różni się operacja i dlaczego …

41 regression multivariate-analysis causality propensity-scores

1

W jaki sposób softmax_cross_entropy_with_logits różni się od softmax_cross_entropy_with_logits_v2?

W szczególności zastanawiam się nad tym stwierdzeniem: Przyszłe główne wersje TensorFlow domyślnie umożliwią przepływ gradientów do danych wejściowych na etykietach. Który jest wyświetlany, gdy używam tf.nn.softmax_cross_entropy_with_logits. W tym samym komunikacie zachęca mnie do przyjrzenia się tf.nn.softmax_cross_entropy_with_logits_v2. Przejrzałem dokumentację, ale stwierdza tylko, że dla tf.nn.softmax_cross_entropy_with_logits_v2: Propagacja wstąpi na logi i etykiety. …

41 machine-learning supervised-learning tensorflow backpropagation

6

Losowy las - jak radzić sobie z przeuczeniem

Mam wykształcenie informatyczne, ale staram się uczyć danych, rozwiązując problemy w Internecie. Pracowałem nad tym problemem przez ostatnie kilka tygodni (około 900 wierszy i 10 funkcji). Początkowo korzystałem z regresji logistycznej, ale teraz przerzuciłem się na losowe lasy. Kiedy uruchamiam mój przypadkowy model lasu na danych treningowych, otrzymuję naprawdę wysokie …

41 random-forest overfitting

3

Jak obliczyć

Załóżmy, że ϕ(⋅)ϕ(⋅)\phi(\cdot) i Φ(⋅)Φ(⋅)\Phi(\cdot) są funkcją gęstości i funkcją rozkładu standardowego rozkładu normalnego. Jak obliczyć całkę: ∫∞−∞Φ(w−ab)ϕ(w)dw∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

41 mathematical-statistics normal-distribution integral

3

Czy niezależność statystyczna oznacza brak związku przyczynowego?

Dwie losowe zmienne A i B są statystycznie niezależne. Oznacza to, że w DAG procesu: i oczywiście P ( A | B ) = P ( A ) . Ale czy to oznacza również, że nie ma drzwi od B do A?( A ⊥⊥ B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P.( A | B …

40 independence causality bayesian-network dag