Statystyki i duże zbiory danych

17

Książka kucharska maszynowego uczenia się / karta referencyjna / ściągawka?

Uważam, że zasoby takie jak książka prawdopodobieństwa i statystyki oraz karta referencyjna R do wyszukiwania danych są niezwykle przydatne. Służą oczywiście jako odniesienia, ale także pomagają mi uporządkować myśli na dany temat i uzyskać ukształtowanie terenu. P: Czy istnieją podobne zasoby do metod uczenia maszynowego? Wyobrażam sobie kartę referencyjną, która …

57 machine-learning references

8

Czy kiedykolwiek ma sens traktowanie danych kategorycznych jako ciągłych?

Odpowiadając na to pytanie dotyczące danych dyskretnych i ciągłych , uprzejmie stwierdziłem, że rzadko ma sens traktowanie danych kategorycznych jako ciągłych. Na pierwszy rzut oka wydaje się to oczywiste, ale intuicja jest często kiepskim przewodnikiem statystycznym, a przynajmniej moim. Zastanawiam się teraz: czy to prawda? A może istnieją ustalone analizy, …

57 categorical-data data-transformation ordinal-data continuous-data

2

Regresja Bayesa: jak to się robi w porównaniu do regresji standardowej?

Mam pytania dotyczące regresji bayesowskiej: Biorąc pod uwagę standardową regresję jako . Jeśli chcę zmienić to w regresję bayesowską, czy potrzebuję wcześniejszych dystrybucji zarówno dla β 0, jak i β 1 (czy to nie działa w ten sposób)?y= β0+ β1x + εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 W …

57 regression bayesian

10

Błąd sprawdzania poprawności mniej niż błąd szkolenia?

Znalazłem tu i tutaj dwa pytania dotyczące tego problemu, ale nie ma jeszcze oczywistej odpowiedzi ani wyjaśnienia. Wymuszam ten sam problem, w którym błąd walidacji jest mniejszy niż błąd szkolenia w mojej sieci neuronowej Convolution. Co to znaczy?

57 machine-learning mathematical-statistics neural-networks cross-validation

3

Kiedy odpowiednie są skale dziennika?

Czytałem, że używanie skal logów, gdy wykresy / wykresy są odpowiednie w pewnych okolicznościach, takich jak oś y na wykresie szeregów czasowych. Jednak nie byłem w stanie znaleźć ostatecznego wyjaśnienia, dlaczego tak jest, ani kiedy byłoby to właściwe. Proszę pamiętać, że nie jestem statystykiem, więc mogę zupełnie nie rozumieć tego …

57 data-visualization data-transformation

3

Dlaczego odchylenie standardowe próbki jest stronniczym estymatorem

Zgodnie z artykułem Wikipedii na temat obiektywnej oceny odchylenia standardowego próbka SD s=1n−1∑i=1n(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} jest tendencyjnym estymatorem SD populacji. Stwierdza, że .E(s2−−√)≠E(s2)−−−−−√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB Zmienne losowe są niezależne i każdaxi∼N(μ,σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) Moje pytanie jest dwojakie: Jaki jest dowód stronniczości? Jak obliczyć oczekiwane odchylenie …

57 estimation standard-deviation

7

Wyzwania dla przemysłu i Kaggle. Czy zbieranie większej liczby obserwacji i dostęp do większej liczby zmiennych jest ważniejsze niż fantazyjne modelowanie?

Mam nadzieję, że tytuł jest oczywisty. W Kaggle większość zwycięzców używa układania w stosy z czasami setkami modeli podstawowych, aby wycisnąć kilka dodatkowych% MSE, dokładność ... Ogólnie rzecz biorąc, z twojego doświadczenia wynika, jak ważne jest wymyślne modelowanie, takie jak układanie w stosy, po prostu gromadzenie większej ilości danych i …

56 large-data stacking collecting-data kaggle

9

Czy błędne jest sformułowanie „1 na 80 zgonów jest spowodowany wypadkiem samochodowym”, ponieważ „1 na 80 osób umiera w wyniku wypadku samochodowego?”

Oświadczenie pierwsze (S1): „Jedna na 80 ofiar śmiertelnych jest spowodowana wypadkiem samochodowym”. Oświadczenie drugie (S2): „Jedna na 80 osób umiera w wyniku wypadku samochodowego”. Teraz osobiście nie widzę żadnej różnicy między tymi dwoma stwierdzeniami. Pisząc, uważałbym je za wymienne dla świeckich odbiorców. Jednak dwoje ludzi rzuciło mi obecnie wyzwanie i …

56 interpretation risk

4

Jakie są różnice między PCA a autoencoderem?

Zarówno PCA, jak i autoencoder mogą redukować demensję, więc jaka jest między nimi różnica? W jakiej sytuacji powinienem używać jednego nad drugim?

56 machine-learning pca neural-networks autoencoders

1

Regresja logistyczna w R doprowadziła do idealnej separacji (zjawisko Haucka-Donnera). Co teraz?

Staram się przewidzieć wynik binarny przy użyciu 50 ciągłe zmienne objaśniające (w zakresie od najbardziej zmiennych jest do ∞ ). Mój zestaw danych ma prawie 24 000 wierszy. Kiedy biegnę w R, otrzymuję:- ∞-∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 …

56 r regression logistic separation

6

Regularyzacja L2 jest równoważna z Prior Gaussa

Czytam to i intuicyjnie widzę to, ale jak przejść od regularyzacji L2 do stwierdzenia, że analitycznie jest to Przeor Gaussa? To samo dotyczy twierdzenia, że L1 jest równoważne wcześniejszemu Laplaceanowi. Wszelkie dalsze odniesienia byłyby świetne.

56 regression references regularization

8

Biblioteki R do głębokiego uczenia się

Zastanawiałem się, czy są jakieś dobre biblioteki R do głębokiego uczenia sieci neuronowych? Wiem, że tam jest nnet, neuralneti RSNNS, ale żaden z nich nie wydają się wdrożyć głębokie metod nauczania. Szczególnie interesuje mnie nauka bez nadzoru, a następnie nadzorowane uczenie się, a także rezygnacja z pracy, aby zapobiec wspólnej …

56 r neural-networks deep-learning rbm deep-belief-networks

4

Czy wszystkie wartości w 95% przedziale ufności są równie prawdopodobne?

Znalazłem niezgodne informacje na pytanie: „ Jeśli ktoś konstruuje 95% przedział ufności (CI) różnicy średnich lub różnicy proporcji, czy wszystkie wartości w CI są jednakowo prawdopodobne? Czy też oszacowanie punktowe jest najbardziej prawdopodobne , z wartościami zbliżonymi do „ogonów” CI mniej prawdopodobne niż wartości w środku CI? Na przykład, jeśli …

56 confidence-interval

6

Czy „hybryda” między podejściem Fishera i Neymana-Pearsona do testów statystycznych jest rzeczywiście „niespójnym miszmaszem”?

Istnieje pewna szkoła myślenia, zgodnie z którą najbardziej rozpowszechnionym podejściem do testowania statystycznego jest „hybryda” między dwoma podejściami: podejściem Fishera i podejściem Neymana-Pearsona; te dwa podejścia, jak głosi twierdzenie, są „niezgodne”, a zatem wynikowa „hybryda” jest „niespójnym miszmaszem”. Podam poniżej bibliografię i kilka cytatów, ale na razie wystarczy powiedzieć, że …

56 hypothesis-testing statistical-significance p-value type-i-and-ii-errors history

9

Jak uzyskać wartość p (sprawdzić istotność) efektu w mieszanym modelu Lme4?

Używam lme4 w R, aby dopasować model mieszany lmer(value~status+(1|experiment))) gdzie wartość jest ciągła, status i eksperyment są czynnikami, a ja rozumiem Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance …

56 r hypothesis-testing mixed-model p-value lme4-nlme