Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

17
Książka kucharska maszynowego uczenia się / karta referencyjna / ściągawka?
Uważam, że zasoby takie jak książka prawdopodobieństwa i statystyki oraz karta referencyjna R do wyszukiwania danych są niezwykle przydatne. Służą oczywiście jako odniesienia, ale także pomagają mi uporządkować myśli na dany temat i uzyskać ukształtowanie terenu. P: Czy istnieją podobne zasoby do metod uczenia maszynowego? Wyobrażam sobie kartę referencyjną, która …

8
Czy kiedykolwiek ma sens traktowanie danych kategorycznych jako ciągłych?
Odpowiadając na to pytanie dotyczące danych dyskretnych i ciągłych , uprzejmie stwierdziłem, że rzadko ma sens traktowanie danych kategorycznych jako ciągłych. Na pierwszy rzut oka wydaje się to oczywiste, ale intuicja jest często kiepskim przewodnikiem statystycznym, a przynajmniej moim. Zastanawiam się teraz: czy to prawda? A może istnieją ustalone analizy, …

2
Regresja Bayesa: jak to się robi w porównaniu do regresji standardowej?
Mam pytania dotyczące regresji bayesowskiej: Biorąc pod uwagę standardową regresję jako . Jeśli chcę zmienić to w regresję bayesowską, czy potrzebuję wcześniejszych dystrybucji zarówno dla β 0, jak i β 1 (czy to nie działa w ten sposób)?y= β0+ β1x + εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 W …


3
Kiedy odpowiednie są skale dziennika?
Czytałem, że używanie skal logów, gdy wykresy / wykresy są odpowiednie w pewnych okolicznościach, takich jak oś y na wykresie szeregów czasowych. Jednak nie byłem w stanie znaleźć ostatecznego wyjaśnienia, dlaczego tak jest, ani kiedy byłoby to właściwe. Proszę pamiętać, że nie jestem statystykiem, więc mogę zupełnie nie rozumieć tego …

3
Dlaczego odchylenie standardowe próbki jest stronniczym estymatorem
Zgodnie z artykułem Wikipedii na temat obiektywnej oceny odchylenia standardowego próbka SD s=1n−1∑i=1n(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} jest tendencyjnym estymatorem SD populacji. Stwierdza, że .E(s2−−√)≠E(s2)−−−−−√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB Zmienne losowe są niezależne i każdaxi∼N(μ,σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) Moje pytanie jest dwojakie: Jaki jest dowód stronniczości? Jak obliczyć oczekiwane odchylenie …

7
Wyzwania dla przemysłu i Kaggle. Czy zbieranie większej liczby obserwacji i dostęp do większej liczby zmiennych jest ważniejsze niż fantazyjne modelowanie?
Mam nadzieję, że tytuł jest oczywisty. W Kaggle większość zwycięzców używa układania w stosy z czasami setkami modeli podstawowych, aby wycisnąć kilka dodatkowych% MSE, dokładność ... Ogólnie rzecz biorąc, z twojego doświadczenia wynika, jak ważne jest wymyślne modelowanie, takie jak układanie w stosy, po prostu gromadzenie większej ilości danych i …

9
Czy błędne jest sformułowanie „1 na 80 zgonów jest spowodowany wypadkiem samochodowym”, ponieważ „1 na 80 osób umiera w wyniku wypadku samochodowego?”
Oświadczenie pierwsze (S1): „Jedna na 80 ofiar śmiertelnych jest spowodowana wypadkiem samochodowym”. Oświadczenie drugie (S2): „Jedna na 80 osób umiera w wyniku wypadku samochodowego”. Teraz osobiście nie widzę żadnej różnicy między tymi dwoma stwierdzeniami. Pisząc, uważałbym je za wymienne dla świeckich odbiorców. Jednak dwoje ludzi rzuciło mi obecnie wyzwanie i …


1
Regresja logistyczna w R doprowadziła do idealnej separacji (zjawisko Haucka-Donnera). Co teraz?
Staram się przewidzieć wynik binarny przy użyciu 50 ciągłe zmienne objaśniające (w zakresie od najbardziej zmiennych jest do ∞ ). Mój zestaw danych ma prawie 24 000 wierszy. Kiedy biegnę w R, otrzymuję:- ∞-∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 …


8
Biblioteki R do głębokiego uczenia się
Zastanawiałem się, czy są jakieś dobre biblioteki R do głębokiego uczenia sieci neuronowych? Wiem, że tam jest nnet, neuralneti RSNNS, ale żaden z nich nie wydają się wdrożyć głębokie metod nauczania. Szczególnie interesuje mnie nauka bez nadzoru, a następnie nadzorowane uczenie się, a także rezygnacja z pracy, aby zapobiec wspólnej …

4
Czy wszystkie wartości w 95% przedziale ufności są równie prawdopodobne?
Znalazłem niezgodne informacje na pytanie: „ Jeśli ktoś konstruuje 95% przedział ufności (CI) różnicy średnich lub różnicy proporcji, czy wszystkie wartości w CI są jednakowo prawdopodobne? Czy też oszacowanie punktowe jest najbardziej prawdopodobne , z wartościami zbliżonymi do „ogonów” CI mniej prawdopodobne niż wartości w środku CI? Na przykład, jeśli …

6
Czy „hybryda” między podejściem Fishera i Neymana-Pearsona do testów statystycznych jest rzeczywiście „niespójnym miszmaszem”?
Istnieje pewna szkoła myślenia, zgodnie z którą najbardziej rozpowszechnionym podejściem do testowania statystycznego jest „hybryda” między dwoma podejściami: podejściem Fishera i podejściem Neymana-Pearsona; te dwa podejścia, jak głosi twierdzenie, są „niezgodne”, a zatem wynikowa „hybryda” jest „niespójnym miszmaszem”. Podam poniżej bibliografię i kilka cytatów, ale na razie wystarczy powiedzieć, że …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.