Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

9
Dlaczego ludzie używają wartości p zamiast obliczać prawdopodobieństwo modelu na podstawie danych?
Z grubsza mówiąc, wartość p daje prawdopodobieństwo zaobserwowanego wyniku eksperymentu, biorąc pod uwagę hipotezę (model). Mając to prawdopodobieństwo (wartość p), chcemy ocenić naszą hipotezę (jak prawdopodobne jest). Ale czy nie byłoby bardziej naturalne obliczanie prawdopodobieństwa hipotezy na podstawie obserwowanego wyniku? Więcej szczegółów Mamy monetę. Odwracamy go 20 razy i otrzymujemy …


3
Uogólnienie Prawa Iterowanych Oczekiwań
Ostatnio natknąłem się na tę tożsamość: E[E(Y|X,Z)|X]=E[Y|X]E[E(Y|X,Z)|X]=E[Y|X]E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right] Oczywiście jestem zaznajomiony z prostszą wersją tej reguły, a mianowicie, że ale nie byłem w stanie znaleźć uzasadnienia dla jego uogólnienie.E[E(Y|X)]=E(Y)E[E(Y|X)]=E(Y)E \left[ E \left(Y|X \right) \right]=E \left(Y\right) Byłbym wdzięczny, gdyby ktoś mógł …

3
Czy można interpretować bootstrap z perspektywy Bayesa?
Ok, to pytanie podtrzymuje mnie w nocy. Czy procedurę ładowania początkowego można interpretować jako przybliżenie niektórych procedur bayesowskich (z wyjątkiem ładowania początkowego bayesowskiego)? Bardzo podoba mi się „interpretacja” statystyki bayesowskiej, którą uważam za całkiem spójną i łatwą do zrozumienia. Jednak mam również słabość do procedury ładowania początkowego, która jest tak …


4
Szkolenie drzewa decyzyjnego względem niezrównoważonych danych
Jestem nowy w eksploracji danych i staram się trenować drzewo decyzyjne względem zestawu danych, który jest wysoce niezrównoważony. Mam jednak problemy ze słabą dokładnością predykcyjną. Dane obejmują studentów studiujących kursy, a zmienną klasową jest status kursu, który ma dwie wartości - Wycofany lub Bieżący. Wiek Pochodzenie etniczne Płeć Oczywiście ... …

3
Metody regularyzacji regresji logistycznej
Regularność za pomocą metod takich jak Ridge, Lasso, ElasticNet jest dość powszechna w przypadku regresji liniowej. Chciałem wiedzieć, co następuje: Czy te metody mają zastosowanie do regresji logistycznej? Jeśli tak, to czy istnieją jakieś różnice w sposobie ich wykorzystania do regresji logistycznej? Jeśli te metody nie mają zastosowania, w jaki …

2
Co to jest maxout w sieci neuronowej?
Czy ktoś może wyjaśnić, co robią jednostki maxout w sieci neuronowej? Jak działają i czym różnią się od konwencjonalnych jednostek? Próbowałem przeczytać artykuł „Maxout Network” z 2013 r. Goodfellow i in. (z grupy profesora Yoshua Bengio), ale nie do końca to rozumiem.


9
Podczas nauczania statystyki używaj „normalnego” czy „gaussowskiego”?
W mojej książce używam głównie „rozkładu Gaussa”, ale ktoś właśnie zasugerował przejście na „rozkład normalny”. Jakiś konsensus, którego terminu użyć dla początkujących? Oczywiście te dwa terminy są synonimami , więc nie jest to pytanie o treść, lecz jedynie kwestia tego, który termin jest częściej używany. I oczywiście używam obu terminów. …


5
Dlaczego średnio każda próbka bootstrap zawiera około dwie trzecie obserwacji?
Mam natknąć się na twierdzeniu, że każda próbka bootstrap (lub workach drzewa) będą zawierały średnio około 2/32/32/3 z obserwacjami. I zrozumieć, że prawdopodobieństwo nie wybiera się w jednym z nnn czerpie nnn próbek z wymianą jest (1−1/n)n(1−1/n)n(1- 1/n)^n , co przekłada się na około 1/31/31/3 przypadek nie zostanie wybrane. Co …
42 bootstrap 

3
Jak wizualizować dopasowany model regresji wielokrotnej?
Obecnie piszę artykuł z kilkoma analizami wielu regresji. Podczas gdy wizualizacja jednoczynnikowej regresji liniowej jest łatwa za pomocą wykresów rozrzutu, zastanawiałem się, czy istnieje jakiś dobry sposób na wizualizację wielu regresji liniowych? Obecnie rysuję wykresy punktowe, takie jak zmienna zależna vs. 1. zmienna niezależna, a następnie 2. zmienna niezależna itp. …

4
Jaka jest różnica między GARCH a ARMA?
Jestem zdezorientowany. Nie rozumiem różnicy między ARiMR a procesem GARCH .. dla mnie są takie same nie? Oto proces (G) ARCH (p, q) σ2)t= α0+ ∑i = 1qαjar2)t - iA R CH.+ ∑i = 1pβjaσ2)t - iG A R CH.σt2=α0+∑i=1qαirt−i2⏟ARCH+∑i=1pβiσt−i2⏟GARCH\sigma_t^2 = \underbrace{ \underbrace{ \alpha_0 + \sum_{i=1}^q \alpha_ir_{t-i}^2} _{ARCH} + \sum_{i=1}^p\beta_i\sigma_{t-i}^2} …
42 arima  garch  finance 

2
Regresja Poissona w celu oszacowania względnego ryzyka wyników binarnych
Krótkie podsumowanie Dlaczego regresja logistyczna (z ilorazami szans) jest częściej stosowana w badaniach kohortowych z wynikami binarnymi, w przeciwieństwie do regresji Poissona (z względnym ryzykiem)? tło Z mojego doświadczenia wynika, że ​​statystyki licencjackie i magisterskie oraz kursy epidemiologiczne na ogół uczą, że do modelowania danych z wynikami binarnymi należy stosować …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.