Statystyki i duże zbiory danych

1

Notacja w indeksie dolnym w oczekiwaniach

Jakie jest dokładne znaczenie notacji indeksu dolnego w oczekiwaniach warunkowych w ramach teorii miar? Te indeksy dolne nie pojawiają się w definicji warunkowego oczekiwania, ale możemy zobaczyć na przykład na tej stronie wikipedii . (Pamiętaj, że nie zawsze tak było, ta sama strona kilka miesięcy temu).EX[f(X)]EX[f(X)]\mathbb{E}_X[f(X)] Jakie powinno być na …

64 conditional-expectation notation

3

Kiedy stosować uogólnione równania szacunkowe vs. modele efektów mieszanych?

Od dłuższego czasu całkiem chętnie używam modeli efektów mieszanych z danymi podłużnymi. Chciałbym dopasować relacje AR w mniejszym (myślę, że mam rację, że nie mogę tego zrobić?), Ale nie sądzę, że jest to niezwykle ważne, więc nie martwię się zbytnio. Właśnie natknąłem się na ogólne równania szacunkowe (GEE) i wydają …

63 mixed-model gee

9

Lista sytuacji, w których podejście bayesowskie jest prostsze, bardziej praktyczne lub wygodniejsze

Odbyło się wiele debat w statystykach między Bayesianami a częstymi. Generalnie uważam, że są one raczej odrażające (choć myślę, że to umarło). Z drugiej strony spotkałem kilka osób, które przyjmują całkowicie pragmatyczne spojrzenie na ten problem, mówiąc, że czasem wygodniej jest przeprowadzić analizę częstokroć, a czasem łatwiej przeprowadzić analizę bayesowską. …

63 bayesian frequentist

3

Odnośniki zawierające argumenty przeciwko testowaniu znaczenia hipotezy zerowej?

W ciągu ostatnich kilku lat przeczytałem wiele artykułów opowiadających się przeciwko stosowaniu testowania istotności hipotezy zerowej w nauce, ale nie myślałem o utrzymywaniu trwałej listy. Kolega niedawno poprosił mnie o taką listę, więc pomyślałem, że poproszę wszystkich, aby pomogli ją zbudować. Na początek, oto co mam do tej pory: Johansson …

63 hypothesis-testing statistical-significance references p-value

10

Taleb i Czarny Łabędź

Książka Taleba „Czarny łabędź” była bestsellerem New York Timesa, kiedy ukazała się kilka lat temu. Książka jest teraz w drugim wydaniu. Po spotkaniu ze statystykami na JSM (corocznej konferencji statystycznej), Taleb nieco złagodził swoją krytykę statystyki. Ale głównym założeniem książki jest to, że statystyki nie są zbyt przydatne, ponieważ opierają …

63 extreme-value rare-events

8

Czy po PCA następuje obrót (np. Varimax) nadal PCA?

Próbowałem odtworzyć niektóre badania (używając PCA) z SPSS w R. Z mojego doświadczenia wynika, że principal() funkcja z pakietu psychbyła jedyną funkcją, która się zbliżyła (lub jeśli moja pamięć służy mi dobrze, martwa), aby dopasować wynik. Aby dopasować te same wyniki co w SPSS, musiałem użyć parametru principal(..., rotate = …

63 r spss pca factor-analysis factor-rotation

5

Wyjaśnij różnicę między regresją wielokrotną a regresją wielowymiarową przy minimalnym użyciu symboli / matematyki

Czy regresja wielokrotna i wielowymiarowa jest naprawdę inna? Co to jest i tak wariant?

63 regression multiple-regression terminology multivariate-regression

3

Jaka jest różnica między siecią neuronową a siecią głębokiego przekonania?

Odnoszę wrażenie, że gdy ludzie odnoszą się do sieci „głębokiego przekonania”, że jest to w zasadzie sieć neuronowa, ale bardzo duża. Czy jest to poprawne, czy też sieć głębokich przekonań sugeruje również, że sam algorytm jest inny (tj. Nie ma sieci neuronowej ze sprzężeniem zwrotnym, ale może coś z pętlami …

62 machine-learning neural-networks deep-learning deep-belief-networks

6

Dlaczego algorytm klastrowania k-oznacza używa wyłącznie metryki odległości euklidesowej?

Czy jest jakiś konkretny cel pod względem wydajności lub funkcjonalności, dlaczego algorytm k-średnich nie wykorzystuje na przykład podobieństwa (dis) cosinusa jako metryki odległości, a może jedynie stosować normę euklidesową? Zasadniczo, czy metoda K-oznacza jest zgodna i poprawna, gdy rozważa się lub stosuje inne odległości niż euklidesowe? [Dodane przez @ttnphns. Pytanie …

62 clustering k-means distance-functions euclidean

3

Jak wykreślić przykładowe drzewo z randomForest :: getTree ()? [Zamknięte]

Każdy otrzymał sugestie dotyczące biblioteki lub kodu dotyczące sposobu wykreślenia kilku przykładowych drzew z: getTree(rfobj, k, labelVar=TRUE) (Tak, wiem, że nie powinieneś tego robić operacyjnie, RF to czarna skrzynka itp. Itp. Chcę wizualnie sprawdzić poprawność drzewa, aby zobaczyć, czy jakieś zmienne zachowują się nieintuicyjnie, potrzebuję ulepszenia / połączenia / dyskretyzacji …

62 r data-visualization random-forest cart

4

Założenia dotyczące szacunkowych wartości początkowych niepewności

Doceniam przydatność bootstrapu w uzyskiwaniu oszacowań niepewności, ale jedna rzecz, która zawsze mnie martwiła, to to, że rozkład odpowiadający tym oszacowaniom jest rozkładem zdefiniowanym przez próbkę. Ogólnie rzecz biorąc, wydaje się złym pomysłem, aby wierzyć, że nasze częstotliwości próbkowania wyglądają dokładnie jak rozkład leżący u podstaw, więc dlaczego rozsądne / …

62 bootstrap uncertainty

3

Co oznaczają reszty w regresji logistycznej?

Odpowiadając na to pytanie, John Christie zasugerował, że dopasowanie modeli regresji logistycznej należy oceniać poprzez ocenę reszt. Znam sposób interpretowania reszt w OLS, są one w tej samej skali co DV i bardzo wyraźnie różnica między y przewidywana przez model y. Jednak w przypadku regresji logistycznej w przeszłości zwykle badałem …

62 r logistic generalized-linear-model residuals aic

8

Jeśli A i B są skorelowane z C, dlaczego A i B niekoniecznie są skorelowane?

Wiem empirycznie, że tak jest. Właśnie opracowałem modele, które wpadają w tę zagadkę. Podejrzewam również, że niekoniecznie jest to odpowiedź tak / nie. Rozumiem przez to, że zarówno A, jak i B są skorelowane z C, może to mieć pewne implikacje dotyczące korelacji między A i B. Ale ta implikacja …

62 correlation cross-correlation

8

Bayesianie: niewolnicy funkcji prawdopodobieństwa?

W swojej książce „All of Statistics” prof. Larry Wasserman przedstawia następujący przykład (11.10, strona 188). Załóżmy, że mamy gęstość taką, że , gdzie jest znaną (nieujemną, całkowitą) funkcją, a stała normalizacyjna jest nieznana .faffg c > 0fa( x ) = csol( x )f(x)=cg(x)f(x)=c\,g(x)solggc > 0c>0c>0 Interesują nas te przypadki, w …

62 bayesian mathematical-statistics

10

Jaka jest różnica między danymi dyskretnymi a danymi ciągłymi?

62 continuous-data discrete-data