Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

1
Notacja w indeksie dolnym w oczekiwaniach
Jakie jest dokładne znaczenie notacji indeksu dolnego w oczekiwaniach warunkowych w ramach teorii miar? Te indeksy dolne nie pojawiają się w definicji warunkowego oczekiwania, ale możemy zobaczyć na przykład na tej stronie wikipedii . (Pamiętaj, że nie zawsze tak było, ta sama strona kilka miesięcy temu).EX[f(X)]EX[f(X)]\mathbb{E}_X[f(X)] Jakie powinno być na …


9
Lista sytuacji, w których podejście bayesowskie jest prostsze, bardziej praktyczne lub wygodniejsze
Odbyło się wiele debat w statystykach między Bayesianami a częstymi. Generalnie uważam, że są one raczej odrażające (choć myślę, że to umarło). Z drugiej strony spotkałem kilka osób, które przyjmują całkowicie pragmatyczne spojrzenie na ten problem, mówiąc, że czasem wygodniej jest przeprowadzić analizę częstokroć, a czasem łatwiej przeprowadzić analizę bayesowską. …

3
Odnośniki zawierające argumenty przeciwko testowaniu znaczenia hipotezy zerowej?
W ciągu ostatnich kilku lat przeczytałem wiele artykułów opowiadających się przeciwko stosowaniu testowania istotności hipotezy zerowej w nauce, ale nie myślałem o utrzymywaniu trwałej listy. Kolega niedawno poprosił mnie o taką listę, więc pomyślałem, że poproszę wszystkich, aby pomogli ją zbudować. Na początek, oto co mam do tej pory: Johansson …

10
Taleb i Czarny Łabędź
Książka Taleba „Czarny łabędź” była bestsellerem New York Timesa, kiedy ukazała się kilka lat temu. Książka jest teraz w drugim wydaniu. Po spotkaniu ze statystykami na JSM (corocznej konferencji statystycznej), Taleb nieco złagodził swoją krytykę statystyki. Ale głównym założeniem książki jest to, że statystyki nie są zbyt przydatne, ponieważ opierają …

8
Czy po PCA następuje obrót (np. Varimax) nadal PCA?
Próbowałem odtworzyć niektóre badania (używając PCA) z SPSS w R. Z mojego doświadczenia wynika, że principal() funkcja z pakietu psychbyła jedyną funkcją, która się zbliżyła (lub jeśli moja pamięć służy mi dobrze, martwa), aby dopasować wynik. Aby dopasować te same wyniki co w SPSS, musiałem użyć parametru principal(..., rotate = …


3
Jaka jest różnica między siecią neuronową a siecią głębokiego przekonania?
Odnoszę wrażenie, że gdy ludzie odnoszą się do sieci „głębokiego przekonania”, że jest to w zasadzie sieć neuronowa, ale bardzo duża. Czy jest to poprawne, czy też sieć głębokich przekonań sugeruje również, że sam algorytm jest inny (tj. Nie ma sieci neuronowej ze sprzężeniem zwrotnym, ale może coś z pętlami …

6
Dlaczego algorytm klastrowania k-oznacza używa wyłącznie metryki odległości euklidesowej?
Czy jest jakiś konkretny cel pod względem wydajności lub funkcjonalności, dlaczego algorytm k-średnich nie wykorzystuje na przykład podobieństwa (dis) cosinusa jako metryki odległości, a może jedynie stosować normę euklidesową? Zasadniczo, czy metoda K-oznacza jest zgodna i poprawna, gdy rozważa się lub stosuje inne odległości niż euklidesowe? [Dodane przez @ttnphns. Pytanie …

3
Jak wykreślić przykładowe drzewo z randomForest :: getTree ()? [Zamknięte]
Każdy otrzymał sugestie dotyczące biblioteki lub kodu dotyczące sposobu wykreślenia kilku przykładowych drzew z: getTree(rfobj, k, labelVar=TRUE) (Tak, wiem, że nie powinieneś tego robić operacyjnie, RF to czarna skrzynka itp. Itp. Chcę wizualnie sprawdzić poprawność drzewa, aby zobaczyć, czy jakieś zmienne zachowują się nieintuicyjnie, potrzebuję ulepszenia / połączenia / dyskretyzacji …

4
Założenia dotyczące szacunkowych wartości początkowych niepewności
Doceniam przydatność bootstrapu w uzyskiwaniu oszacowań niepewności, ale jedna rzecz, która zawsze mnie martwiła, to to, że rozkład odpowiadający tym oszacowaniom jest rozkładem zdefiniowanym przez próbkę. Ogólnie rzecz biorąc, wydaje się złym pomysłem, aby wierzyć, że nasze częstotliwości próbkowania wyglądają dokładnie jak rozkład leżący u podstaw, więc dlaczego rozsądne / …

3
Co oznaczają reszty w regresji logistycznej?
Odpowiadając na to pytanie, John Christie zasugerował, że dopasowanie modeli regresji logistycznej należy oceniać poprzez ocenę reszt. Znam sposób interpretowania reszt w OLS, są one w tej samej skali co DV i bardzo wyraźnie różnica między y przewidywana przez model y. Jednak w przypadku regresji logistycznej w przeszłości zwykle badałem …


8
Bayesianie: niewolnicy funkcji prawdopodobieństwa?
W swojej książce „All of Statistics” prof. Larry Wasserman przedstawia następujący przykład (11.10, strona 188). Załóżmy, że mamy gęstość taką, że , gdzie jest znaną (nieujemną, całkowitą) funkcją, a stała normalizacyjna jest nieznana .faffg c > 0fa( x ) = csol( x )f(x)=cg(x)f(x)=c\,g(x)solggc > 0c>0c>0 Interesują nas te przypadki, w …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.