Statystyki i duże zbiory danych

26

Jaka jest najbardziej wpływowa książka, którą powinien przeczytać każdy statystyk?

Gdybyś mógł cofnąć się w czasie i powiedzieć sobie, że na początku swojej kariery statystycznej chciałbyś przeczytać konkretną książkę, która to książka?

77 references

6

Grupowanie na wyjściu t-SNE

Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie spróbowałem t-SNE (po raz pierwszy), co daje mi dziwny kształt …

77 clustering interpretation k-means tsne

9

Matematyk chce równoważnej wiedzy do stopnia statystyki jakości

Wiem, że ludzie uwielbiają zamknąć duplikaty, więc jestem nie z prośbą o odniesienie się rozpocząć statystyki nauki (jak tutaj ). Mam doktorat z matematyki, ale nigdy nie uczyłem się statystyki. Jaka jest najkrótsza droga do równoważnej wiedzy do najwyższego stopnia statystyki BS i jak mam zmierzyć, kiedy to osiągnęłam. Jeśli …

77 references careers

5

Weryfikacja krzyżowa zwykłym angielskim?

Jak opisałbyś walidację krzyżową komuś bez doświadczenia w analizie danych?

77 cross-validation

7

Jakie są „duże problemy” w statystyce?

Matematyka ma swoje słynne problemy milenijne (i historycznie Hilberta 23 ), pytania, które pomogły kształtować kierunek w tej dziedzinie. Nie mam jednak pojęcia, jakie byłyby hipotezy Riemanna i P vs. NP statystyki. Więc jakie są nadrzędne otwarte pytania w statystyce? Zredagowano, aby dodać: Jako przykład ogólnego ducha odpowiedzi (jeśli nie …

77 history

14

Co oznacza „Wszystkie modele są złe, ale niektóre są przydatne”

„Zasadniczo wszystkie modele są błędne, ale niektóre są przydatne”. --- Box, George EP; Norman R. Draper (1987). Empiryczne budowanie modeli i powierzchnie reakcji, str. 424, Wiley. ISBN 0471810339. Jakie jest dokładnie znaczenie powyższej frazy?

76 modeling

5

Jakie są nowoczesne, łatwe w użyciu alternatywy dla regresji stopniowej?

Mam zestaw danych z około 30 zmiennymi niezależnymi i chciałbym zbudować uogólniony model liniowy (GLM) w celu zbadania zależności między nimi a zmienną zależną. Wiem, że metoda, której nauczono mnie w tej sytuacji, stopniowa regresja, jest obecnie uważana za grzech statystyczny . Jakie nowoczesne metody wyboru modelu należy zastosować w …

76 regression generalized-linear-model model-selection stepwise-regression

3

Wybór funkcji i walidacja krzyżowa

Ostatnio dużo czytałem na tej stronie (@Aniko, @Dikran Marsupial, @Erik) i gdzie indziej na temat problemu nadmiaru występującego przy krzyżowej walidacji - (Smialowski i in. 2010 Bioinformatics, Hastie, Elementy uczenia statystycznego). Sugeruje się, że każdy nadzorowany wybór funkcji (przy użyciu korelacji z etykietami klas) wykonywany poza oszacowaniem wydajności modelu za …

76 cross-validation feature-selection

1

Pomóż mi zrozumieć Maszyny wektorowe wsparcia

Rozumiem podstawy tego, czym jest cel Maszyn Wektorów Wsparcia w zakresie klasyfikacji zestawu danych wejściowych na kilka różnych klas, ale nie rozumiem niektórych drobiazgowych szczegółów. Po pierwsze, jestem nieco zdezorientowany użyciem Zmiennych Slack. Jaki jest ich cel? Robię problem z klasyfikacją, w którym zarejestrowałem odczyty ciśnienia z czujników umieszczonych na …

76 machine-learning classification svm

6

Wybór funkcji dla „ostatecznego” modelu podczas weryfikacji krzyżowej w uczeniu maszynowym

Trochę się mylę co do wyboru funkcji i uczenia maszynowego i zastanawiałem się, czy możesz mi pomóc. Mam zestaw danych mikromacierzy, który jest podzielony na dwie grupy i ma tysiące funkcji. Moim celem jest uzyskanie niewielkiej liczby genów (moich cech) (10–20) w sygnaturze, którą teoretycznie będę mógł zastosować do innych …

76 machine-learning classification cross-validation feature-selection genetics

3

Dlaczego Lasso zapewnia wybór zmiennych?

Czytałem Elementy uczenia statystycznego i chciałbym wiedzieć, dlaczego Lasso zapewnia wybór zmiennych, a regresja grzbietu nie. Obie metody minimalizują resztkową sumę kwadratów i ograniczają możliwe wartości parametrów . W przypadku Lasso ograniczenie wynosi , podczas gdy dla kalenicy jest to , dla niektórych .ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt Widziałem w …

76 regression feature-selection lasso regularization

3

Dlaczego regresja logistyczna nie jest nazywana klasyfikacją logistyczną?

Ponieważ regresja logistyczna jest statystycznym modelem klasyfikacji zajmującym się zmiennymi zależnymi kategorycznie, dlaczego nie nazywa się to klasyfikacją logistyczną ? Czy nazwa „regresji” nie powinna być zarezerwowana dla modeli zajmujących się ciągłymi zmiennymi zależnymi?

75 regression machine-learning logistic classification terminology

3

Najlepszy sposób na zaprezentowanie losowego lasu w publikacji?

Używam algorytmu losowego lasu jako solidnego klasyfikatora dwóch grup w badaniu mikromacierzy z tysiącami funkcji. Jaki jest najlepszy sposób przedstawienia losowego lasu, aby było wystarczająco dużo informacji, aby można go było odtworzyć w formie papierowej? Czy istnieje metoda kreślenia w R, która faktycznie drukuje drzewo, jeśli istnieje niewielka liczba funkcji? …

75 r machine-learning classification random-forest microarray

5

Proszę wyjaśnić paradoks oczekiwania

Kilka lat temu zaprojektowałem detektor promieniowania, który działa na podstawie pomiaru odstępu między zdarzeniami, a nie ich liczenia. Moje założenie było takie, że mierząc niesąsiadujące próbki, średnio mierzyłbym połowę rzeczywistego przedziału. Jednak kiedy testowałem obwód ze skalibrowanym źródłem, odczyt był dwa razy za wysoki, co oznaczało, że mierzyłem pełny interwał. …

75 poisson-process paradox

3

Diagnostyka regresji logistycznej?

W przypadku regresji liniowej możemy sprawdzić wykresy diagnostyczne (wykresy resztek, normalne wykresy QQ itp.), Aby sprawdzić, czy naruszone są założenia regresji liniowej. W przypadku regresji logistycznej mam problem ze znalezieniem zasobów wyjaśniających, jak zdiagnozować dopasowanie modelu regresji logistycznej. Po wykopaniu niektórych notatek o kursie dla GLM stwierdza się po prostu, …

74 regression logistic