Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych


6
Grupowanie na wyjściu t-SNE
Mam aplikację, w której przydałoby się skupić hałaśliwy zestaw danych przed wyszukaniem efektów podgrup w klastrach. Najpierw spojrzałem na PCA, ale potrzeba około 30 komponentów, aby uzyskać 90% zmienności, więc grupowanie tylko na kilku komputerach PC wyrzuci wiele informacji. Następnie spróbowałem t-SNE (po raz pierwszy), co daje mi dziwny kształt …

9
Matematyk chce równoważnej wiedzy do stopnia statystyki jakości
Wiem, że ludzie uwielbiają zamknąć duplikaty, więc jestem nie z prośbą o odniesienie się rozpocząć statystyki nauki (jak tutaj ). Mam doktorat z matematyki, ale nigdy nie uczyłem się statystyki. Jaka jest najkrótsza droga do równoważnej wiedzy do najwyższego stopnia statystyki BS i jak mam zmierzyć, kiedy to osiągnęłam. Jeśli …


7
Jakie są „duże problemy” w statystyce?
Matematyka ma swoje słynne problemy milenijne (i historycznie Hilberta 23 ), pytania, które pomogły kształtować kierunek w tej dziedzinie. Nie mam jednak pojęcia, jakie byłyby hipotezy Riemanna i P vs. NP statystyki. Więc jakie są nadrzędne otwarte pytania w statystyce? Zredagowano, aby dodać: Jako przykład ogólnego ducha odpowiedzi (jeśli nie …
77 history 


5
Jakie są nowoczesne, łatwe w użyciu alternatywy dla regresji stopniowej?
Mam zestaw danych z około 30 zmiennymi niezależnymi i chciałbym zbudować uogólniony model liniowy (GLM) w celu zbadania zależności między nimi a zmienną zależną. Wiem, że metoda, której nauczono mnie w tej sytuacji, stopniowa regresja, jest obecnie uważana za grzech statystyczny . Jakie nowoczesne metody wyboru modelu należy zastosować w …

3
Wybór funkcji i walidacja krzyżowa
Ostatnio dużo czytałem na tej stronie (@Aniko, @Dikran Marsupial, @Erik) i gdzie indziej na temat problemu nadmiaru występującego przy krzyżowej walidacji - (Smialowski i in. 2010 Bioinformatics, Hastie, Elementy uczenia statystycznego). Sugeruje się, że każdy nadzorowany wybór funkcji (przy użyciu korelacji z etykietami klas) wykonywany poza oszacowaniem wydajności modelu za …

1
Pomóż mi zrozumieć Maszyny wektorowe wsparcia
Rozumiem podstawy tego, czym jest cel Maszyn Wektorów Wsparcia w zakresie klasyfikacji zestawu danych wejściowych na kilka różnych klas, ale nie rozumiem niektórych drobiazgowych szczegółów. Po pierwsze, jestem nieco zdezorientowany użyciem Zmiennych Slack. Jaki jest ich cel? Robię problem z klasyfikacją, w którym zarejestrowałem odczyty ciśnienia z czujników umieszczonych na …

6
Wybór funkcji dla „ostatecznego” modelu podczas weryfikacji krzyżowej w uczeniu maszynowym
Trochę się mylę co do wyboru funkcji i uczenia maszynowego i zastanawiałem się, czy możesz mi pomóc. Mam zestaw danych mikromacierzy, który jest podzielony na dwie grupy i ma tysiące funkcji. Moim celem jest uzyskanie niewielkiej liczby genów (moich cech) (10–20) w sygnaturze, którą teoretycznie będę mógł zastosować do innych …

3
Dlaczego Lasso zapewnia wybór zmiennych?
Czytałem Elementy uczenia statystycznego i chciałbym wiedzieć, dlaczego Lasso zapewnia wybór zmiennych, a regresja grzbietu nie. Obie metody minimalizują resztkową sumę kwadratów i ograniczają możliwe wartości parametrów . W przypadku Lasso ograniczenie wynosi , podczas gdy dla kalenicy jest to , dla niektórych .ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt Widziałem w …


3
Najlepszy sposób na zaprezentowanie losowego lasu w publikacji?
Używam algorytmu losowego lasu jako solidnego klasyfikatora dwóch grup w badaniu mikromacierzy z tysiącami funkcji. Jaki jest najlepszy sposób przedstawienia losowego lasu, aby było wystarczająco dużo informacji, aby można go było odtworzyć w formie papierowej? Czy istnieje metoda kreślenia w R, która faktycznie drukuje drzewo, jeśli istnieje niewielka liczba funkcji? …

5
Proszę wyjaśnić paradoks oczekiwania
Kilka lat temu zaprojektowałem detektor promieniowania, który działa na podstawie pomiaru odstępu między zdarzeniami, a nie ich liczenia. Moje założenie było takie, że mierząc niesąsiadujące próbki, średnio mierzyłbym połowę rzeczywistego przedziału. Jednak kiedy testowałem obwód ze skalibrowanym źródłem, odczyt był dwa razy za wysoki, co oznaczało, że mierzyłem pełny interwał. …

3
Diagnostyka regresji logistycznej?
W przypadku regresji liniowej możemy sprawdzić wykresy diagnostyczne (wykresy resztek, normalne wykresy QQ itp.), Aby sprawdzić, czy naruszone są założenia regresji liniowej. W przypadku regresji logistycznej mam problem ze znalezieniem zasobów wyjaśniających, jak zdiagnozować dopasowanie modelu regresji logistycznej. Po wykopaniu niektórych notatek o kursie dla GLM stwierdza się po prostu, …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.