Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych



9
Jakie są wady używania lassa do wyboru zmiennych do regresji?
Z tego, co wiem, użycie lasso do wyboru zmiennych rozwiązuje problem skorelowanych danych wejściowych. Ponadto, ponieważ jest równoważny regresji metodą najmniejszego kąta, nie jest powolny obliczeniowo. Jednak wiele osób (na przykład osoby, które znam, które wykonują biot statystykę) nadal wydaje się faworyzować stopniowy lub stopniowy wybór zmiennych. Czy są jakieś …

8
Jak mogę pomóc upewnić się, że dane testowe nie przeciekają do danych szkoleniowych?
Załóżmy, że mamy kogoś, kto buduje model predykcyjny, ale ten ktoś niekoniecznie jest dobrze obeznany z właściwymi zasadami statystyki lub uczenia maszynowego. Może pomagamy tej osobie w trakcie nauki, a może ta osoba korzysta z pakietu oprogramowania, który wymaga minimalnej wiedzy. Teraz ta osoba może bardzo dobrze rozpoznać, że prawdziwy …

6
Gdzie wyciąć dendrogram?
Hierarchiczne grupowanie może być reprezentowane przez dendrogram. Cięcie dendrogramu na pewnym poziomie daje zestaw klastrów. Cięcie na innym poziomie daje kolejny zestaw klastrów. Jak wybrałbyś miejsce cięcia dendrogramu? Czy istnieje coś, co moglibyśmy uznać za optymalny punkt? Jeśli patrzę na zmieniający się dendrogram w czasie, czy powinienem ciąć w tym …


5
Jaki jest związek między grupowaniem k-średnich a PCA?
Powszechną praktyką jest stosowanie PCA (analiza głównego składnika) przed algorytmem grupowania (takim jak k-średnie). Uważa się, że poprawia to wyniki klastrowania w praktyce (redukcja hałasu). Jestem jednak zainteresowany porównawczym i dogłębnym badaniem związku między PCA i k-średnich. Na przykład Chris Ding i Xiaofeng He, 2004, K-oznacza Clustering poprzez Principal Component …

2
Jaka jest różnica między wybielaniem ZCA a wybielaniem PCA?
Jestem zdezorientowany co do wybielania ZCA i normalnego wybielania (które uzyskuje się poprzez podzielenie głównych składników przez pierwiastki kwadratowe wartości własnych PCA). Z tego co mi wiadomo, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, gdzie to wektory własne PCA.UU\mathbf U Jakie są zastosowania wybielania ZCA? Jakie są różnice między wybielaniem …

3
Dlaczego ocena grzbietu staje się lepsza niż OLS poprzez dodanie stałej do przekątnej?
Rozumiem, że oszacowanie regresji grzbietu to która minimalizuje resztkową sumę kwadratu i kara za rozmiarββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Jednak nie do końca rozumiem znaczenie faktu, że βridgeβridge\beta_\text{ridge} różni się od βOLSβOLS\beta_\text{OLS} , dodając jedynie małą stałą do przekątnej X′XX′XX'X . W …

12
Testy dwustronne… Po prostu nie jestem przekonany. Jaki jest sens?
Poniższy fragment pochodzi z wpisu: Jakie są różnice między testami jednostronnymi i dwustronnymi? , na stronie pomocy dotyczącej statystyk UCLA. ... rozważ konsekwencje pominięcia efektu w innym kierunku. Wyobraź sobie, że opracowałeś nowy lek, który Twoim zdaniem stanowi ulepszenie w stosunku do istniejącego leku. Chcesz zmaksymalizować swoją zdolność do wykrycia …


7
Optymalizacja, gdy funkcja kosztu wolno ocenia
Spadek gradientu i wiele innych metod jest przydatnych do znajdowania lokalnych minimów w funkcjach kosztów. Mogą być wydajne, gdy funkcja kosztu może być szybko oszacowana w każdym punkcie, zarówno liczbowo, jak i analitycznie. Mam coś, co wydaje mi się niezwykłą sytuacją. Każda ocena mojej funkcji kosztów jest kosztowna. Usiłuję znaleźć …

3
Wyjaśnij komiks xkcd jelly bean: Co sprawia, że ​​jest zabawny?
Widzę, że jeden z dwudziestu wszystkich przeprowadzonych testów, , więc błędnie zakładają, że podczas jednego z dwudziestu testów wynik jest znaczący ( ).p&lt;0.05p&lt;0.05p < 0.050.05=1/200.05=1/200.05 = 1/20 xkcd żelkowy komiks - „Znaczący” Tytuł: znaczący Umieść kursor: „„ Więc, zrobiliśmy zielone badanie ponownie i nie otrzymaliśmy żadnego linku. Prawdopodobnie było to… …

6
Gdzie się podziała debata częstokrzyści z Bayesa?
Świat statystyki został podzielony między częstochroniarzy i Bayesianów. W dzisiejszych czasach wydaje się, że wszyscy robią trochę obu. Jak to może być? Jeśli różne podejścia są odpowiednie dla różnych problemów, dlaczego ojcowie założyciele statystyk tego nie widzieli? Alternatywnie, czy debatę wygrały Frequentists, a prawdziwi subiektywni Bayesianie przeszli na teorię decyzji?


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.