Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

8
Jakie są wady analizy bayesowskiej?
Jakie są praktyczne zastrzeżenia do stosowania bayesowskich metod statystycznych w jakimkolwiek kontekście? Nie, nie mam na myśli zwykłego dbania o wybór przeora. Będę zachwycony, jeśli nie otrzyma odpowiedzi.
44 bayesian 

4
Ściągawka modeli statystycznych
Zastanawiałem się, czy istnieje model statystyczny „ściągawki”, który zawiera jakieś lub więcej informacji: kiedy używać modelu kiedy nie należy używać modelu wymagane i opcjonalne dane wejściowe oczekiwane wyniki czy model został przetestowany w różnych dziedzinach (polityka, bio, inżynieria, produkcja itp.)? czy jest to akceptowane w praktyce lub badaniach? oczekiwana zmiana …


8
Rygorystyczna definicja wartości odstającej?
Ludzie często mówią o radzeniu sobie z wartościami odstającymi w statystykach. Niepokoi mnie to, że o ile mogę stwierdzić, definicja wartości odstającej jest całkowicie subiektywna. Na przykład, jeśli prawdziwy rozkład jakiejś zmiennej losowej jest bardzo gruboogonowy lub bimodalny, każda standardowa wizualizacja lub statystyka podsumowująca do wykrywania wartości odstających niepoprawnie usunie …

5
Dlaczego wielokrotne porównanie stanowi problem?
Trudno mi zrozumieć, na czym tak naprawdę polega problem z wieloma porównaniami . Z prostą analogią mówi się, że osoba, która podejmie wiele decyzji, popełni wiele błędów. Stosuje się więc bardzo konserwatywne środki ostrożności, takie jak korekcja Bonferroniego, aby prawdopodobieństwo, że osoba ta popełni jakikolwiek błąd, na jak najniższym poziomie. …

6
Dlaczego wielokoliniowość nie jest sprawdzana we współczesnych statystykach / uczeniu maszynowym
W tradycyjnej statystyce, budując model, sprawdzamy wielokoliniowość za pomocą metod takich jak szacunki współczynnika inflacji wariancji (VIF), ale w uczeniu maszynowym zamiast tego używamy regularyzacji do wyboru funkcji i nie wydaje się, aby sprawdzać, czy cechy są skorelowane w ogóle. Dlaczego to robimy?

4
Czy istnieje test pozwalający ustalić, czy nadmierna dyspersja GLM jest znacząca?
Tworzę Poissona GLM w R. Aby sprawdzić, czy występuje nadmierna dyspersja, przyglądam się stosunkowi odchylenia resztkowego do stopni swobody podanych przez summary(model.name). Czy istnieje wartość graniczna lub test dla tego stosunku, który należy uznać za „znaczący”? Wiem, że jeśli jest> 1, to dane są rozproszone, ale jeśli mam współczynniki względnie …



4
Która funkcja aktywacji dla warstwy wyjściowej?
Chociaż wybór funkcji aktywacji dla ukrytej warstwy jest dość jasny (głównie sigmoid lub tanh), zastanawiam się, jak zdecydować o funkcji aktywacji dla warstwy wyjściowej. Często wybierane są funkcje liniowe, funkcje sigmoidalne i funkcje softmax. Kiedy jednak powinienem użyć tego?

5
Czy ważne jest skalowanie danych przed grupowaniem?
Znalazłem ten samouczek , który sugeruje, że powinieneś uruchomić funkcję skalowania na elementach przed grupowaniem (uważam, że konwertuje dane do wyników Z). Zastanawiam się, czy to konieczne. Pytam głównie dlatego, że nie mam łokcia, gdy nie skaluję danych, ale znika, gdy jest skalowane. :)

3
Testowanie równości współczynników z dwóch różnych regresji
Wydaje się to być podstawową kwestią, ale właśnie zdałem sobie sprawę, że tak naprawdę nie wiem, jak przetestować równość współczynników z dwóch różnych regresji. Czy ktoś może rzucić na to trochę światła? Bardziej formalnie, załóżmy, że uruchomiłem następujące dwie regresje: i gdzie odnosi się do macierzy projektowej regresji , a …




Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.