Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych


4
Jak zgłaszać małe wartości
W przypadku niektórych testów Ristnieje dolna granica obliczeń wartości p . Nie jestem pewien, dlaczego jest to ta liczba, jeśli istnieje ku temu dobry powód lub jest to po prostu arbitralne. Wiele innych pakietów statystyk po prostu trafia , więc jest to o wiele wyższy poziom precyzji. Ale nie widziałem …




10
Co oznacza „naukowcy powstają w porównaniu ze znaczeniem statystycznym”? (Komentarz w naturze)
Tytuł komentarza w Nature Scientists przeciwko statystycznej istotności zaczyna się od: Valentin Amrhein, Sander Greenland, Blake McShane i ponad 800 sygnatariuszy wzywają do zlikwidowania wysuwanych roszczeń i odrzucenia możliwie kluczowych efektów. a później zawiera takie stwierdzenia jak: Ponownie nie opowiadamy się za zakazem wartości P, przedziałów ufności ani innych miar …

2
Współczynnik wiarygodności względem współczynnika Bayesa
Jestem raczej ewangelistyczny, jeśli chodzi o wykorzystanie współczynników prawdopodobieństwa do przedstawienia obiektywnych dowodów przemawiających za danym zjawiskiem. Jednak ostatnio dowiedziałem się, że czynnik Bayesa pełni podobną funkcję w kontekście metod bayesowskich (tj. Uprzedni subiektywny jest łączony z obiektywnym czynnikiem Bayesa, aby uzyskać obiektywnie zaktualizowany subiektywny stan przekonania). Próbuję teraz zrozumieć …

5
Jaki problem rozwiązują metody skurczu?
Sezon wakacyjny dał mi możliwość zwinięcia się przy kominku dzięki elementom statystycznego uczenia się . Z perspektywy (częstej) ekonometrii mam problem z uchwyceniem zastosowania metod skurczu, takich jak regresja grzbietu, lasso i regresja najmniejszego kąta (LAR). Zazwyczaj interesują mnie same oszacowania parametrów i osiągnięcie bezstronności lub przynajmniej spójności. Metody skurczowe …

2
Dlaczego tylko trzy partycje? (szkolenie, walidacja, test)
Gdy próbujesz dopasować modele do dużego zestawu danych, powszechną wskazówką jest podzielenie danych na trzy części: szkolenie, sprawdzanie poprawności i testowanie zestawu danych. Wynika to z faktu, że modele zwykle mają trzy „poziomy” parametrów: pierwszy „parametr” to klasa modelu (np. SVM, sieć neuronowa, losowy las), drugi zestaw parametrów to parametry …


9
Jak i dlaczego działa normalizacja i skalowanie funkcji?
Widzę, że wiele algorytmów uczenia maszynowego działa lepiej przy średnim anulowaniu i wyrównaniu kowariancji. Na przykład sieci neuronowe mają tendencję do szybszego konwergencji, a K-Means zazwyczaj zapewnia lepszą klastrowanie z wstępnie przetworzonymi funkcjami. Nie widzę intuicji za tymi krokami wstępnego przetwarzania, które prowadzą do poprawy wydajności. Czy ktoś może mi …

7
Regresja z wieloma zmiennymi zależnymi?
Czy możliwe jest równanie regresji (wielokrotnej) z dwiema lub więcej zmiennymi zależnymi? Jasne, możesz uruchomić dwa oddzielne równania regresji, po jednym dla każdego DV, ale to nie wydaje się, że uchwyciłoby to jakąkolwiek zależność między dwoma DV?
61 regression 

6
Standardowe błędy do przewidywania lasso za pomocą R.
Próbuję użyć modelu LASSO do prognozowania i muszę oszacować standardowe błędy. Z pewnością ktoś już napisał paczkę, aby to zrobić. Ale o ile widzę, żaden z pakietów w CRAN, który wykonuje prognozy za pomocą LASSO, nie zwróci standardowych błędów dla tych prognoz. Więc moje pytanie brzmi: czy jest dostępny pakiet …

4
Dlaczego uwzględnianie szerokości i długości geograficznej na koncie GAM w celu autokorelacji przestrzennej?
Stworzyłem uogólnione modele dodatków do wylesiania. Aby uwzględnić autokorelację przestrzenną, uwzględniłem szerokość i długość geograficzną jako wygładzony termin interakcji (tj. S (x, y)). Oparłem to na przeczytaniu wielu artykułów, w których autorzy mówią: „aby uwzględnić przestrzenną autokorelację, współrzędne punktów zostały uwzględnione jako wygładzone terminy”, ale nigdy nie wyjaśniły, dlaczego tak …

15
Dlaczego statystyka parametryczna miałaby być zawsze lepsza od statystyki nieparametrycznej?
Czy ktoś może mi wyjaśnić, dlaczego ktoś miałby wybrać parametryczną zamiast nieparametrycznej metody statystycznej do testowania hipotez lub analizy regresji? W moim umyśle, to jak pójście do raftingu i wybierając odporny zegarek bez wody, bo może nie dostać mokre. Dlaczego nie skorzystać z narzędzia, które działa na każdą okazję?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.