Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

2
Jak dobrze regresja wielokrotna może „kontrolować” zmienne towarzyszące?
Wszyscy znamy badania obserwacyjne, które próbują ustalić związek przyczynowy między nierandomizowanym predyktorem X a wynikiem poprzez włączenie każdego możliwego potencjalnego zakłócacza do modelu regresji wielokrotnej. Argumentując, że „kontrolując” wszystkie czynniki zakłócające, izolujemy efekt predyktora zainteresowania. Rozwijam się coraz bardziej z powodu tego pomysłu, opartego głównie na spostrzeżeniach wygłaszanych przez różnych …

1
Jak interpretować ANOVA typu I, typu II i typu III i MANOVA?
Moje podstawowe pytanie brzmi: jak interpretować wynik (współczynniki, F, P) podczas przeprowadzania ANOVA typu I (sekwencyjnego)? Mój konkretny problem badawczy jest nieco bardziej złożony, dlatego podzielę mój przykład na części. Po pierwsze, jeśli interesuje mnie wpływ gęstości pająków (X1) na powiedzmy wzrost roślin (Y1) i sadziłem sadzonki w zagrodach i …

6
Motywacja do odległości Kołmogorowa między rozkładami
Istnieje wiele sposobów pomiaru, jak podobne są dwa rozkłady prawdopodobieństwa. Wśród metod, które są popularne (w różnych kręgach) są: odległość Kołmogorowa: sup odległość między funkcjami rozkładu; odległość Kantorowicza-Rubinsteina: maksymalna różnica między oczekiwaniami względem dwóch rozkładów funkcji ze stałą Lipschitza , która również okazuje się być odległością między funkcjami rozkładu;L 1111L1L1L^1 …

8
Czy wszystkie modele są bezużyteczne? Czy jakiś dokładny model jest możliwy - czy użyteczny?
To pytanie ropieło mi w głowie od ponad miesiąca. Numer Amstat News z lutego 2015 r. Zawiera artykuł autorstwa profesora Berkeleya Marka van der Laana, który zbeształ ludzi za używanie niedokładnych modeli. Twierdzi, że przy użyciu modeli statystyka jest więc sztuką, a nie nauką. Według niego, zawsze można użyć „dokładnego …

10
Czym dokładnie jest Big Data?
Kilkakrotnie zadawano mi pytanie: Co to jest Big-Data? Zarówno przez studentów, jak i moich krewnych, którzy podnoszą szum wokół statystyk i ML. Znalazłem ten CV . I czuję, że zgadzam się z jedyną tam odpowiedzią. Strona Wikipedii również ma na ten temat kilka uwag, ale nie jestem pewien, czy naprawdę …
44 large-data 


4
Dlaczego statystycy twierdzą, że nieistotny wynik oznacza „nie można odrzucić wartości zerowej” w przeciwieństwie do przyjęcia hipotezy zerowej?
Tradycyjne testy statystyczne, takie jak test t dwóch próbek, koncentrują się na próbie wyeliminowania hipotezy, że nie ma różnicy między funkcją dwóch niezależnych próbek. Następnie wybieramy poziom ufności i mówimy, że jeśli różnica średnich przekracza poziom 95%, możemy odrzucić hipotezę zerową. Jeśli nie, „nie możemy odrzucić hipotezy zerowej”. Wydaje się …

4
W jaki sposób jądra są stosowane do map obiektów w celu tworzenia innych map obiektów?
Próbuję zrozumieć część splotową sieci neuronowych splotowych. Patrząc na następujący rysunek: Nie mam problemów ze zrozumieniem pierwszej warstwy splotu, w której mamy 4 różne jądra (o wielkości ), które splatamy z obrazem wejściowym, aby uzyskać 4 mapy cech.k × kk×kk \times k To, czego nie rozumiem, to kolejna warstwa splotu, …

6
Jaki jest twój ulubiony wykres statystyczny?
To mój ulubiony Ten przykład jest w humorystyczny sposób (podziękowania należą się mojemu byłemu profesorowi, Stevenowi Gortmakerowi), ale interesują mnie również wykresy, w których czujesz się pięknie i przekazujesz wgląd lub metodę statystyczną wraz z twoimi pomysłami na ten temat. Jeden wpis na odpowiedź. Oczywiście to pytanie jest zgodne z …

5
Statystyki publikowane w artykułach naukowych
Czytam wiele ewolucyjnych / ekologicznych artykułów akademickich, czasami w konkretnym celu, aby zobaczyć, jak statystyki są wykorzystywane „w prawdziwym świecie” poza podręcznikiem. Zwykle traktuję statystyki w gazetach jako ewangelię i używam ich do pomocy w nauce statystycznej. W końcu, jeśli artykuł poświęcił lata na napisanie i przeszedł rygorystyczną recenzję, to …



1
Obliczanie wariancji Kappa Cohena (i standardowych błędów)
Statystyka Kappa ( ) została wprowadzona w 1960 roku przez Cohena [1] w celu zmierzenia zgodności między dwoma wskaźnikami. Ta wariancja była jednak źródłem sprzeczności od dłuższego czasu.κκ\kappa Moje pytanie dotyczy tego, które jest najlepsze obliczenie wariancji do zastosowania z dużymi próbkami. Jestem skłonny wierzyć, że ten przetestowany i zweryfikowany …

7
Dlaczego ktoś miałby stosować podejście bayesowskie z „nieinformacyjnym” niewłaściwym wcześniejszym podejściem zamiast klasycznego?
Jeśli zainteresowanie polega jedynie na oszacowaniu parametrów modelu (oszacowanie punktowe i / lub przedziałowe), a wcześniejsze informacje nie są wiarygodne, słabe (wiem, że jest to trochę niejasne, ale staram się ustalić scenariusz, w którym wybór wcześniejsze jest trudne) ... Dlaczego ktoś miałby stosować podejście bayesowskie z „nieinformacyjnymi” niewłaściwymi priory zamiast …

5
Zoptymalizowane implementacje algorytmu Random Forest
Zauważyłem, że istnieje kilka implementacje losowej lasu, takich jak ALGLIB, gofry i kilka pakietów, takich jak R randomForest. Czy ktoś może mi powiedzieć, czy te biblioteki są wysoce zoptymalizowane? Czy są one w zasadzie równoważne losowym lasom opisanym w Elementach statystycznego uczenia się, czy też dodano wiele dodatkowych sztuczek? Mam …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.