Statystyki i duże zbiory danych

2

Jak dobrze regresja wielokrotna może „kontrolować” zmienne towarzyszące?

Wszyscy znamy badania obserwacyjne, które próbują ustalić związek przyczynowy między nierandomizowanym predyktorem X a wynikiem poprzez włączenie każdego możliwego potencjalnego zakłócacza do modelu regresji wielokrotnej. Argumentując, że „kontrolując” wszystkie czynniki zakłócające, izolujemy efekt predyktora zainteresowania. Rozwijam się coraz bardziej z powodu tego pomysłu, opartego głównie na spostrzeżeniach wygłaszanych przez różnych …

45 multiple-regression ancova observational-study

1

Jak interpretować ANOVA typu I, typu II i typu III i MANOVA?

Moje podstawowe pytanie brzmi: jak interpretować wynik (współczynniki, F, P) podczas przeprowadzania ANOVA typu I (sekwencyjnego)? Mój konkretny problem badawczy jest nieco bardziej złożony, dlatego podzielę mój przykład na części. Po pierwsze, jeśli interesuje mnie wpływ gęstości pająków (X1) na powiedzmy wzrost roślin (Y1) i sadziłem sadzonki w zagrodach i …

45 r hypothesis-testing anova manova sums-of-squares

6

Motywacja do odległości Kołmogorowa między rozkładami

Istnieje wiele sposobów pomiaru, jak podobne są dwa rozkłady prawdopodobieństwa. Wśród metod, które są popularne (w różnych kręgach) są: odległość Kołmogorowa: sup odległość między funkcjami rozkładu; odległość Kantorowicza-Rubinsteina: maksymalna różnica między oczekiwaniami względem dwóch rozkładów funkcji ze stałą Lipschitza , która również okazuje się być odległością między funkcjami rozkładu;L 1111L1L1L^1 …

45 distributions probability hypothesis-testing mathematical-statistics

8

Czy wszystkie modele są bezużyteczne? Czy jakiś dokładny model jest możliwy - czy użyteczny?

To pytanie ropieło mi w głowie od ponad miesiąca. Numer Amstat News z lutego 2015 r. Zawiera artykuł autorstwa profesora Berkeleya Marka van der Laana, który zbeształ ludzi za używanie niedokładnych modeli. Twierdzi, że przy użyciu modeli statystyka jest więc sztuką, a nie nauką. Według niego, zawsze można użyć „dokładnego …

45 machine-learning maximum-likelihood modeling nonparametric parametric

10

Czym dokładnie jest Big Data?

Kilkakrotnie zadawano mi pytanie: Co to jest Big-Data? Zarówno przez studentów, jak i moich krewnych, którzy podnoszą szum wokół statystyk i ML. Znalazłem ten CV . I czuję, że zgadzam się z jedyną tam odpowiedzią. Strona Wikipedii również ma na ten temat kilka uwag, ale nie jestem pewien, czy naprawdę …

44 large-data

6

Czy odwrotność prawdopodobieństwa reprezentuje coś?

Zastanawiałem się, czy odwrotność P (X = 1) reprezentuje coś konkretnego?

44 probability

4

Dlaczego statystycy twierdzą, że nieistotny wynik oznacza „nie można odrzucić wartości zerowej” w przeciwieństwie do przyjęcia hipotezy zerowej?

Tradycyjne testy statystyczne, takie jak test t dwóch próbek, koncentrują się na próbie wyeliminowania hipotezy, że nie ma różnicy między funkcją dwóch niezależnych próbek. Następnie wybieramy poziom ufności i mówimy, że jeśli różnica średnich przekracza poziom 95%, możemy odrzucić hipotezę zerową. Jeśli nie, „nie możemy odrzucić hipotezy zerowej”. Wydaje się …

44 hypothesis-testing statistical-significance confidence-interval equivalence tost

4

W jaki sposób jądra są stosowane do map obiektów w celu tworzenia innych map obiektów?

Próbuję zrozumieć część splotową sieci neuronowych splotowych. Patrząc na następujący rysunek: Nie mam problemów ze zrozumieniem pierwszej warstwy splotu, w której mamy 4 różne jądra (o wielkości ), które splatamy z obrazem wejściowym, aby uzyskać 4 mapy cech.k × kk×kk \times k To, czego nie rozumiem, to kolejna warstwa splotu, …

44 machine-learning neural-networks deep-learning conv-neural-network

6

Jaki jest twój ulubiony wykres statystyczny?

To mój ulubiony Ten przykład jest w humorystyczny sposób (podziękowania należą się mojemu byłemu profesorowi, Stevenowi Gortmakerowi), ale interesują mnie również wykresy, w których czujesz się pięknie i przekazujesz wgląd lub metodę statystyczną wraz z twoimi pomysłami na ten temat. Jeden wpis na odpowiedź. Oczywiście to pytanie jest zgodne z …

44 data-visualization

5

Statystyki publikowane w artykułach naukowych

Czytam wiele ewolucyjnych / ekologicznych artykułów akademickich, czasami w konkretnym celu, aby zobaczyć, jak statystyki są wykorzystywane „w prawdziwym świecie” poza podręcznikiem. Zwykle traktuję statystyki w gazetach jako ewangelię i używam ich do pomocy w nauce statystycznej. W końcu, jeśli artykuł poświęcił lata na napisanie i przeszedł rygorystyczną recenzję, to …

44 publication-bias academia

1

Wariancja iloczynu wielu zmiennych losowych

Znamy odpowiedź na dwie niezależne zmienne: V a r (XY) = E( X2)Y2)) - ( E( XY) )2)= V a r ( X) V a r ( Y) + V a r ( X) ( E( Y) )2)+ V a r ( Y) ( E( X) )2)Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2 {\rm Var}(XY) = …

44 variance random-variable independence

3

Łącząc wartości p, dlaczego nie po prostu uśrednić?

Niedawno dowiedziałem się o metodzie Fishera do łączenia wartości p. Jest to oparte na fakcie, że wartość p poniżej wartości zerowej ma rozkład równomierny, i że co moim zdaniem jest genialne. Ale moje pytanie brzmi: dlaczego iść w ten zawiły sposób? a dlaczego nie (z czym jest nie tak) po …

44 hypothesis-testing p-value multiple-comparisons central-limit-theorem combining-p-values

1

Obliczanie wariancji Kappa Cohena (i standardowych błędów)

Statystyka Kappa ( ) została wprowadzona w 1960 roku przez Cohena [1] w celu zmierzenia zgodności między dwoma wskaźnikami. Ta wariancja była jednak źródłem sprzeczności od dłuższego czasu.κκ\kappa Moje pytanie dotyczy tego, które jest najlepsze obliczenie wariancji do zastosowania z dużymi próbkami. Jestem skłonny wierzyć, że ten przetestowany i zweryfikowany …

44 estimation variance reliability cohens-kappa

7

Dlaczego ktoś miałby stosować podejście bayesowskie z „nieinformacyjnym” niewłaściwym wcześniejszym podejściem zamiast klasycznego?

Jeśli zainteresowanie polega jedynie na oszacowaniu parametrów modelu (oszacowanie punktowe i / lub przedziałowe), a wcześniejsze informacje nie są wiarygodne, słabe (wiem, że jest to trochę niejasne, ale staram się ustalić scenariusz, w którym wybór wcześniejsze jest trudne) ... Dlaczego ktoś miałby stosować podejście bayesowskie z „nieinformacyjnymi” niewłaściwymi priory zamiast …

44 bayesian inference prior likelihood information

5

Zoptymalizowane implementacje algorytmu Random Forest

Zauważyłem, że istnieje kilka implementacje losowej lasu, takich jak ALGLIB, gofry i kilka pakietów, takich jak R randomForest. Czy ktoś może mi powiedzieć, czy te biblioteki są wysoce zoptymalizowane? Czy są one w zasadzie równoważne losowym lasom opisanym w Elementach statystycznego uczenia się, czy też dodano wiele dodatkowych sztuczek? Mam …

44 random-forest algorithms model-evaluation