Statystyki i duże zbiory danych

6

Jak sprawdzić, czy dwie zmienne ciągłe są niezależne?

Załóżmy, że wykonanie badania ze wspólnego podziału i . Jak przetestować hipotezę, że i są niezależne ?X Y X Y( Xn, Yn) , n = 1 .. N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NXXXYYYXXXYYY Nie przyjmuje się żadnych założeń dotyczących wspólnych lub marginalnych praw rozkładu i (co najmniej całej wspólnej normalności, ponieważ w tym przypadku …

48 hypothesis-testing references independence

3

Recurrent vs Recursive Neural Networks: Które rozwiązanie jest lepsze dla NLP?

Istnieją rekurencyjne sieci neuronowe i rekurencyjne sieci neuronowe. Oba są zwykle oznaczone tym samym akronimem: RNN. Według Wikipedii , Rekurencyjne NN są w rzeczywistości Rekurencyjne NN, ale tak naprawdę nie rozumiem wyjaśnienia. Co więcej, wydaje mi się, że nie znajduję lepszego (z przykładami) dla przetwarzania w języku naturalnym. Faktem jest, …

48 machine-learning neural-networks deep-learning natural-language

7

Czy chi-kwadrat jest zawsze testem jednostronnym?

Opublikowany artykuł ( pdf ) zawiera te 2 zdania: Ponadto błędne zgłaszanie może być spowodowane niewłaściwymi przepisami lub brakiem wiedzy na temat testu statystycznego. Na przykład, całkowity df w ANOVA może być uznany za błąd df w raporcie testu , lub badacz może podzielić zgłoszoną wartość p lub przez dwa, …

48 hypothesis-testing chi-squared

4

Jak rozpoznać rozkład bimodalny?

Rozumiem, że po wykreśleniu wartości w formie wykresu możemy zidentyfikować rozkład bimodalny, obserwując bliźniacze piki, ale jak można go znaleźć programowo? (Szukam algorytmu).

48 distributions

5

Jaka jest różnica między NaN a NA?

Chciałbym wiedzieć, dlaczego niektóre języki, takie jak R, mają zarówno NA, jak i NaN. Jakie są różnice, czy są jednakowo takie same? Czy naprawdę trzeba mieć NA?

48 r

17

Jaki jest twój ulubiony blog do wizualizacji danych?

Jaki jest najlepszy blog na temat wizualizacji danych? Robię to pytanie wiki społeczności, ponieważ jest ono bardzo subiektywne. Ogranicz każdą odpowiedź do jednego linku. Proszę zwrócić uwagę na następujące kryteria proponowanych odpowiedzi: [A] akceptowalne odpowiedzi na takie pytania ... muszą dostarczyć odpowiednie opisy i uzasadnione uzasadnienie. Zwykły hiperłącze tego nie …

48 data-visualization references

7

Wpływ odpowiedzi przełączającej i zmiennej objaśniającej w prostej regresji liniowej

Załóżmy, że istnieje pewien „prawdziwy” związek między i , tak że , gdzie i są stałymi, a jest IID normalnego hałasu. Kiedy losowo generować dane z tego kodu R: a następnie dopasować model podobnego , ja oczywiście się rozsądnie dobre prognozy dla i .yyyxxxy=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilonaaabbbϵϵ\epsilonx …

48 regression

4

Jaka jest różnica między spadkiem gradientu opartym na pędu a przyspieszeniem opadania gradientu Niestierowa?

Opadanie gradientu na podstawie pędu działa więc następująco: v = s e l f. m o m e n t u m ∗ m - l r ∗ gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g gdzie jest poprzednią aktualizacją masy, a g jest bieżącym gradientem w odniesieniu do parametrów p , l r jest szybkością uczenia …

48 optimization gradient-descent

2

Intuicyjne wyjaśnienia różnic między drzewami wspomagającymi gradient (GBM) i Adaboost

Próbuję zrozumieć różnice między GBM a Adaboost. Oto, co do tej pory zrozumiałem: Istnieją oba algorytmy przyspieszające, które uczą się na błędach poprzedniego modelu i wreszcie tworzą ważoną sumę modeli. GBM i Adaboost są dość podobne, z wyjątkiem funkcji utraty. Ale nadal trudno mi zrozumieć różnicę między nimi. Czy ktoś …

48 boosting gbm adaboost

2

Czy każda macierz kowariancji jest dodatnia?

Myślę, że odpowiedź powinna brzmieć „tak”, ale nadal czuję, że coś jest nie tak. W literaturze powinny być jakieś ogólne wyniki, czy ktoś mógłby mi pomóc?

48 covariance matrix covariance-matrix linear-algebra

10

Jaki jest dobry algorytm do oszacowania mediany ogromnego zestawu danych do odczytu?

Szukam dobrego algorytmu (co oznacza minimalne obliczenia, minimalne wymagania dotyczące miejsca do przechowywania), aby oszacować medianę zestawu danych, który jest zbyt duży, aby go zapisać, tak aby każdą wartość można było odczytać tylko raz (chyba że jawnie zapiszesz tę wartość). Dane nie mają granic, które można założyć. Przybliżenia są w …

48 algorithms median large-data

5

Intuicja na temat dywergencji Kullbacka-Leiblera (KL)

Dowiedziałem się o intuicji stojącej za dywergencją KL, jak bardzo funkcja rozkładu modelu różni się od teoretycznego / prawdziwego rozkładu danych. Źródłem Czytam mówi dalej, że intuicyjne rozumienie „odległość” między tymi dwoma dystrybucjami jest pomocny, ale nie powinny być brane dosłownie, bo dla dwóch rozkładów i , KL Rozbieżność nie …

47 distributions distance intuition kullback-leibler

7

Od czego zacząć od statystyk dla doświadczonego programisty

W pierwszej połowie 2015 r. Ukończyłem kurs Machine Learning (autor: Andrew Ng, WIELKI kurs). I nauczył się podstaw uczenia maszynowego (regresja liniowa, regresja logistyczna, SVM, sieci neuronowe ...) Jestem również programistą od 10 lat, więc nauka nowego języka programowania nie byłaby problemem. Ostatnio zacząłem uczyć się języka R w celu …

47 r regression machine-learning references

1

Jak zastosować normalizację / normalizację do zestawu szkoleniowego i testowego, jeśli celem jest przewidywanie?

Czy jednocześnie przekształcam wszystkie moje dane lub foldery (jeśli zastosowano CV)? na przykład (allData - mean(allData)) / sd(allData) Czy osobno przekształcam skład zestawu i zestaw testowy? na przykład (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Czy też przekształcam skład zestawu i korzystam z obliczeń na zestawie testów? …

47 r cross-validation data-transformation normalization standardization

11

Czy można wykonać prostą regresję liniową bez użycia wykresów i algebry liniowej?

Jestem całkowicie ślepy i pochodzę z programowania. Próbuję nauczyć się uczenia maszynowego i aby to zrobić, najpierw muszę się dowiedzieć o regresji liniowej. Wszystkie wyjaśnienia w Internecie, które znajduję na ten temat, najpierw rysują dane. Szukam praktycznego wyjaśnienia regresji liniowej, która nie zależy od wykresów i wykresów. Oto moje rozumienie …

47 regression intuition