Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych


3
Recurrent vs Recursive Neural Networks: Które rozwiązanie jest lepsze dla NLP?
Istnieją rekurencyjne sieci neuronowe i rekurencyjne sieci neuronowe. Oba są zwykle oznaczone tym samym akronimem: RNN. Według Wikipedii , Rekurencyjne NN są w rzeczywistości Rekurencyjne NN, ale tak naprawdę nie rozumiem wyjaśnienia. Co więcej, wydaje mi się, że nie znajduję lepszego (z przykładami) dla przetwarzania w języku naturalnym. Faktem jest, …

7
Czy chi-kwadrat jest zawsze testem jednostronnym?
Opublikowany artykuł ( pdf ) zawiera te 2 zdania: Ponadto błędne zgłaszanie może być spowodowane niewłaściwymi przepisami lub brakiem wiedzy na temat testu statystycznego. Na przykład, całkowity df w ANOVA może być uznany za błąd df w raporcie testu , lub badacz może podzielić zgłoszoną wartość p lub przez dwa, …

4
Jak rozpoznać rozkład bimodalny?
Rozumiem, że po wykreśleniu wartości w formie wykresu możemy zidentyfikować rozkład bimodalny, obserwując bliźniacze piki, ale jak można go znaleźć programowo? (Szukam algorytmu).

5
Jaka jest różnica między NaN a NA?
Chciałbym wiedzieć, dlaczego niektóre języki, takie jak R, mają zarówno NA, jak i NaN. Jakie są różnice, czy są jednakowo takie same? Czy naprawdę trzeba mieć NA?
48 r 

17
Jaki jest twój ulubiony blog do wizualizacji danych?
Jaki jest najlepszy blog na temat wizualizacji danych? Robię to pytanie wiki społeczności, ponieważ jest ono bardzo subiektywne. Ogranicz każdą odpowiedź do jednego linku. Proszę zwrócić uwagę na następujące kryteria proponowanych odpowiedzi: [A] akceptowalne odpowiedzi na takie pytania ... muszą dostarczyć odpowiednie opisy i uzasadnione uzasadnienie. Zwykły hiperłącze tego nie …





10
Jaki jest dobry algorytm do oszacowania mediany ogromnego zestawu danych do odczytu?
Szukam dobrego algorytmu (co oznacza minimalne obliczenia, minimalne wymagania dotyczące miejsca do przechowywania), aby oszacować medianę zestawu danych, który jest zbyt duży, aby go zapisać, tak aby każdą wartość można było odczytać tylko raz (chyba że jawnie zapiszesz tę wartość). Dane nie mają granic, które można założyć. Przybliżenia są w …



1
Jak zastosować normalizację / normalizację do zestawu szkoleniowego i testowego, jeśli celem jest przewidywanie?
Czy jednocześnie przekształcam wszystkie moje dane lub foldery (jeśli zastosowano CV)? na przykład (allData - mean(allData)) / sd(allData) Czy osobno przekształcam skład zestawu i zestaw testowy? na przykład (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Czy też przekształcam skład zestawu i korzystam z obliczeń na zestawie testów? …

11
Czy można wykonać prostą regresję liniową bez użycia wykresów i algebry liniowej?
Jestem całkowicie ślepy i pochodzę z programowania. Próbuję nauczyć się uczenia maszynowego i aby to zrobić, najpierw muszę się dowiedzieć o regresji liniowej. Wszystkie wyjaśnienia w Internecie, które znajduję na ten temat, najpierw rysują dane. Szukam praktycznego wyjaśnienia regresji liniowej, która nie zależy od wykresów i wykresów. Oto moje rozumienie …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.