Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

6
Czy analizę głównych składników można zastosować do zbiorów danych zawierających mieszankę zmiennych ciągłych i kategorycznych?
Mam zestaw danych, który zawiera zarówno dane ciągłe, jak i kategoryczne. Analizuję za pomocą PCA i zastanawiam się, czy dobrze jest uwzględnić zmienne kategorialne jako część analizy. Rozumiem, że PCA można zastosować tylko do zmiennych ciągłych. Czy to jest poprawne? Jeśli nie można go użyć do danych kategorycznych, jakie są …

5
Co powinienem zrobić, gdy moja sieć neuronowa się nie uczy?
Trenuję sieć neuronową, ale utrata treningu nie maleje. Jak mogę to naprawić? Nie pytam o nadmierne dopasowanie lub regularyzację. Pytam o sposób rozwiązania problemu, w którym wydajność mojej sieci nie poprawia się w zestawie szkoleniowym . To pytanie jest celowo ogólne, aby inne pytania dotyczące treningu sieci neuronowej można zamknąć …

7
Jakie jest intuicyjne wyjaśnienie centralnego twierdzenia o granicy?
W kilku różnych kontekstach odwołujemy się do centralnego twierdzenia granicznego, aby uzasadnić dowolną metodę statystyczną, którą chcemy przyjąć (np. Przybliżenie rozkładu dwumianowego rozkładem normalnym). Rozumiem szczegóły techniczne, dlaczego to twierdzenie jest prawdziwe, ale właśnie przyszło mi do głowy, że tak naprawdę nie rozumiem intuicji stojącej za centralnym twierdzeniem granicznym. Więc …



5
Jak dokładnie „kontroluje się inne zmienne”?
Oto artykuł, który uzasadnił to pytanie: Czy niecierpliwość czyni nas grubymi? Podobał mi się ten artykuł, który ładnie pokazuje koncepcję „kontrolowania innych zmiennych” (iloraz inteligencji, kariera, dochód, wiek itp.) W celu jak najlepszego wyodrębnienia prawdziwej relacji między tylko dwiema wymienionymi zmiennymi. Czy możesz mi wyjaśnić, jak faktycznie kontrolujesz zmienne w …


14
Pytanie do wywiadu Amazon - prawdopodobieństwo drugiego wywiadu
Otrzymałem to pytanie podczas wywiadu z Amazon: 50% wszystkich osób, które otrzymają pierwszą rozmowę, otrzyma drugą rozmowę 95% znajomych, którzy otrzymali drugi wywiad, uznało, że mieli dobry pierwszy wywiad 75% znajomych, którzy NIE otrzymali drugiego wywiadu, uważa, że ​​mieli dobry pierwszy wywiad Jeśli uważasz, że miałeś dobry pierwszy wywiad, jakie …

8
Czy Facebook dobiega końca?
Ostatnio ten artykuł zyskał wiele uwagi (np. Z WSJ ). Zasadniczo autorzy wnioskują, że Facebook straci 80% swoich członków do 2017 roku. Opierają swoje twierdzenia na ekstrapolacji modelu SIR, modelu przedziałowego często stosowanego w epidemiologii. Ich dane pochodzą z wyszukiwań Google „Facebook”, a autorzy wykorzystują upadek Myspace do potwierdzenia swoich …

4
Wybór K w K-krotnie walidacji krzyżowej
Używam tego K.KK -krotnie krzyżowe sprawdzanie kilka razy, aby ocenić skuteczność niektórych algorytmów uczenia się, ale zawsze byłem zdziwiony, jak mam wybrać wartość K.KK . Często widziałem i stosowałem wartość K.= 10K=10K = 10 , ale wydaje mi się to całkowicie arbitralne, a teraz po prostu używam 101010 z przyzwyczajenia, …

15
Intuicyjne wyjaśnienie dzielenia przez
W klasie zostałem dzisiaj zapytany, dlaczego dzielisz sumę błędu kwadratowego przez zamiastnn - 1n−1n-1nnn przy obliczaniu odchylenia standardowego dzielisz . Powiedziałem, że nie będę odpowiadać na to w klasie (ponieważ nie chciałem dokonywać obiektywnych szacunków), ale później zastanawiałem się - czy jest na to intuicyjne wyjaśnienie ?!

7
Jaki jest wpływ C na SVM z liniowym jądrem?
Obecnie używam SVM z liniowym jądrem do klasyfikowania moich danych. Zestaw treningowy nie zawiera błędów. Próbowałem kilka wartości dla parametru ( ). Nie zmieniło to błędu w zestawie testowym.CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 Teraz zastanawiam się: czy to błąd spowodowany przez powiązania ruby, ponieważ libsvmużywam ( rb-libsvm ), czy też to teoretycznie …


2
Jak ustalić, która dystrybucja najlepiej pasuje do moich danych?
Mam zestaw danych i chciałbym dowiedzieć się, która dystrybucja najlepiej pasuje do moich danych. Użyłem tej fitdistr()funkcji do oszacowania niezbędnych parametrów do opisania założonego rozkładu (tj. Weibull, Cauchy, Normal). Korzystając z tych parametrów, mogę przeprowadzić test Kołmogorowa-Smirnowa, aby oszacować, czy moje przykładowe dane pochodzą z tego samego rozkładu, co założony …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.