Statystyki i duże zbiory danych

1

Różnica między GradientDescentOptimizer a AdamOptimizer (TensorFlow)?

Napisałem prosty MLP w TensorFlow, który modeluje bramę XOR . Więc dla: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] powinien produkować: output_data = [[0.], [1.], [1.], [0.]] Sieć ma warstwę wejściową, warstwę ukrytą i warstwę wyjściową z 2, 5 i 1 neuronem. Obecnie mam następującą entropię krzyżową: …

45 machine-learning neural-networks error gradient-descent supervised-learning

1

Jak ustalić, czy oś y wykresu powinna zaczynać się od zera?

Jednym z powszechnych sposobów „kłamstwa z danymi” jest użycie skali osi y, która sprawia, że wydaje się, że zmiany są bardziej znaczące niż są w rzeczywistości. Kiedy przeglądam publikacje naukowe lub raporty laboratoryjne studentów, często jestem sfrustrowany tym „grzechem wizualizacji danych” (który, jak sądzę, autorzy popełniają nieumyślnie, ale nadal wprowadza …

45 data-visualization

6

Jakie są główne twierdzenia w uczeniu maszynowym (głębokim)?

Al Rahimi wygłosił ostatnio bardzo prowokujący wykład w NIPS 2017, porównując obecne uczenie maszynowe z alchemią. Jednym z jego twierdzeń jest to, że musimy wrócić do rozwoju teoretycznego, aby mieć proste twierdzenia potwierdzające fundamentalne wyniki. Kiedy to powiedział, zacząłem szukać głównych twierdzeń dotyczących ML, ale nie mogłem znaleźć dobrego odniesienia, …

45 machine-learning deep-learning theory

3

Jaki jest wpływ skorelowanych predyktorów w modelu regresji wielokrotnej?

Nauczyłem się w mojej klasie modeli liniowych, że jeśli dwa predyktory są skorelowane i oba są zawarte w modelu, jeden będzie nieistotny. Załóżmy na przykład, że wielkość domu i liczba sypialni są skorelowane. Podczas prognozowania kosztu domu za pomocą tych dwóch predyktorów jeden z nich można upuścić, ponieważ oba zapewniają …

45 regression multiple-regression p-value linear-model multicollinearity

2

Jądro liniowe i jądro nieliniowe dla maszyny wektora wsparcia?

Czy podczas korzystania z maszyny wektorów pomocniczych istnieją jakieś wytyczne dotyczące wyboru jądra liniowego vs. jądra nieliniowego, takiego jak RBF? Kiedyś słyszałem, że nieliniowe jądro nie działa dobrze, gdy liczba funkcji jest duża. Czy są jakieś odniesienia w tej sprawie?

45 machine-learning classification svm references kernel-trick

10

Jak poprawnie kreślić trendy

Tworzę wykres, aby pokazać trendy śmiertelności (na 1000 osób) w różnych krajach, a historia, która powinna pochodzić z fabuły, jest taka, że Niemcy (jasnoniebieska linia) są jedynymi, których trend rośnie po 1932 roku. moja pierwsza (podstawowa) próba Moim zdaniem ten wykres pokazuje już to, co chcemy powiedzieć, ale nie jest …

45 data-visualization

2

Jak symulować sztuczne dane dla regresji logistycznej?

Wiem, że brakuje mi czegoś w rozumieniu regresji logistycznej i naprawdę doceniłbym każdą pomoc. O ile rozumiem, regresja logistyczna zakłada, że prawdopodobieństwo wyniku „1” przy danych wejściowych jest liniową kombinacją danych wejściowych, przechodzącą przez funkcję odwrotnej logistyki. Jest to zilustrowane w następującym kodzie R: #create data: x1 = rnorm(1000) # …

45 r regression logistic generalized-linear-model simulation

5

Korzystanie z R online - bez instalacji [zamknięty]

Czy istnieje możliwość użycia R w interfejsie internetowym bez konieczności jego instalowania? Mam tylko jeden mały skrypt, który lubię uruchamiać, ale chcę go wypróbować bez długiej procedury instalacyjnej. Dziękuję Ci.

45 r

8

Czy istnieje złoty standard modelowania szeregów czasowych o nieregularnych odstępach?

W dziedzinie ekonomii (myślę) mamy ARIMA i GARCH dla regularnie rozmieszczonych szeregów czasowych i Poissona, Hawkesa dla modelowania procesów punktowych, więc co powiesz na próby modelowania nieregularnie (nierównomiernie) szeregów czasowych - czy są (przynajmniej) jakieś powszechne praktyki ? (Jeśli masz trochę wiedzy w tym temacie, możesz także rozwinąć odpowiedni artykuł …

45 time-series garch poisson-process point-process unevenly-spaced-time-series

4

Jak obliczyć funkcję gęstości prawdopodobieństwa maksimum próbki jednolitych zmiennych losowych IID?

Biorąc pod uwagę zmienną losową Y=max(X1,X2,…,Xn)Y=max(X1,X2,…,Xn)Y = \max(X_1, X_2, \ldots, X_n) gdzie XiXiX_i to zmienne jednolite IID, jak obliczyć PDF YYY ?

45 pdf maximum

3

Co to jest Deviance? (szczególnie w CART / rpart)

Co to jest „dewiacja”, jak jest obliczana i jakie jest jej zastosowanie w różnych dziedzinach statystyki? W szczególności jestem osobiście zainteresowany jego zastosowaniami w CART (i jego implementacją w rpart w R). Pytam o to, ponieważ artykuł na wiki wydaje się nieco brakuje, a twoje spostrzeżenia będą mile widziane.

45 r cart rpart deviance

15

Oczekiwany stosunek liczby urodzeń dziewcząt do chłopców

W teście umiejętności rozmowy kwalifikacyjnej natrafiłem na pytanie dotyczące krytycznego myślenia. Wygląda to mniej więcej tak: Republika Zorganiczna ma bardzo dziwne zwyczaje. Pary pragną mieć dzieci płci żeńskiej, ponieważ tylko kobiety mogą odziedziczyć majątek rodziny, więc jeśli mają dziecko płci męskiej, nadal mają więcej dzieci, dopóki nie będą miały dziewczynki. …

45 probability ratio

1

Jak działa metoda Adama stochastycznego spadku gradientu?

Jestem zaznajomiony z podstawowymi algorytmami spadku gradientu do szkolenia sieci neuronowych. Czytałem artykuł proponujący Adam: ADAM: METODA OPTYMALIZACJI STOCHASTYCZNEJ . Chociaż zdecydowanie mam pewne spostrzeżenia (przynajmniej), papier wydaje się być dla mnie ogólnie za wysoki. Na przykład funkcja kosztu jest często sumą wielu różnych funkcji, dlatego w celu zoptymalizowania jej …

45 neural-networks optimization gradient-descent adam

3

Czy jest jakaś różnica między lm a glm dla gaussowskiej rodziny glm?

W szczególności chcę wiedzieć, czy istnieje różnica między lm(y ~ x1 + x2)i glm(y ~ x1 + x2, family=gaussian). Myślę, że ten konkretny przypadek glm jest równy lm. Czy się mylę?

45 r normal-distribution generalized-linear-model lm

4

Normalizacja a skalowanie

Jaka jest różnica między „normalizacją” danych a „skalowaniem” danych? Do tej pory myślałem, że oba terminy odnoszą się do tego samego procesu, ale teraz zdaję sobie sprawę, że jest coś więcej, czego nie wiem / nie rozumiem. Także jeśli istnieje różnica między normalizacją a skalowaniem, kiedy powinniśmy używać normalizacji, ale …

45 data-transformation scales normality-assumption normalization