Statystyki i duże zbiory danych

4

Dlaczego sigmoid działa zamiast czegokolwiek innego?

Dlaczego de facto standardowa funkcja sigmoidalna tak popularna w (nie-głębokich) sieciach neuronowych i regresji logistycznej?11+e−x11+e−x\frac{1}{1+e^{-x}} Dlaczego nie używamy wielu innych pochodnych funkcji, z szybszym czasem obliczeń lub wolniejszym rozpadem (więc zanikający gradient występuje mniej). Na Wikipedii jest niewiele przykładów dotyczących funkcji sigmoidalnych . Jednym z moich ulubionych z powolnym rozkładem …

40 logistic neural-networks least-squares

6

Kiedy stosować symulacje?

To bardzo proste i głupie pytanie. Jednak kiedy byłem w szkole, bardzo mało uwagi poświęciłem całej koncepcji symulacji w klasie, co trochę mnie przeraziło. Czy potrafisz wyjaśnić proces symulacji w kategoriach laików? (może służyć do generowania danych, współczynników regresji itp.) Jakie są praktyczne sytuacje / problemy, kiedy można zastosować symulacje? …

40 simulation

5

Ostrzeżenie w R - Przybliżenie chi-kwadrat może być niepoprawne

Mam dane pokazujące wyniki egzaminu wstępnego do strażaka. Testuję hipotezę, że wyniki egzaminów i pochodzenie etniczne nie są od siebie niezależne. Aby to przetestować, przeprowadziłem test chi-kwadrat Pearsona w R. Wyniki pokazują, czego się spodziewałem, ale dało ostrzeżenie, że „ In chisq.test(a) : Chi-squared approximation may be incorrect.” > a …

40 r categorical-data chi-squared small-sample error-message

5

Jak uzyskać rozwiązanie regresji kalenicy?

Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej. Znam rozwiązanie regresji bez terminu regularyzacji: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje sięλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

40 regression least-squares regularization ridge-regression

4

Przywołanie i precyzja w klasyfikacji

Czytam niektóre definicje przywołania i precyzji, choć zawsze za każdym razem w kontekście wyszukiwania informacji. Zastanawiałem się, czy ktoś mógłby wyjaśnić to nieco bardziej w kontekście klasyfikacji i może zilustrować kilka przykładów. Powiedzmy na przykład, że mam binarny klasyfikator, który daje mi precyzję 60% i przywołanie 95%, czy to dobry …

40 machine-learning metric

3

Jak zaprezentować wyniki Lasso za pomocą glmnet?

Chciałbym znaleźć predyktory dla ciągłej zmiennej zależnej z zestawu 30 zmiennych niezależnych. Korzystam z regresji Lasso zaimplementowanej w pakiecie glmnet w R. Oto kod zastępczy : # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best …

40 r multiple-regression lasso glmnet communication

2

Jak czytać wykresy odległości Cooka?

Czy ktoś wie, jak sprawdzić, czy punkty 7, 16 i 29 są punktami wpływowymi, czy nie? Czytałem gdzieś, że ponieważ odległość Cooka jest mniejsza niż 1, nie są. Czy mam rację?

40 r regression residuals diagnostic cooks-distance

3

Rozważ sumę

Zastanawiam się nad tym przez jakiś czas; Wydaje mi się to trochę dziwne, jak nagle to się dzieje. Zasadniczo, dlaczego potrzebujemy tylko trzech mundurów, aby wygładził się tak jak on? I dlaczego wygładzanie odbywa się tak szybko?ZnZnZ_n Z2Z2Z_2 : Z3Z3Z_3 : (obrazy bezwstydnie skradzione z bloga Johna D. Cooka: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ …

40 normal-distribution mathematical-statistics uniform central-limit-theorem

3

Jakie są różnice między ukrytymi modelami Markowa a sieciami neuronowymi?

Po prostu moczyłem stopy w statystykach, więc przepraszam, jeśli to pytanie nie ma sensu. Użyłem modeli Markowa do przewidywania stanów ukrytych (nieuczciwe kasyna, rzuty kostką itp.) Oraz sieci neuronowych do badania kliknięć użytkowników w wyszukiwarce. Oba miały ukryte stany, które próbowaliśmy rozgryźć na podstawie obserwacji. O ile mi wiadomo, oba …

40 data-mining algorithms neural-networks markov-process

1

Jak określić znaczące główne komponenty za pomocą ładowania początkowego lub podejścia Monte Carlo?

Interesuje mnie określenie liczby znaczących wzorców pochodzących z analizy głównych składników (PCA) lub analizy empirycznej funkcji ortogonalnej (EOF). Jestem szczególnie zainteresowany zastosowaniem tej metody do danych klimatycznych. Pole danych jest macierzą MxN, gdzie M jest wymiarem czasowym (np. Dni), a N jest wymiarem przestrzennym (np. Lokalizacje lon / lat). Czytałem …

40 r pca bootstrap monte-carlo

15

Jakie najlepsze praktyki należy stosować przygotowując działki?

Przygotowując działki, zwykle dokonuję własnych wyborów. Zastanawiam się jednak, czy istnieją jakieś najlepsze praktyki generowania wykresów. Uwaga: komentarz Roba do odpowiedzi na to pytanie jest tutaj bardzo istotny.

40 data-visualization references

13

Problem Monty Hall - gdzie zawodzi nasza intuicja?

Z Wikipedii: Załóżmy, że bierzesz udział w teleturnieju i masz do wyboru trzy drzwi: za jednymi drzwiami jest samochód; za innymi kozy. Ty wybierasz drzwi, powiedz nr 1, a gospodarz, który wie, co jest za drzwiami, otwiera kolejne drzwi, powiedz nr 3, który ma kozę. Następnie mówi do ciebie: „Czy …

40 probability intuition puzzle

4

W jaki sposób funkcja aktywacji prostoliniowej rozwiązuje problem znikającego gradientu w sieciach neuronowych?

Znalazłem rektyfikowaną jednostkę liniową (ReLU) chwaloną w kilku miejscach jako rozwiązanie problemu znikającego gradientu sieci neuronowych. Oznacza to, że jako funkcję aktywacji używa się max (0, x). Gdy aktywacja jest dodatnia, oczywiste jest, że jest ona lepsza niż, powiedzmy, funkcja aktywacji sigmoidalnej, ponieważ jej pochodna wynosi zawsze 1 zamiast arbitralnie …

40 machine-learning neural-networks deep-learning gradient-descent

5

Klaster dynamicznego dopasowywania w czasie

Jakie byłoby podejście do korzystania z dynamicznego dopasowania czasu (DTW) w celu grupowania szeregów czasowych? Czytałem o DTW jako sposobie znajdowania podobieństwa między dwoma szeregami czasowymi, podczas gdy można je przesunąć w czasie. Czy mogę użyć tej metody jako miary podobieństwa dla algorytmu grupowania, takiego jak k-średnie?

40 time-series clustering

6

Propagacja wsteczna z Softmax / Cross Entropy

Próbuję zrozumieć, jak działa propagacja wsteczna dla warstwy wyjściowej softmax / cross-entropii. Funkcja błędu entropii krzyżowej to E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j z ttt i ooo jako celem i wyjściem odpowiednio w neuronie jjj . Suma jest nad każdym neuronem w warstwie wyjściowej. ojojo_j jest wynikiem funkcji softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Ponownie, …

40 backpropagation derivative softmax cross-entropy