Dlaczego de facto standardowa funkcja sigmoidalna tak popularna w (nie-głębokich) sieciach neuronowych i regresji logistycznej?11+e−x11+e−x\frac{1}{1+e^{-x}} Dlaczego nie używamy wielu innych pochodnych funkcji, z szybszym czasem obliczeń lub wolniejszym rozpadem (więc zanikający gradient występuje mniej). Na Wikipedii jest niewiele przykładów dotyczących funkcji sigmoidalnych . Jednym z moich ulubionych z powolnym rozkładem …
To bardzo proste i głupie pytanie. Jednak kiedy byłem w szkole, bardzo mało uwagi poświęciłem całej koncepcji symulacji w klasie, co trochę mnie przeraziło. Czy potrafisz wyjaśnić proces symulacji w kategoriach laików? (może służyć do generowania danych, współczynników regresji itp.) Jakie są praktyczne sytuacje / problemy, kiedy można zastosować symulacje? …
Mam dane pokazujące wyniki egzaminu wstępnego do strażaka. Testuję hipotezę, że wyniki egzaminów i pochodzenie etniczne nie są od siebie niezależne. Aby to przetestować, przeprowadziłem test chi-kwadrat Pearsona w R. Wyniki pokazują, czego się spodziewałem, ale dało ostrzeżenie, że „ In chisq.test(a) : Chi-squared approximation may be incorrect.” > a …
Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej. Znam rozwiązanie regresji bez terminu regularyzacji: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje sięλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.
Czytam niektóre definicje przywołania i precyzji, choć zawsze za każdym razem w kontekście wyszukiwania informacji. Zastanawiałem się, czy ktoś mógłby wyjaśnić to nieco bardziej w kontekście klasyfikacji i może zilustrować kilka przykładów. Powiedzmy na przykład, że mam binarny klasyfikator, który daje mi precyzję 60% i przywołanie 95%, czy to dobry …
Chciałbym znaleźć predyktory dla ciągłej zmiennej zależnej z zestawu 30 zmiennych niezależnych. Korzystam z regresji Lasso zaimplementowanej w pakiecie glmnet w R. Oto kod zastępczy : # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best …
Czy ktoś wie, jak sprawdzić, czy punkty 7, 16 i 29 są punktami wpływowymi, czy nie? Czytałem gdzieś, że ponieważ odległość Cooka jest mniejsza niż 1, nie są. Czy mam rację?
Zastanawiam się nad tym przez jakiś czas; Wydaje mi się to trochę dziwne, jak nagle to się dzieje. Zasadniczo, dlaczego potrzebujemy tylko trzech mundurów, aby wygładził się tak jak on? I dlaczego wygładzanie odbywa się tak szybko?ZnZnZ_n Z2Z2Z_2 : Z3Z3Z_3 : (obrazy bezwstydnie skradzione z bloga Johna D. Cooka: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ …
Po prostu moczyłem stopy w statystykach, więc przepraszam, jeśli to pytanie nie ma sensu. Użyłem modeli Markowa do przewidywania stanów ukrytych (nieuczciwe kasyna, rzuty kostką itp.) Oraz sieci neuronowych do badania kliknięć użytkowników w wyszukiwarce. Oba miały ukryte stany, które próbowaliśmy rozgryźć na podstawie obserwacji. O ile mi wiadomo, oba …
Interesuje mnie określenie liczby znaczących wzorców pochodzących z analizy głównych składników (PCA) lub analizy empirycznej funkcji ortogonalnej (EOF). Jestem szczególnie zainteresowany zastosowaniem tej metody do danych klimatycznych. Pole danych jest macierzą MxN, gdzie M jest wymiarem czasowym (np. Dni), a N jest wymiarem przestrzennym (np. Lokalizacje lon / lat). Czytałem …
Przygotowując działki, zwykle dokonuję własnych wyborów. Zastanawiam się jednak, czy istnieją jakieś najlepsze praktyki generowania wykresów. Uwaga: komentarz Roba do odpowiedzi na to pytanie jest tutaj bardzo istotny.
Z Wikipedii: Załóżmy, że bierzesz udział w teleturnieju i masz do wyboru trzy drzwi: za jednymi drzwiami jest samochód; za innymi kozy. Ty wybierasz drzwi, powiedz nr 1, a gospodarz, który wie, co jest za drzwiami, otwiera kolejne drzwi, powiedz nr 3, który ma kozę. Następnie mówi do ciebie: „Czy …
Znalazłem rektyfikowaną jednostkę liniową (ReLU) chwaloną w kilku miejscach jako rozwiązanie problemu znikającego gradientu sieci neuronowych. Oznacza to, że jako funkcję aktywacji używa się max (0, x). Gdy aktywacja jest dodatnia, oczywiste jest, że jest ona lepsza niż, powiedzmy, funkcja aktywacji sigmoidalnej, ponieważ jej pochodna wynosi zawsze 1 zamiast arbitralnie …
Jakie byłoby podejście do korzystania z dynamicznego dopasowania czasu (DTW) w celu grupowania szeregów czasowych? Czytałem o DTW jako sposobie znajdowania podobieństwa między dwoma szeregami czasowymi, podczas gdy można je przesunąć w czasie. Czy mogę użyć tej metody jako miary podobieństwa dla algorytmu grupowania, takiego jak k-średnie?
Próbuję zrozumieć, jak działa propagacja wsteczna dla warstwy wyjściowej softmax / cross-entropii. Funkcja błędu entropii krzyżowej to E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlogojE(t,o)=-\sum_j t_j \log o_j z ttt i ooo jako celem i wyjściem odpowiednio w neuronie jjj . Suma jest nad każdym neuronem w warstwie wyjściowej. ojojo_j jest wynikiem funkcji softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Ponownie, …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.