Nauka danych gradient-descent

4

Scikit-learn: Jak SGDClassifier przewidział, a także regresję logistyczną

Metodą trenowania regresji logistycznej jest użycie stochastycznego spadku gradientu, do którego scikit-learn oferuje interfejs. Co chciałbym zrobić, to wziąć scikit-learn na SGDClassifier i mieć go zdobyć taki sam jak regresja logistyczna tutaj . Jednak muszę brakować niektórych ulepszeń uczenia maszynowego, ponieważ moje wyniki nie są równoważne. To jest mój obecny …

24 python logistic-regression scikit-learn gradient-descent

3

Jaka jest różnica między spadkiem gradientu a spadkiem gradientu stochastycznego?

Jaka jest różnica między spadkiem gradientu a spadkiem gradientu stochastycznego? Nie znam ich zbyt dobrze, czy możesz opisać różnicę krótkim przykładem?

24 machine-learning neural-network deep-learning gradient-descent

4

Czy spadek gradientu zawsze jest zbieżny z optymalnym?

Zastanawiam się, czy istnieje scenariusz, w którym zejście gradientu nie jest zbieżne do minimum. Zdaję sobie sprawę, że nie zawsze gwarantuje się, że zejście gradientu zbliży się do globalnego optimum. Wiem również, że może różnić się od optymalnego, jeśli powiedzmy, że stopień jest zbyt duży. Wydaje mi się jednak, że …

21 machine-learning neural-network deep-learning optimization gradient-descent

1

Dlaczego ReLU jest lepszy niż inne funkcje aktywacyjne

Tutaj odpowiedź odnosi się do znikania i eksplodowania gradientów, które były sigmoidpodobne do funkcji aktywacyjnych, ale, jak sądzę, Relumają wadę i są to oczekiwana wartość. nie ma ograniczeń dla wyjścia, Reluwięc jego oczekiwana wartość nie jest równa zero. Pamiętam czas, zanim popularność Reluta tanhbyła najbardziej popularna wśród ekspertów w dziedzinie …

17 machine-learning neural-network deep-learning gradient-descent activation-function

4

Czy zejście gradientu ma kluczowe znaczenie dla każdego optymalizatora?

Chcę wiedzieć, czy spadek gradientu jest głównym algorytmem stosowanym w optymalizatorach takich jak Adam, Adagrad, RMSProp i kilku innych optymalizatorach.

13 machine-learning neural-network deep-learning optimization gradient-descent

1

Ile komórek LSTM powinienem użyć?

Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

4

Dlaczego przyspiesza opadanie gradientu, jeśli funkcja jest płynna?

Przeczytałem teraz książkę zatytułowaną „Praktyczne uczenie maszynowe za pomocą Scikit-Learn i TensorFlow”, a na rozdziale 11 znajduje się następujący opis objaśnienia ELU (wykładniczej ReLU). Po trzecie, funkcja jest płynna wszędzie, w tym wokół z = 0, co pomaga przyspieszyć opadanie gradientu, ponieważ nie odbija się tak bardzo w lewo i …

10 deep-learning gradient-descent

1

Jak elastyczny jest związek między funkcją celu a funkcją aktywacji warstwy wyjściowej?

Wydaje się, że w wielu pakietach sieci neuronowych sparowanie funkcji celu ma zostać zminimalizowane za pomocą funkcji aktywacji w warstwie wyjściowej. Na przykład dla liniowej warstwy wyjściowej używanej do regresji standardową (i często jedyną możliwością) jest funkcja celu z kwadratem błędu. Innym typowym parowaniem jest wyjście logistyczne i utrata dziennika …

10 neural-network gradient-descent

2

Stochastyczne opadanie gradientu w oparciu o operacje wektorowe?

Załóżmy, że chcę trenować algorytm regresji spadku gradientu stochastycznego przy użyciu zestawu danych zawierającego N próbek. Ponieważ rozmiar zestawu danych jest ustalony, ponownie użyję danych T razy. Przy każdej iteracji lub „epoce” używam każdej próbki treningowej dokładnie raz po losowym uporządkowaniu całego zestawu treningowego. Moja implementacja oparta jest na Pythonie …

10 python gradient-descent regression

2

Dlaczego szybkość uczenia się powoduje, że waga mojej sieci neuronowej gwałtownie rośnie?

Używam tensorflow do pisania prostych sieci neuronowych w celu trochę badań i miałem wiele problemów z wagami „nan” podczas treningu. Próbowałem wielu różnych rozwiązań, takich jak zmiana optymalizatora, zmiana utraty, rozmiaru danych itp., Ale bezskutecznie. Wreszcie zauważyłem, że zmiana współczynnika uczenia się spowodowała niewiarygodną różnicę w moich wagach. Przy zastosowaniu …

9 machine-learning python tensorflow optimization gradient-descent

Pytania otagowane jako gradient-descent