Statystyki i duże zbiory danych deep-learning

2

Jak i dlaczego normalizacja wsadowa wykorzystuje średnie ruchome do śledzenia dokładności modelu podczas treningu?

Czytałem artykuł z normalizacji wsadowej (BN) (1) i nie rozumiałem potrzeby używania średnich ruchomych do śledzenia dokładności modelu, a nawet jeśli zaakceptowałem, że było to właściwe, nie rozumiem co dokładnie robią. W moim rozumieniu (co się mylę) w dokumencie wspomniano, że wykorzystuje on statystyki populacji, a nie mini-partię, statystyki po …

21 machine-learning neural-networks deep-learning conv-neural-network batch-normalization

2

Jaka jest różnica między inicjatorem skalowania wariancji a inicjatorem Xaviera?

W implementacji ResNet przez Tensorflow widzę , że używają inicjalizatora skalowania wariancji, a także, że inicjator Xavier jest popularny. Nie mam za dużo doświadczenia, co jest lepsze w praktyce?

20 machine-learning neural-networks deep-learning conv-neural-network tensorflow

2

Gdzie i dlaczego lśni głębokie uczenie się?

W dzisiejszych czasach, gdy wszystkie media rozmawiają o tym, jak głęboko się uczyć, czytam kilka podstawowych rzeczy na ten temat. Właśnie odkryłem, że jest to kolejna metoda uczenia maszynowego do nauki wzorców z danych. Ale moje pytanie brzmi: gdzie świeci i dlaczego ta metoda świeci? Dlaczego teraz wszyscy o tym …

20 machine-learning data-mining deep-learning deep-belief-networks

3

Jak właściwie wykorzystać wczesne zatrzymanie do treningu głębokiej sieci neuronowej?

Mam model głębokiej sieci neuronowej i muszę go wyszkolić na moim zestawie danych, który składa się z około 100 000 przykładów, moje dane weryfikacyjne zawierają około 1000 przykładów. Ponieważ trenowanie każdego przykładu zajmuje trochę czasu (około 0,5 s dla każdego przykładu) i aby uniknąć nadmiernego dopasowania, chciałbym zastosować wcześniejsze zatrzymanie, …

20 neural-networks deep-learning

2

Po co w sieciach neuronowych używać metod gradientowych zamiast innych metaheurystyk?

Dlaczego podczas treningu głębokich i płytkich sieci neuronowych powszechnie stosuje się metody gradientowe (np. Opadanie gradientu, Niestierow, Newton-Raphson), w przeciwieństwie do innych metaheurystyk? Przez metaheurystykę rozumiem metody takie jak symulowane wyżarzanie, optymalizacja kolonii mrówek itp., Które zostały opracowane w celu uniknięcia utknięcia w lokalnych minimach.

20 neural-networks optimization deep-learning gradient-descent backpropagation

4

Kiedy powinienem używać wariacyjnego autoencodera w przeciwieństwie do autoencodera?

Rozumiem podstawową strukturę wariacyjnego autoencodera i normalnego (deterministycznego) autoencodera oraz matematykę za nimi, ale kiedy i dlaczego wolałbym jeden typ autoencodera od drugiego? Mogę tylko pomyśleć o wcześniejszym rozkładzie ukrytych zmiennych autoencodera wariacyjnego, który pozwala nam próbkować ukryte zmienne, a następnie konstruować nowy obraz. Jaką przewagę ma stochastyczność autokodera wariacyjnego …

20 deep-learning autoencoders variational-bayes

3

Znaczenie węzła stronniczości w sieciach neuronowych

Ciekaw jestem, jak ważny jest węzeł stronniczości dla skuteczności nowoczesnych sieci neuronowych. Z łatwością rozumiem, że może to być ważne w płytkiej sieci z zaledwie kilkoma zmiennymi wejściowymi. Jednak współczesne sieci neuronowe, takie jak głębokie uczenie się, często mają dużą liczbę zmiennych wejściowych, które decydują, czy dany neuron zostanie wyzwolony. …

19 neural-networks deep-learning bias-node

2

Co robią w pełni połączone warstwy w sieciach CNN?

Rozumiem warstwy splotowe i łączące, ale nie widzę powodu w pełni połączonej warstwy w sieciach CNN. Dlaczego poprzednia warstwa nie jest bezpośrednio połączona z warstwą wyjściową?

19 neural-networks deep-learning conv-neural-network

5

Jaka jest różnica między „uczeniem się na zasadzie transferu” a „adaptacją domeny”?

Czy jest jakaś różnica między „uczeniem się przez transfer” a „adaptacją domeny”? Nie wiem o kontekście, ale rozumiem, że mamy jakiś zestaw danych 1 i trenujemy go, po czym mamy inny zestaw danych 2, do którego chcemy dostosować nasz model bez ponownego szkolenia od zera, dla którego „uczenie się przez …

19 deep-learning terminology conv-neural-network transfer-learning domain-adaptation

2

Dlaczego maksymalne tworzenie pul jest konieczne w splotowych sieciach neuronowych?

Najpopularniejsze splotowe sieci neuronowe zawierają pule warstw, aby zmniejszyć wymiary elementów wyjściowych. Dlaczego nie mogłem osiągnąć tego samego, po prostu zwiększając tempo warstwy splotowej? Co sprawia, że warstwa puli jest konieczna?

18 deep-learning conv-neural-network pooling

3

Ikoniczne (zabawkowe) modele sieci neuronowych

Moi profesorowie fizyki w szkole gradowej, a także szlachetny laureat Feynman, zawsze prezentowali tak zwane modele zabawek, aby zilustrować podstawowe pojęcia i metody w fizyce, takie jak oscylator harmoniczny, wahadło, bączek i czarna skrzynka. Jakie modele zabawek służą do zilustrowania podstawowych pojęć i metod leżących u podstaw zastosowania sieci neuronowych? …

18 machine-learning neural-networks deep-learning

2

Dogłębne uczenie się a drzewa decyzyjne i metody wspomagające

Szukam prac lub tekstów, które porównują i omawiają (empirycznie lub teoretycznie): Pobudzanie i drzewa decyzyjne algorytmy takie jak lasy losowe lub adaboost i GentleBoost stosowane do drzew decyzyjnych. z Metody głębokiego uczenia, takie jak Ograniczone Maszyny Boltzmanna , Hierarchiczna Pamięć Czasowa , Splotowe Sieci Neuralne itp. Mówiąc dokładniej, czy ktoś …

18 machine-learning deep-learning cart rbm adaboost

2

Czy metody głębokiego wyszukiwania są używane w głębokim uczeniu się? Dlaczego nie?

Wiele samouczków online mówi o spadku gradientu i prawie wszystkie z nich mają ustalony rozmiar kroku (współczynnik uczenia ). Dlaczego nie ma potrzeby wyszukiwania linii (takiego jak wyszukiwanie linii wstecznej lub dokładne wyszukiwanie linii)?αα\alpha

18 machine-learning neural-networks optimization deep-learning

2

Czy próbki treningowe losowo losowane do treningu neuronowego należy pobierać bez wymiany?

Definiujemy epokę, która przeszła przez wszystkie dostępne próbki szkoleniowe, a rozmiar mini-partii jako liczbę próbek, w stosunku do której uśredniamy, aby znaleźć aktualizacje wag / odchyleń potrzebnych do zejścia z gradientu. Moje pytanie brzmi: czy powinniśmy rysować bez zastępowania z zestawu przykładów treningu, aby wygenerować każdą mini-partię w epoce. Wydaje …

18 machine-learning neural-networks optimization deep-learning

4

O CNN, jądrach i niezmienności skali / rotacji

Mam kilka pytań, które mnie dezorientują w odniesieniu do CNN. 1) Funkcje wyodrębnione za pomocą CNN są niezmienne w skali i rotacji? 2) Jądra, których używamy do splotu z naszymi danymi, są już zdefiniowane w literaturze? jakie są te jądra? czy jest inaczej dla każdej aplikacji?

18 neural-networks deep-learning conv-neural-network

Pytania otagowane jako deep-learning