Czytałem artykuł z normalizacji wsadowej (BN) (1) i nie rozumiałem potrzeby używania średnich ruchomych do śledzenia dokładności modelu, a nawet jeśli zaakceptowałem, że było to właściwe, nie rozumiem co dokładnie robią. W moim rozumieniu (co się mylę) w dokumencie wspomniano, że wykorzystuje on statystyki populacji, a nie mini-partię, statystyki po …
W implementacji ResNet przez Tensorflow widzę , że używają inicjalizatora skalowania wariancji, a także, że inicjator Xavier jest popularny. Nie mam za dużo doświadczenia, co jest lepsze w praktyce?
W dzisiejszych czasach, gdy wszystkie media rozmawiają o tym, jak głęboko się uczyć, czytam kilka podstawowych rzeczy na ten temat. Właśnie odkryłem, że jest to kolejna metoda uczenia maszynowego do nauki wzorców z danych. Ale moje pytanie brzmi: gdzie świeci i dlaczego ta metoda świeci? Dlaczego teraz wszyscy o tym …
Mam model głębokiej sieci neuronowej i muszę go wyszkolić na moim zestawie danych, który składa się z około 100 000 przykładów, moje dane weryfikacyjne zawierają około 1000 przykładów. Ponieważ trenowanie każdego przykładu zajmuje trochę czasu (około 0,5 s dla każdego przykładu) i aby uniknąć nadmiernego dopasowania, chciałbym zastosować wcześniejsze zatrzymanie, …
Dlaczego podczas treningu głębokich i płytkich sieci neuronowych powszechnie stosuje się metody gradientowe (np. Opadanie gradientu, Niestierow, Newton-Raphson), w przeciwieństwie do innych metaheurystyk? Przez metaheurystykę rozumiem metody takie jak symulowane wyżarzanie, optymalizacja kolonii mrówek itp., Które zostały opracowane w celu uniknięcia utknięcia w lokalnych minimach.
Rozumiem podstawową strukturę wariacyjnego autoencodera i normalnego (deterministycznego) autoencodera oraz matematykę za nimi, ale kiedy i dlaczego wolałbym jeden typ autoencodera od drugiego? Mogę tylko pomyśleć o wcześniejszym rozkładzie ukrytych zmiennych autoencodera wariacyjnego, który pozwala nam próbkować ukryte zmienne, a następnie konstruować nowy obraz. Jaką przewagę ma stochastyczność autokodera wariacyjnego …
Ciekaw jestem, jak ważny jest węzeł stronniczości dla skuteczności nowoczesnych sieci neuronowych. Z łatwością rozumiem, że może to być ważne w płytkiej sieci z zaledwie kilkoma zmiennymi wejściowymi. Jednak współczesne sieci neuronowe, takie jak głębokie uczenie się, często mają dużą liczbę zmiennych wejściowych, które decydują, czy dany neuron zostanie wyzwolony. …
Rozumiem warstwy splotowe i łączące, ale nie widzę powodu w pełni połączonej warstwy w sieciach CNN. Dlaczego poprzednia warstwa nie jest bezpośrednio połączona z warstwą wyjściową?
Czy jest jakaś różnica między „uczeniem się przez transfer” a „adaptacją domeny”? Nie wiem o kontekście, ale rozumiem, że mamy jakiś zestaw danych 1 i trenujemy go, po czym mamy inny zestaw danych 2, do którego chcemy dostosować nasz model bez ponownego szkolenia od zera, dla którego „uczenie się przez …
Najpopularniejsze splotowe sieci neuronowe zawierają pule warstw, aby zmniejszyć wymiary elementów wyjściowych. Dlaczego nie mogłem osiągnąć tego samego, po prostu zwiększając tempo warstwy splotowej? Co sprawia, że warstwa puli jest konieczna?
Moi profesorowie fizyki w szkole gradowej, a także szlachetny laureat Feynman, zawsze prezentowali tak zwane modele zabawek, aby zilustrować podstawowe pojęcia i metody w fizyce, takie jak oscylator harmoniczny, wahadło, bączek i czarna skrzynka. Jakie modele zabawek służą do zilustrowania podstawowych pojęć i metod leżących u podstaw zastosowania sieci neuronowych? …
Szukam prac lub tekstów, które porównują i omawiają (empirycznie lub teoretycznie): Pobudzanie i drzewa decyzyjne algorytmy takie jak lasy losowe lub adaboost i GentleBoost stosowane do drzew decyzyjnych. z Metody głębokiego uczenia, takie jak Ograniczone Maszyny Boltzmanna , Hierarchiczna Pamięć Czasowa , Splotowe Sieci Neuralne itp. Mówiąc dokładniej, czy ktoś …
Wiele samouczków online mówi o spadku gradientu i prawie wszystkie z nich mają ustalony rozmiar kroku (współczynnik uczenia ). Dlaczego nie ma potrzeby wyszukiwania linii (takiego jak wyszukiwanie linii wstecznej lub dokładne wyszukiwanie linii)?αα\alpha
Definiujemy epokę, która przeszła przez wszystkie dostępne próbki szkoleniowe, a rozmiar mini-partii jako liczbę próbek, w stosunku do której uśredniamy, aby znaleźć aktualizacje wag / odchyleń potrzebnych do zejścia z gradientu. Moje pytanie brzmi: czy powinniśmy rysować bez zastępowania z zestawu przykładów treningu, aby wygenerować każdą mini-partię w epoce. Wydaje …
Mam kilka pytań, które mnie dezorientują w odniesieniu do CNN. 1) Funkcje wyodrębnione za pomocą CNN są niezmienne w skali i rotacji? 2) Jądra, których używamy do splotu z naszymi danymi, są już zdefiniowane w literaturze? jakie są te jądra? czy jest inaczej dla każdej aplikacji?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.