Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Po udzieleniu odpowiedzi na pytanie ( Wyodrębnianie znaczenia wagi z jednowarstwowej sieci feed-forward ) szukam wnioskowania na temat znaczenia danych wejściowych w sieciach neuronowych. Biorąc pod uwagę głęboką sieć, w której rekonstrukcja znaczenia wejściowego poprzez przejście wstecz przez warstwy z interesującego węzła wyjściowego może być trudna lub czasochłonna, zastanawiałem się, …
Czy są jakieś dobre powody, aby preferować wartości binarne (0/1) zamiast dyskretnych lub ciągłych wartości znormalizowanych , np. (1; 3), jako dane wejściowe dla sieci sprzężenia zwrotnego dla wszystkich węzłów wejściowych (z propagacją wsteczną lub bez)? Oczywiście mówię tylko o danych wejściowych, które można przekształcić w dowolną formę; np. jeśli …
Zwłaszcza w kontekście zawodów kaggle zauważyłem, że wydajność modelu polega na wyborze / inżynierii funkcji. Chociaż w pełni rozumiem, dlaczego tak jest w przypadku bardziej konwencjonalnych / oldskulowych algorytmów ML, nie rozumiem, dlaczego tak jest w przypadku korzystania z głębokich sieci neuronowych. Powołując się na książkę Deep Learning: Głębokie uczenie …
Czytałem FaceNet papier i w 3. akapicie wprowadzenia mówi: Wcześniejsze podejścia do rozpoznawania twarzy oparte na głębokich sieciach wykorzystywały warstwę klasyfikacyjną przeszkoloną w oparciu o zestaw znanych tożsamości twarzy, a następnie przyjmowały pośrednią warstwę wąskiego gardła jako reprezentację stosowaną do uogólnienia rozpoznawania poza zestawem tożsamości używanych w szkoleniu. Zastanawiałem się, …
Próbuję zrozumieć słynny artykuł „Playing Atari with Deep Reinforcement Learning” ( pdf ). Nie jestem pewien, jaka jest różnica między epoką a epizodem . W algorytmie zewnętrzna pętla kończy się epizodami , natomiast na rysunku oś x jest oznaczona epoką . W kontekście uczenia się przez wzmacnianie nie jestem jasne, …
W niektórych samouczkach stwierdziłem, że inicjalizacja wagi „Xaviera” (papier: Zrozumienie trudności w uczeniu głębokich sieci neuronowych ze sprzężeniem zwrotnym ) jest skutecznym sposobem inicjalizacji wag sieci neuronowych. W przypadku w pełni połączonych warstw w tych samouczkach obowiązywała zasada: Var(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W) = \frac{2}{n_{in} + n_{out}}, \quad \text{simpler alternative:} \quad Var(W) …
Próbuję wytrenować sieć neuronową do klasyfikacji, ale etykiety, które mam, są raczej hałaśliwe (około 30% etykiet jest błędnych). Strata między entropią rzeczywiście działa, ale zastanawiałem się, czy są jakieś alternatywy bardziej skuteczne w tym przypadku? czy utrata przez entropię jest optymalna? Nie jestem pewien, ale myślę o pewnym „przycięciu” utraty …
Twierdzenie o uniwersalnej aproksymacji jest dość znanym wynikiem dla sieci neuronowych, mówiąc w zasadzie, że przy niektórych założeniach funkcja może być jednolicie aproksymowana przez sieć neuronową z dowolną dokładnością. Czy istnieje jakiś analogiczny wynik, który stosuje się do splotowych sieci neuronowych?
Mam zestaw danych zawierający 34 kolumny wejściowe i 8 kolumn wyjściowych. Jednym ze sposobów rozwiązania tego problemu jest pobranie 34 danych wejściowych i zbudowanie indywidualnego modelu regresji dla każdej kolumny wyjściowej. Zastanawiam się, czy ten problem można rozwiązać za pomocą tylko jednego modelu, szczególnie za pomocą sieci neuronowej. Użyłem perceptronu …
Mam surowe dane, które mają około 20 kolumn (20 funkcji). Dziesięć z nich to ciągłe dane, a 10 z nich ma charakter kategoryczny. Niektóre dane jakościowe mogą mieć 50 różnych wartości (stany USA). Po wstępnym przetworzeniu danych 10 ciągłych kolumn staje się 10 przygotowanymi kolumnami, a 10 wartości kategorycznych staje …
W artykule DeepMind z 2015 r. Na temat uczenia się głębokiego wzmacniania stwierdzono, że „poprzednie próby połączenia RL z sieciami neuronowymi były w dużej mierze nieudane z powodu niestabilnego uczenia się”. Następnie w artykule wymieniono niektóre przyczyny tego zjawiska, oparte na korelacjach między obserwacjami. Czy ktoś mógłby wyjaśnić, co to …
Przeczytałem kilka artykułów na temat ręcznego tworzenia obrazów w celu „oszukania” sieci neuronowej (patrz poniżej). Czy to dlatego, że sieci modelują tylko prawdopodobieństwo warunkowe ? Jeśli sieć może modelować wspólne prawdopodobieństwo , czy takie przypadki nadal występują?p ( y , x )p ( y| x)p(y|x)p(y|x)p ( y, x )p(y,x)p(y,x) Domyślam …
Moim zdaniem skorelowane dane wejściowe muszą prowadzić do nadmiernego dopasowania w sieciach neuronowych, ponieważ sieć uczy się korelacji, np. Szumu w danych. Czy to jest poprawne?
Podczas inicjowania wag połączeń w sieci neuronowej ze sprzężeniem zwrotnym ważne jest, aby inicjować je losowo, aby uniknąć symetrii, których algorytm uczenia się nie byłby w stanie złamać. Zalecenie, które widziałem w różnych miejscach (np. W samouczku MNIST firmy TensorFlow ), to stosowanie skróconego rozkładu normalnego przy użyciu standardowego odchylenia …
Używam sieci lstm i feed-forward do klasyfikowania tekstu. Przekształcam tekst w pojedyncze gorące wektory i wprowadzam każdy do lstm, dzięki czemu mogę podsumować jako pojedynczą reprezentację. Następnie przesyłam go do innej sieci. Ale jak mam trenować lstm? Chcę po prostu sklasyfikować tekst - czy powinienem go karmić bez szkolenia? Chcę …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.