Sztuczne sieci neuronowe (ANN) to szeroka klasa modeli obliczeniowych luźno opartych na biologicznych sieciach neuronowych. Obejmują one wyprzedzające NN (w tym „głębokie” NN), splotowe NN, nawracające NN itp.
Tensorflow ma przykładowy samouczek na temat klasyfikowania CIFAR-10 . W samouczku średnia utrata entropii krzyżowej w partii jest zminimalizowana. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of …
W literaturze dotyczącej sieci neuronowych często spotykamy słowo „tensor”. Czy różni się od wektora? A z matrycy? Czy masz jakiś konkretny przykład, który wyjaśnia jego definicję? Jestem trochę zdezorientowany co do jego definicji. Wikipedia nie pomaga i czasami mam wrażenie, że jej definicja zależy od konkretnego używanego środowiska uczenia maszynowego …
Próbuję zrozumieć kontekst słynnej książki Minsky and Papert „Perceptrons” z 1969 roku, tak krytycznej dla sieci neuronowych. O ile mi wiadomo, nie było jeszcze innych ogólnych algorytmów uczenia nadzorowanego, z wyjątkiem perceptronu: drzewa decyzyjne zaczęły być naprawdę przydatne dopiero pod koniec lat 70., losowe lasy i maszyny SVM to lata …
Z góry przepraszam za to, że wciąż przyspieszam. Próbuję zrozumieć zalety i wady używania tanh (mapa -1 do 1) vs. sigmoid (mapa 0 do 1) dla mojej funkcji aktywacji neuronu. Z mojego czytania zabrzmiało to jak drobna rzecz z marginalnymi różnicami. W praktyce dla moich problemów uważam, że sigmoid jest …
Ucząc się splotowej sieci neuronowej, mam pytania dotyczące poniższego rysunku. 1) C1 w warstwie 1 ma 6 map obiektów, czy to oznacza, że istnieje sześć zwojów splotowych? Każde jądro splotowe służy do generowania mapy obiektów na podstawie danych wejściowych. 2) S1 w warstwie 2 ma 6 map obiektów, C2 ma …
Studiuję splotowe sieci neuronowe (CNN) ze względu na ich zastosowania w wizji komputerowej. Znam już standardowe sieci neuronowe typu feed-forward, więc mam nadzieję, że niektórzy ludzie tutaj pomogą mi zrobić dodatkowy krok w zrozumieniu CNN. Oto, co myślę o CNN: W tradycyjnych NN z feed-feedem mamy dane treningowe, w których …
Natknąłem się na kilka podstawowych sposobów pomiaru złożoności sieci neuronowych: Naiwne i nieformalne: policz liczbę neuronów, ukrytych neuronów, warstw lub ukrytych warstw Wymiar VC (Eduardo D. Sontag [1998] „Wymiar VC sieci neuronowych” [ pdf ].) Miara złożonejT.do0reT.dore0TC^0_d i asymptotycznej złożoności obliczeniowej kursu przez równoważność z . Czy są inne alternatywy? …
Potrzebuję zasobów, aby zacząć korzystać z sieci neuronowych do prognozowania szeregów czasowych. Obawiam się zaimplementowania jakiejś pracy, a następnie stwierdzenia, że znacznie przekroczyły potencjał swoich metod. Więc jeśli masz doświadczenie z metodami, które sugerujesz, będzie to jeszcze bardziej niesamowite.
To kwestia terminologii. Czasami widzę, że ludzie określają głębokie sieci neuronowe jako „wielowarstwowe perceptrony”, dlaczego tak jest? Nauczono mnie, że perceptron to klasyfikator jednowarstwowy (lub regresor) z wyjściowym progiem binarnym, wykorzystujący określony sposób szkolenia wag (nie z powrotem). Jeśli wynik działania perceptronu nie jest zgodny z wynikiem docelowym, dodajemy lub …
Jaka jest pochodna funkcji aktywacji ReLU zdefiniowana jako: ReLU(x)=max(0,x)ReLU(x)=max(0,x) \mathrm{ReLU}(x) = \mathrm{max}(0, x) Co ze szczególnym przypadkiem, w którym występuje nieciągłość funkcji przy ?x=0x=0x=0
Próbuję zrozumieć funkcję utraty Yolo v2: λc o o r d∑i = 0S.2)∑j = 0b1o b jI j[ ( xja- x^ja)2)+ ( yja- y^ja)2)]+ λc o o r d∑i = 0S.2)∑j = 0b1o b jI j[ ( wja--√- w^ja--√)2)+ ( godzja--√- h^ja--√)2)]+ ∑i = 0S.2)∑j = 0b1o b jI j( …
Uczę sieci neuronowej przy użyciu i) SGD i ii) Adam Optimizer. Korzystając z normalnego SGD, uzyskuję płynną krzywą utraty treningu w porównaniu z krzywą iteracji, jak pokazano poniżej (czerwona). Kiedy jednak użyłem Optymalizatora Adama, krzywa utraty treningu ma pewne skoki. Jakie jest wyjaśnienie tych skoków? Szczegóły modelu: 14 węzłów wejściowych …
Rozumiem powody dzielenia danych na zestaw testowy i zestaw walidacyjny. Rozumiem również, że rozmiar podziału będzie zależał od sytuacji, ale ogólnie będzie wynosił od 50/50 do 90/10. Zbudowałem RNN, aby poprawić pisownię i zacząłem od zestawu danych ~ 5m zdań. Ogoliłem 500 000 zdań, a następnie trenowałem z pozostałymi ~ …
Podczas szkolenia prostego klasyfikatora binarnego sieci neuronowej uzyskuję wysoką wartość stratności, używając entropii krzyżowej. Mimo to wartość dokładności zestawu sprawdzania poprawności jest całkiem dobra. Czy to ma jakieś znaczenie? Nie ma ścisłej korelacji między stratą a dokładnością? Mam na szkoleniu i walidacji następujące wartości: 0,4011 - acc: 0,8224 - val_loss: …
Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.