Co w artykule „Szybszy RCNN”, gdy mówimy o zakotwiczeniu, co oznaczają przez użycie „piramid pól referencyjnych” i jak to się robi? Czy to tylko oznacza, że w każdym punkcie kotwiczenia W * H * k generowana jest ramka ograniczająca? Gdzie W = szerokość, H = wysokość, a k = liczba …
Przeczytałem o maszynach SVM i dowiedziałem się, że rozwiązują one problem optymalizacji, a maksymalny margines był bardzo rozsądny. Teraz, za pomocą jąder, mogą znaleźć nawet nieliniowe granice separacji, co było świetne. Jak dotąd naprawdę nie mam pojęcia, w jaki sposób SVM (specjalna maszyna jądra) i maszyny jądra są powiązane z …
Korzystam z dwukierunkowego RNN, aby wykryć zdarzenie niezrównoważonego wystąpienia. Klasa dodatnia jest 100 razy rzadziej niż klasa negatywna. Chociaż nie używa się regularyzacji, mogę uzyskać 100% dokładności na zestawie pociągów i 30% na zestawie walidacji. Włączam regularyzację l2, a wynik to tylko 30% dokładności na zestawie pociągów zamiast dłuższego uczenia …
Powiedzmy, że mam trochę architektury modelowania dogłębnego uczenia się, a także wybrany rozmiar mini-partii. Jak czerpać z tych oczekiwanych wymagań dotyczących pamięci na potrzeby szkolenia tego modelu? Jako przykład weźmy pod uwagę (jednorazowy) model z wejściem o wymiarze 1000, 4 w pełni połączone ukryte warstwy o wymiarze 100 oraz dodatkową …
Uczę się o głębokim uczeniu się (w szczególności CNN) i o tym, jak zwykle wymaga ogromnej ilości danych, aby zapobiec nadmiernemu dopasowaniu. Jednak powiedziano mi również, że im wyższa pojemność / więcej parametrów modelu, tym więcej danych jest wymaganych, aby zapobiec nadmiernemu dopasowaniu. Dlatego moje pytanie brzmi: dlaczego nie możesz …
Mam niezrównoważony zestaw danych w zadaniu klasyfikacji binarnej, w którym liczba dodatnia vs. liczba ujemna wynosi 0,3% w porównaniu z 99,7%. Różnica między pozytywami a negatywami jest ogromna. Kiedy trenuję CNN ze strukturą stosowaną w problemie MNIST, wynik testu pokazuje wysoką fałszywą ujemną częstość. Ponadto krzywa błędu treningu szybko spada …
Niedawno obejrzałem tę rozmowę Erica J. Ma i sprawdziłem jego wpis na blogu , w którym cytuje Radforda Neala, że modele bayesowskie nie pasują (ale mogą się przewyższać ), a podczas ich używania nie potrzebujemy zestawów testowych do ich weryfikacji (dla wydaje mi się, że cytaty mówią raczej o użyciu …
Przykłady: w opisie stanowiska mam zdanie: „Starszy inżynier Java w Wielkiej Brytanii”. Chcę użyć modelu głębokiego uczenia się, aby przewidzieć go jako 2 kategorie: English i IT jobs. Jeśli użyję tradycyjnego modelu klasyfikacji, może on przewidzieć tylko 1 etykietę z softmaxfunkcją na ostatniej warstwie. Dlatego mogę użyć 2 modelowych sieci …
Jak interpretujesz krzywą przeżycia z proporcjonalnego modelu hazardu Coxa? W tym przykładzie zabawki załóżmy, że mamy proporcjonalny model hazardu Coxa dla agezmiennej w kidneydanych i generujemy krzywą przeżycia. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Na przykład o czasie 200200200, które stwierdzenie jest prawdziwe? czy oba są w …
Trenuję prostą sieć neuronową splotową do regresji, której zadaniem jest przewidzenie (x, y) położenia ramki na obrazie, np .: Dane wyjściowe sieci mają dwa węzły, jeden dla x i jeden dla y. Reszta sieci jest standardową splotową siecią neuronową. Strata jest standardowym średnim kwadratowym błędem między przewidywaną pozycją pudełka a …
Chcę obliczyć ważność każdej funkcji wejściowej przy użyciu modelu głębokiego. Ale znalazłem tylko jeden artykuł na temat wyboru funkcji za pomocą głębokiego uczenia się - głęboki wybór funkcji . Wstawiają warstwę węzłów połączonych bezpośrednio z każdą operacją przed pierwszą ukrytą warstwą. Słyszałem, że do tego rodzaju pracy można również wykorzystać …
Według „Efficient Backprop” LeCun i wsp. (1998) dobrą praktyką jest znormalizowanie wszystkich danych wejściowych, tak aby były one wyśrodkowane wokół 0 i mieściły się w zakresie maksymalnej drugiej pochodnej. Na przykład użylibyśmy [-0,5,0,5] dla funkcji „Tanh”. Ma to pomóc w postępie wstecznej propagacji, gdy Hesjan staje się bardziej stabilny. Nie …
Po przeczytaniu wielu artykułów do głębokiego uczenia się, rodzajem szorstkiego odczucia jest to, że istnieje wiele sztuczek w szkoleniu sieci, aby uzyskać lepszą niż zwykle wydajność. Z punktu widzenia aplikacji branżowych bardzo trudno jest opracować tego rodzaju sztuczki, z wyjątkiem elitarnych grup badawczych w dużych firmach technologicznych, np. Google lub …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.