Algorytmy uczenia maszynowego budują model danych szkoleniowych. Termin „uczenie maszynowe” jest niejasno zdefiniowany; obejmuje to tak zwane uczenie statystyczne, uczenie wzmacniające, uczenie bez nadzoru itp. ZAWSZE DODAJ SZCZEGÓŁOWĄ TAGĘ.
Widziałem, że ludzie wkładali wiele wysiłku w SVM i jądra i wyglądają całkiem interesująco jako starter w uczeniu maszynowym. Ale jeśli spodziewamy się, że prawie zawsze moglibyśmy znaleźć lepsze rozwiązanie pod względem (głębokiej) sieci neuronowej, jakie jest znaczenie wypróbowania innych metod w tej erze? Oto moje ograniczenie na ten temat. …
Czy ktoś widział jakąkolwiek literaturę na temat szkolenia wstępnego w głęboko splotowej sieci neuronowej? Widziałem tylko bez nadzoru trening wstępny w automatyce lub ograniczonych maszynach Boltzmana.
Mam zestaw danych do przesyłania strumieniowego, przykłady są dostępne pojedynczo. Musiałbym na nich dokonać klasyfikacji wielu klas. Jak tylko podałem przykład szkolenia do procesu uczenia się, muszę go odrzucić. Jednocześnie używam również najnowszego modelu do prognozowania danych nieznakowanych. O ile mi wiadomo, sieć neuronowa jest w stanie przeprowadzić uczenie strumieniowe, …
Szukam wyjaśnienia, w jaki sposób względna ważność zmiennych jest obliczana w drzewach wspomaganych gradientem, które nie jest zbyt ogólne / uproszczone, takie jak: Miary są oparte na liczbie wyborów zmiennej do podziału, ważone przez podniesienie kwadratu do modelu w wyniku każdego podziału i uśredniane dla wszystkich drzew . [ Elith …
Rozumiem, że HMM (ukryte modele Markowa) to modele generatywne, a CRF to modele dyskryminujące. Rozumiem również, w jaki sposób zaprojektowano i zastosowano CRF (warunkowe pola losowe). Nie rozumiem, czym różnią się od HMM? Czytałem, że w przypadku HMM możemy modelować nasz następny stan tylko na poprzednim węźle, bieżącym węźle i …
W Andrzej zNg sieci neuronowe i głęboki learning na Coursera mówi, że przy tanhtanhtanh jest prawie zawsze korzystniejsze sigmoidsigmoidsigmoid . Powodem jest to, że daje on wyjść przy użyciu tanhtanhtanh centrum niż około 0 sigmoidsigmoidsigmoid „a 0,5, a to«sprawia, że uczenie się do następnej warstwy trochę łatwiejsze». Dlaczego centrowanie uczenia …
Na przykład podczas regresji, dwoma hiperparametrami do wyboru są często pojemność funkcji (np. Największy wykładnik wielomianu) i ilość regularyzacji. Jestem zdezorientowany, dlaczego nie po prostu wybrać funkcję niskiej pojemności, a następnie zignorować jakąkolwiek regularyzację? W ten sposób nie będzie pasował. Jeśli mam funkcję dużej pojemności wraz z regularyzacją, czy to …
Natknąłem się na ten artykuł, który wykorzystuje wykrywanie anomalii linków do przewidywania trendów, i uważam, że jest to niezwykle intrygujące: artykuł „Odkrywanie pojawiających się tematów w strumieniach społecznościowych poprzez wykrywanie anomalii linków” . Chciałbym powielić go na innym zestawie danych, ale nie znam wystarczająco metod, aby wiedzieć, jak z nich …
Jestem zupełnie nowy w sieciach neuronowych, ale bardzo zainteresowany ich zrozumieniem. Jednak nie jest łatwo zacząć. Czy ktoś mógłby polecić dobrą książkę lub inny rodzaj zasobów? Czy jest coś, co musisz przeczytać? Jestem wdzięczny za jakąkolwiek wskazówkę.
Jestem trochę mylony z wykładem na temat regresji liniowej wygłoszonym przez Andrew Ng na Coursera na temat uczenia maszynowego. Tam podał funkcję kosztu, która minimalizuje sumę kwadratów jako: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Rozumiem gdzie 1212\frac{1}{2} pochodzi z. Myślę, że zrobił to tak, że gdy wykonał pochodną na kwadracie, 2 …
Pracowałem nad problemem regresji, w którym dane wejściowe to obraz, a etykieta ma wartość ciągłą od 80 do 350. Obrazy mają związek chemiczny po zajściu reakcji. Kolor, który się okazuje, wskazuje stężenie innej chemikaliów, która pozostała, i to właśnie model ma wytworzyć - stężenie tej substancji chemicznej. Obrazy można obracać, …
Czy „głębokie uczenie się” to kolejny termin na modelowanie wielopoziomowe / hierarchiczne? Jestem znacznie bardziej zaznajomiony z tym drugim niż ten pierwszy, ale z tego, co mogę powiedzieć, podstawowa różnica nie polega na ich definicji, ale na tym, jak są one używane i oceniane w ich domenie aplikacji. Wygląda na …
Mam czterowarstwowy CNN do przewidywania odpowiedzi na raka za pomocą danych MRI. Używam aktywacji ReLU do wprowadzenia nieliniowości. Dokładność i strata pociągu monotonicznie odpowiednio wzrastają i maleją. Ale moja dokładność testu zaczyna się dziko wahać. Próbowałem zmienić szybkość uczenia się, zmniejszyć liczbę warstw. Ale to nie zatrzymuje fluktuacji. Przeczytałem nawet …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.