Czytałem gdzieś, że jeśli mamy funkcje, które są zbyt skorelowane, musimy je usunąć, ponieważ może to pogorszyć model. Oczywiste jest, że skorelowane funkcje oznaczają, że przynoszą te same informacje, więc logiczne jest usunięcie jednej z nich. Ale nie rozumiem, dlaczego może to pogorszyć model.
Załóżmy, że zbuduję NN do klasyfikacji. Ostatnia warstwa to gęsta warstwa z aktywacją softmax. Mam pięć różnych klas do sklasyfikowania. Załóżmy, że dla jednego przykładu szkolenia,true label są [1 0 0 0 0]przewidywania [0.1 0.5 0.1 0.1 0.2]. Jak obliczyć utratę entropii krzyżowej dla tego przykładu?
Ja nadal mylić o różnicę między Densei TimeDistributedDensena Keraschociaż istnieją już pewne podobne pytania zadawane tutaj i tutaj . Ludzie dużo dyskutują, ale nie uzgodniono wspólnie wniosków. I chociaż tutaj @fchollet stwierdził, że: TimeDistributedDensestosuje tę samą Dense(w pełni połączoną) operację do każdego pomiaru czasu tensora 3D. Nadal potrzebuję szczegółowej ilustracji, …
Kiedy mówię „dokument”, mam na myśli strony internetowe, takie jak artykuły z Wikipedii i wiadomości. Wolę odpowiedzi podające albo waniliowe leksykalne wskaźniki odległości, albo najnowocześniejsze semantyczne mierniki odległości, z silniejszą preferencją dla tych ostatnich.
Mam problem z dużymi danymi z dużym zestawem danych (weźmy na przykład 50 milionów wierszy i 200 kolumn). Zestaw danych składa się z około 100 kolumn numerycznych i 100 kolumn kategorycznych oraz kolumny odpowiedzi reprezentującej problem klasy binarnej. Liczność każdej z kolumn jakościowych jest mniejsza niż 50. Chcę z góry …
Wydaje mi się, że funkcja VVV może być łatwo wyrażona przez funkcję QQQ a zatem funkcja VVV wydaje mi się zbędna. Jednak jestem nowy w uczeniu się przez wzmacnianie, więc chyba coś poszło nie tak. Definicje Q- i V-learning są w kontekście procesów decyzyjnych Markowa . MDP jest 5-krotny (S,A,P,R,γ)(S,A,P,R,γ)(S, …
Dlaczego warto używać softmax zamiast standardowej normalizacji? W obszarze komentarza górnej odpowiedzi na to pytanie @Kilian Batzner podniósł 2 pytania, które również bardzo mnie dezorientują. Wydaje się, że nikt nie wyjaśnia tego, oprócz korzyści liczbowych. Dostaję powody, dla których korzystam z Cross-Entropy Loss, ale jak to się ma do softmax? …
W zadaniach uczenia maszynowego często tasuje się dane i normalizuje je. Cel normalizacji jest jasny (dla tego samego zakresu wartości cech). Ale po wielu zmaganiach nie znalazłem żadnego cennego powodu do przetasowania danych. Przeczytałem tutaj ten post omawiający, kiedy musimy tasować dane, ale nie jest oczywiste, dlaczego powinniśmy tasować dane. …
W kontekście uczenia maszynowego widziałem, że termin „ Prawda naziemna” jest często używany. Dużo szukałem i znalazłem następującą definicję w Wikipedii : W uczeniu maszynowym termin „podstawowa prawda” odnosi się do dokładności klasyfikacji zestawu szkoleniowego dla nadzorowanych technik uczenia się. Jest to wykorzystywane w modelach statystycznych do udowodnienia lub obalenia …
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości. Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia …
Kiedy należy używać Random Forestna SVModwrót? Rozumiem, że cross-validationporównanie modeli jest ważnym aspektem wyboru modelu, ale tutaj chciałbym dowiedzieć się więcej na temat zasad praktycznych i heurystyki tych dwóch metod. Czy ktoś może wyjaśnić subtelności, mocne i słabe strony klasyfikatorów, a także problemy, które najlepiej pasują do każdego z nich?
Zauważ, że robię wszystko w R. Problem wygląda następująco: Zasadniczo mam listę CV (CV). Niektórzy kandydaci będą mieli wcześniej doświadczenie zawodowe, a niektórzy nie. Celem jest tutaj: na podstawie tekstu w życiorysach chcę podzielić je na różne sektory pracy. Zwłaszcza w tych przypadkach, w których kandydaci nie mają doświadczenia / …
Nie znalazłem więc żadnej literatury na ten temat, ale wydaje się, że warto coś przemyśleć: Jakie są najlepsze praktyki w szkoleniu i optymalizacji modeli, jeśli dostępne są nowe obserwacje? Czy jest jakiś sposób na określenie okresu / częstotliwości ponownego szkolenia modelu, zanim prognozy zaczną się obniżać? Czy przesadne jest optymalizowanie …
Zauważyłem, że takie terminy, jak hiperparametr modelu i parametr modelu zostały użyte zamiennie w sieci bez wcześniejszego wyjaśnienia. Myślę, że jest to niepoprawne i wymaga wyjaśnienia. Rozważ model uczenia maszynowego, klasyfikator oparty na SVM / NN / NB lub narzędzie do rozpoznawania obrazów - wszystko, co przyjdzie ci do głowy. …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.