Algorytmy uczenia maszynowego budują model danych szkoleniowych. Termin „uczenie maszynowe” jest niejasno zdefiniowany; obejmuje to tak zwane uczenie statystyczne, uczenie wzmacniające, uczenie bez nadzoru itp. ZAWSZE DODAJ SZCZEGÓŁOWĄ TAGĘ.
Czytałem dziś o klasyfikacji Naive Bayes. Przeczytałem pod nagłówkiem Szacowanie parametrów z dodaniem 1 wygładzania : Niech odnosi się do klasy (takiej jak Pozytywna lub Negatywna), a niech odnosi się do tokena lub słowa.cccwww Estymator największego prawdopodobieństwa dla wynosiP(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in …
Walidacja krzyżowa K-krotnie może być wykorzystana do oszacowania możliwości generalizacji danego klasyfikatora. Czy mogę (lub powinienem) również obliczyć wariancję zbiorczą ze wszystkich przebiegów sprawdzania poprawności, aby uzyskać lepsze oszacowanie jej wariancji? Jeśli nie to dlaczego? Znalazłem artykuły, które wykorzystują połączone odchylenie standardowe w wielu testach krzyżowych . Znalazłem także artykuły …
Czy ktoś może mi powiedzieć, jak ocenić, czy nadzorowany model uczenia maszynowego jest zbyt dobry, czy nie? Jeśli nie mam zewnętrznego zestawu danych do sprawdzania poprawności, chcę wiedzieć, czy mogę użyć ROC 10-krotnego sprawdzania poprawności krzyżowej w celu wyjaśnienia nadmiernego dopasowania. Jeśli mam zewnętrzny zestaw danych do sprawdzania poprawności, co …
Powiedzmy, że chcemy wykonać regresję dla prostego f = x * yużycia standardowej głębokiej sieci neuronowej. Pamiętam, że istnieją powtórzenia, które mówią, że NN z jedną warstwą ukrytą może apoksymować dowolną funkcję, ale próbowałem i bez normalizacji NN nie był w stanie zbliżyć nawet tego prostego mnożenia. Pomogła tylko normalizacja …
Powiedzmy, że mamy klasyfikator SVM, w jaki sposób generujemy krzywą ROC? (Jak teoretycznie) (ponieważ generujemy TPR i FPR z każdym progiem). Jak ustalić optymalny próg dla tego klasyfikatora SVM?
Co to jest badanie ablacyjne? I czy istnieje systematyczny sposób, aby to wykonać? Na przykład mam predyktorów w regresji liniowej, którą nazwiebym jako mój model.nnn Jak przeprowadzę do tego badanie ablacyjne? Jakich wskaźników powinienem użyć? Docenione zostanie kompleksowe źródło lub podręcznik.
W tej SE jest wiele postów na temat solidnych podejść do analizy głównych składników (PCA), ale nie mogę znaleźć ani jednego dobrego wyjaśnienia, dlaczego PCA jest wrażliwe na wartości odstające.
Kiedy czytamy książkę, zrozumienie zapisów odgrywa bardzo ważną rolę w zrozumieniu treści. Niestety różne społeczności mają różne konwencje zapisu w odniesieniu do formułowania modelu i problemu optymalizacji. Czy ktoś mógłby tutaj streścić niektóre zapisy formuł i podać możliwe powody? Podam tutaj przykład: w literaturze algebry liniowej klasyczna książka jest wstępem …
Niedawno ukończyłem zawody Kaggle, w których stosowano wynik roc auc zgodnie z wymogami zawodów. Przed tym projektem zwykle stosowałem wynik F1 jako miarę do pomiaru wydajności modelu. Idąc dalej, zastanawiam się, jak powinienem wybrać pomiędzy tymi dwoma danymi? Kiedy stosować i jakie są ich zalety i wady? Przy okazji, przeczytałem …
Jaka jest różnica między klasyfikatorem SVM jeden na wszystkich a jednym na jednego? Czy jeden do wszystkich oznacza jednego klasyfikatora do klasyfikacji wszystkich typów / kategorii nowego obrazu, a jeden do jednego oznacza każdy typ / kategorię nowego obrazu klasyfikuje się za pomocą innego klasyfikatora (każda kategoria jest obsługiwana przez …
Popularne modele tematów, takie jak LDA, zwykle grupują słowa, które zwykle występują razem w tym samym temacie (klastrze). Jaka jest główna różnica między takimi modelami tematycznymi a innymi prostymi metodami grupowania opartymi na współwystępowaniu, takimi jak PMI? (PMI oznacza Pointwise Mutual Information i służy do identyfikacji słów współistniejących z danym …
Załóżmy, że chcę dokonać klasyfikacji binarnej (coś należy do klasy A lub klasy B). Istnieje kilka możliwości, aby to zrobić w warstwie wyjściowej sieci neuronowej: Użyj 1 węzła wyjściowego. Wyjście 0 (<0,5) jest uważane za klasę A, a 1 (> = 0,5) jest uważane za klasę B (w przypadku sigmoidu) …
Moja strata treningowa spada, a potem znowu rośnie. To jest bardzo dziwne. Strata weryfikacji krzyżowej śledzi utratę treningu. Co się dzieje? Mam dwa skumulowane LSTMS w następujący sposób (na Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Trenuję to przez 100 epok: …
Z tego, co rozumiem, możemy zbudować funkcję regresji, która mieści się w przedziale danych treningowych. Na przykład (potrzebny jest tylko jeden panel): Jak przewidzieć przyszłość za pomocą regresora KNN? Ponownie wydaje się, że przybliża tylko funkcję mieszczącą się w przedziale danych treningowych. Moje pytanie: Jakie są zalety korzystania z regresora …
Jest to podobne do metody ponownego próbkowania pytania Careta , chociaż tak naprawdę nigdy nie odpowiedziałem na tę część pytania w uzgodniony sposób. oferty funkcji pociągu Careta cvi repeatedcv. Jaka jest różnica w powiedzeniu: MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) vs MyTrainControl=trainControl( method = "repeatedcv", number=5, repeats=5 ) Rozumiem, …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.