Statystyki i duże zbiory danych machine-learning

7

W Naive Bayes, po co zawracać sobie głowę wygładzaniem Laplace'a, gdy w zestawie testowym mamy nieznane słowa?

Czytałem dziś o klasyfikacji Naive Bayes. Przeczytałem pod nagłówkiem Szacowanie parametrów z dodaniem 1 wygładzania : Niech odnosi się do klasy (takiej jak Pozytywna lub Negatywna), a niech odnosi się do tokena lub słowa.cccwww Estymator największego prawdopodobieństwa dla wynosiP(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in …

27 machine-learning classification text-mining naive-bayes laplace-smoothing

2

Szacunki wariancji w k-krotnej walidacji krzyżowej

Walidacja krzyżowa K-krotnie może być wykorzystana do oszacowania możliwości generalizacji danego klasyfikatora. Czy mogę (lub powinienem) również obliczyć wariancję zbiorczą ze wszystkich przebiegów sprawdzania poprawności, aby uzyskać lepsze oszacowanie jej wariancji? Jeśli nie to dlaczego? Znalazłem artykuły, które wykorzystują połączone odchylenie standardowe w wielu testach krzyżowych . Znalazłem także artykuły …

27 machine-learning cross-validation

3

Jak ocenić, czy nadzorowany model uczenia maszynowego jest zbyt dobry, czy nie?

Czy ktoś może mi powiedzieć, jak ocenić, czy nadzorowany model uczenia maszynowego jest zbyt dobry, czy nie? Jeśli nie mam zewnętrznego zestawu danych do sprawdzania poprawności, chcę wiedzieć, czy mogę użyć ROC 10-krotnego sprawdzania poprawności krzyżowej w celu wyjaśnienia nadmiernego dopasowania. Jeśli mam zewnętrzny zestaw danych do sprawdzania poprawności, co …

27 machine-learning

5

Czy głęboka sieć neuronowa może przybliżać funkcję mnożenia bez normalizacji?

Powiedzmy, że chcemy wykonać regresję dla prostego f = x * yużycia standardowej głębokiej sieci neuronowej. Pamiętam, że istnieją powtórzenia, które mówią, że NN z jedną warstwą ukrytą może apoksymować dowolną funkcję, ale próbowałem i bez normalizacji NN nie był w stanie zbliżyć nawet tego prostego mnożenia. Pomogła tylko normalizacja …

27 regression machine-learning neural-networks deep-learning

4

Jak ustalić optymalny próg klasyfikatora i wygenerować krzywą ROC?

Powiedzmy, że mamy klasyfikator SVM, w jaki sposób generujemy krzywą ROC? (Jak teoretycznie) (ponieważ generujemy TPR i FPR z każdym progiem). Jak ustalić optymalny próg dla tego klasyfikatora SVM?

27 machine-learning svm

1

Co to jest badanie ablacyjne? I czy istnieje systematyczny sposób, aby to wykonać?

Co to jest badanie ablacyjne? I czy istnieje systematyczny sposób, aby to wykonać? Na przykład mam predyktorów w regresji liniowej, którą nazwiebym jako mój model.nnn Jak przeprowadzę do tego badanie ablacyjne? Jakich wskaźników powinienem użyć? Docenione zostanie kompleksowe źródło lub podręcznik.

27 regression machine-learning neural-networks

1

Dlaczego PCA jest wrażliwa na wartości odstające?

W tej SE jest wiele postów na temat solidnych podejść do analizy głównych składników (PCA), ale nie mogę znaleźć ani jednego dobrego wyjaśnienia, dlaczego PCA jest wrażliwe na wartości odstające.

26 machine-learning pca outliers

1

Jakie są klasyczne zapisy w statystyce, algebrze liniowej i uczeniu maszynowym? Jakie są powiązania między tymi notacjami?

Kiedy czytamy książkę, zrozumienie zapisów odgrywa bardzo ważną rolę w zrozumieniu treści. Niestety różne społeczności mają różne konwencje zapisu w odniesieniu do formułowania modelu i problemu optymalizacji. Czy ktoś mógłby tutaj streścić niektóre zapisy formuł i podać możliwe powody? Podam tutaj przykład: w literaturze algebry liniowej klasyczna książka jest wstępem …

26 machine-learning probability self-study optimization

6

Jak wybrać pomiędzy ROC AUC a wynikiem F1?

Niedawno ukończyłem zawody Kaggle, w których stosowano wynik roc auc zgodnie z wymogami zawodów. Przed tym projektem zwykle stosowałem wynik F1 jako miarę do pomiaru wydajności modelu. Idąc dalej, zastanawiam się, jak powinienem wybrać pomiędzy tymi dwoma danymi? Kiedy stosować i jakie są ich zalety i wady? Przy okazji, przeczytałem …

26 machine-learning modeling roc scoring-rules

1

One-vs-All i One-vs-One w svm?

Jaka jest różnica między klasyfikatorem SVM jeden na wszystkich a jednym na jednego? Czy jeden do wszystkich oznacza jednego klasyfikatora do klasyfikacji wszystkich typów / kategorii nowego obrazu, a jeden do jednego oznacza każdy typ / kategorię nowego obrazu klasyfikuje się za pomocą innego klasyfikatora (każda kategoria jest obsługiwana przez …

26 machine-learning classification svm

3

Modele tematyczne i metody współwystępowania słów

Popularne modele tematów, takie jak LDA, zwykle grupują słowa, które zwykle występują razem w tym samym temacie (klastrze). Jaka jest główna różnica między takimi modelami tematycznymi a innymi prostymi metodami grupowania opartymi na współwystępowaniu, takimi jak PMI? (PMI oznacza Pointwise Mutual Information i służy do identyfikacji słów współistniejących z danym …

26 machine-learning text-mining natural-language topic-models

2

Sieć neuronowa: do klasyfikacji binarnej użyj 1 lub 2 neuronów wyjściowych?

Załóżmy, że chcę dokonać klasyfikacji binarnej (coś należy do klasy A lub klasy B). Istnieje kilka możliwości, aby to zrobić w warstwie wyjściowej sieci neuronowej: Użyj 1 węzła wyjściowego. Wyjście 0 (<0,5) jest uważane za klasę A, a 1 (> = 0,5) jest uważane za klasę B (w przypadku sigmoidu) …

26 machine-learning classification neural-networks

1

Strata treningowa spada i rośnie. Co się dzieje?

Moja strata treningowa spada, a potem znowu rośnie. To jest bardzo dziwne. Strata weryfikacji krzyżowej śledzi utratę treningu. Co się dzieje? Mam dwa skumulowane LSTMS w następujący sposób (na Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Trenuję to przez 100 epok: …

26 machine-learning neural-networks loss-functions lstm

4

Dlaczego ktoś miałby używać KNN do regresji?

Z tego, co rozumiem, możemy zbudować funkcję regresji, która mieści się w przedziale danych treningowych. Na przykład (potrzebny jest tylko jeden panel): Jak przewidzieć przyszłość za pomocą regresora KNN? Ponownie wydaje się, że przybliża tylko funkcję mieszczącą się w przedziale danych treningowych. Moje pytanie: Jakie są zalety korzystania z regresora …

26 regression machine-learning k-nearest-neighbour

2

W karecie, jaka jest prawdziwa różnica między cv a repeatcv?

Jest to podobne do metody ponownego próbkowania pytania Careta , chociaż tak naprawdę nigdy nie odpowiedziałem na tę część pytania w uzgodniony sposób. oferty funkcji pociągu Careta cvi repeatedcv. Jaka jest różnica w powiedzeniu: MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) vs MyTrainControl=trainControl( method = "repeatedcv", number=5, repeats=5 ) Rozumiem, …

26 r machine-learning caret

Pytania otagowane jako machine-learning