Pytania otagowane jako classification

Klasyfikacja statystyczna to problem identyfikacji subpopulacji, do której należą nowe obserwacje, w przypadku których tożsamość subpopulacji nie jest znana, na podstawie zestawu danych szkoleniowych zawierających obserwacje, których subpopulacja jest znana. Dlatego te klasyfikacje wykażą zmienne zachowanie, które można zbadać za pomocą statystyk.

3
Jakie są zalety układania wielu LSTM?
Jakie są zalety, dlaczego warto korzystać z wielu LSTM, ułożonych jeden obok drugiego, w sieci głębokiej? Używam LSTM do reprezentowania sekwencji danych wejściowych jako pojedynczego wejścia. Więc kiedy mam tę pojedynczą reprezentację - dlaczego miałbym ją powtórzyć? Pytam o to, ponieważ widziałem to w programie generowania języka naturalnego.

4
Jaki problem rozwiązuje oversampling, undersampling i SMOTE?
W ostatnim dobrze odebranym pytaniu Tim pyta, kiedy niezrównoważone dane naprawdę stanowią problem w uczeniu maszynowym ? Przesłanka tego pytania polega na tym, że istnieje wiele literatury dotyczącej uczenia maszynowego, która omawia równowagę klas i problem niezrównoważonych klas . Chodzi o to, że zestawy danych z nierównowagą między klasą dodatnią …

2
Bag-of-Words do klasyfikacji tekstu: Dlaczego nie użyć częstotliwości słów zamiast TFIDF?
Powszechnym podejściem do klasyfikacji tekstu jest wyszkolenie klasyfikatora z „worka słów”. Użytkownik bierze tekst do sklasyfikowania i zlicza częstotliwości słów w każdym obiekcie, po czym następuje pewnego rodzaju przycinanie, aby zachować wynikową macierz o możliwym do zarządzania rozmiarze. Często widzę, jak użytkownicy konstruują wektor cech za pomocą TFIDF. Innymi słowy, …


3
Cross-validation lub bootstrapping w celu oceny wydajności klasyfikacji?
Jaka jest najbardziej odpowiednia metoda próbkowania do oceny wydajności klasyfikatora na określonym zbiorze danych i porównania go z innymi klasyfikatorami? Cross-validation wydaje się być standardową praktyką, ale przeczytałem, że metody takie jak bootstrap .632 są lepszym wyborem. W następstwie: czy wybór metryki wydajności wpływa na odpowiedź (jeśli użyję AUC zamiast …

2
Jak duży jest zestaw treningowy?
Czy istnieje wspólna metoda określania liczby próbek szkoleniowych wymaganych do wyszkolenia klasyfikatora (w tym przypadku LDA) w celu uzyskania minimalnej dokładności uogólnienia progu? Pytam, ponieważ chciałbym zminimalizować czas kalibracji zwykle wymagany w interfejsie mózg-komputer.


2
Jak poradzić sobie z różnicą między rozkładem zestawu testowego i zestawu treningowego?
Myślę, że jednym z podstawowych założeń uczenia maszynowego lub szacowania parametrów jest to, że niewidoczne dane pochodzą z tego samego rozkładu, co zestaw szkoleniowy. Jednak w niektórych praktycznych przypadkach rozkład zestawu testowego będzie prawie różny od zestawu szkoleniowego. Powiedz o wielkoskalowym problemie wielu klasyfikacji, który próbuje sklasyfikować opisy produktów do …

3
Wizualizacja kalibracji przewidywanego prawdopodobieństwa modelu
Załóżmy, że mam model predykcyjny, który generuje dla każdej instancji prawdopodobieństwo dla każdej klasy. Teraz zdaję sobie sprawę, że istnieje wiele sposobów oceny takiego modelu, jeśli chcę wykorzystać te prawdopodobieństwa do klasyfikacji (precyzja, przywołanie itp.). Rozumiem również, że krzywa ROC i obszar pod nią mogą być użyte do określenia, jak …

5
Alternatywy dla drzew klasyfikacyjnych, z lepszymi wynikami predykcyjnymi (np .: CV)?
Szukam alternatywy dla drzew klasyfikacyjnych, które mogłyby zapewnić lepszą moc predykcyjną. Dane, z którymi mam do czynienia, mają czynniki zarówno dla zmiennych objaśniających, jak i wyjaśnianych. Pamiętam, że w tym kontekście natknąłem się na losowe lasy i sieci neuronowe, chociaż nigdy wcześniej ich nie próbowałem, czy jest jeszcze inny dobry …

6
Dokładność testu wyższa niż trening. Jak interpretować?
Mam zestaw danych zawierający maksymalnie 150 przykładów (z podziałem na szkolenia i testy), z wieloma funkcjami (ponad 1000). Muszę porównać klasyfikatory i metody wyboru cech, które dobrze sprawdzają się w danych. Tak więc używam trzech metod klasyfikacji (J48, NB, SVM) i 2 metod wyboru funkcji (CFS, WrapperSubset) z różnymi metodami …

4
Dlaczego badacze stosują 10-krotną walidację krzyżową zamiast testowania na zestawie walidacyjnym?
Przeczytałem wiele artykułów naukowych na temat klasyfikacji sentymentów i pokrewnych tematów. Większość z nich stosuje 10-krotną walidację krzyżową do szkolenia i testowania klasyfikatorów. Oznacza to, że nie przeprowadza się osobnych testów / weryfikacji. Dlaczego? Jakie są zalety / wady tego podejścia, szczególnie dla osób prowadzących badania?

4
Kiedy mają zastosowanie wyniki Shao dotyczące krzyżowej walidacji z pominięciem jednego z nich?
W swoim artykule Linear Model Selection by Cross-Validation Jun Shao pokazuje, że w przypadku problemu selekcji zmiennych w wielowymiarowej regresji liniowej metoda walidacji krzyżowej z pominięciem jednego elementu (LOOCV) jest „asymptotycznie niespójna”. W prostym języku angielskim ma tendencję do wybierania modeli ze zbyt wieloma zmiennymi. W badaniu symulacyjnym Shao pokazuje, …

1
Wybór spośród właściwych zasad punktacji
Większość zasobów na temat prawidłowych reguł punktowania wymienia szereg różnych zasad punktacji, takich jak utrata logów, wynik Briera lub punktacja sferyczna. Często jednak nie udzielają zbyt wielu wskazówek na temat różnic między nimi. (Dowód A: Wikipedia .) Wybór modelu, który maksymalizuje wynik logarytmiczny, odpowiada wybraniu modelu największej wiarygodności, co wydaje …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.