Pytania otagowane jako classification

Klasyfikacja statystyczna to problem identyfikacji subpopulacji, do której należą nowe obserwacje, w przypadku których tożsamość subpopulacji nie jest znana, na podstawie zestawu danych szkoleniowych zawierających obserwacje, których subpopulacja jest znana. Dlatego te klasyfikacje wykażą zmienne zachowanie, które można zbadać za pomocą statystyk.

1
k-fold Walidacja krzyżowa uczenia się w zespole
Jestem zdezorientowany, jak podzielić dane na k-krotnie krzyżową weryfikację uczenia się w zespole. Zakładając, że mam kompletny system uczenia się do klasyfikacji. Moja pierwsza warstwa zawiera modele klasyfikacji, np. Svm, drzewa decyzyjne. Moja druga warstwa zawiera model głosowania, który łączy prognozy z pierwszej warstwy i daje ostateczną prognozę. Jeśli użyjemy …

2
Losowy las jest zbyt dobry?
Eksperymentuję z losowymi lasami za pomocą scikit-learn i uzyskuję świetne wyniki mojego zestawu treningowego, ale stosunkowo słabe wyniki na moim zestawie testowym ... Oto problem (inspirowany pokerem), który próbuję rozwiązać: biorąc pod uwagę karty własne gracza A, karty własne gracza B i flop (3 karty), który gracz ma najlepszą rękę? …

3
Częściowo nadzorowane uczenie się, aktywne uczenie się i głębokie uczenie się w celu klasyfikacji
Ostateczna edycja ze zaktualizowanymi wszystkimi zasobami: W przypadku projektu stosuję algorytmy uczenia maszynowego do klasyfikacji. Wyzwanie: Dość ograniczone dane oznaczone i znacznie więcej danych nieznakowanych. Cele: Zastosuj klasyfikację częściowo nadzorowaną Zastosuj w jakiś sposób częściowo nadzorowany proces etykietowania (znany jako aktywne uczenie się) Znalazłem wiele informacji z prac naukowych, takich …

2
Testowanie klasyfikacji danych o nadmiernie próbkowanych zakłóceniach
Pracuję nad bardzo niezrównoważonymi danymi. W literaturze stosuje się kilka metod ponownego równoważenia danych za pomocą ponownego próbkowania (nadmiernego lub niepełnego próbkowania). Dwa dobre podejścia to: SMOTE: TECHnique over-sampling syntetycznej mniejszości ( SMOTE ) ADASYN: Adaptacyjne syntetyczne podejście do próbkowania dla niezrównoważonego uczenia się ( ADASYN ) Wdrożyłem ADASYN, ponieważ …

7
Błędne dane w uczeniu maszynowym
Pracuję nad projektem Machine Learning z danymi, które są już (w dużym stopniu) stronnicze w wyniku selekcji danych. Załóżmy, że masz zestaw zakodowanych reguł. Jak zbudować model uczenia maszynowego, aby go zastąpić, skoro wszystkie dane, których może użyć, to dane, które zostały już odfiltrowane według tych reguł? Aby to wyjaśnić, …


5
Klasyfikacja tekstu na dużą skalę
Chcę dokonać klasyfikacji na podstawie moich danych tekstowych. Mam 300 classes200 dokumentów szkoleniowych na klasę (więc 60000 documents in total), co może skutkować bardzo wysokimi wymiarami danych (być może szukamy ponad 1 milion wymiarów ). Chciałbym wykonać następujące kroki w przygotowaniu (aby dać ci wyobrażenie o moich wymaganiach): Konwertowanie każdego …

10
Zestawy danych w sieciach społecznościowych
Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Szukam zestawów danych sieci społecznościowych (Twitter, Friendfeed, Facebook, Lastfm itp.) Do zadań klasyfikacyjnych, najlepiej w formacie ARFF. Moje wyszukiwania za pośrednictwem UCI i Google jak …

3
Czy budowanie klasyfikatora wieloklasowego jest lepsze niż kilka binarnych?
Muszę podzielić adresy URL na kategorie. Powiedzmy, że mam 15 kategorii, do których planuję wyzerować każdy adres URL. Czy 15-drożny klasyfikator jest lepszy? Gdzie mam 15 etykiet i generuję funkcje dla każdego punktu danych. Lub budowanie 15 binarnych klasyfikatorów, powiedzmy: film lub nie-film, i użyj liczb, które otrzymuję z tych …

2
Dlaczego klasyfikator regresji grzbietu działa całkiem dobrze w przypadku klasyfikacji tekstu?
Podczas eksperymentu dotyczącego klasyfikacji tekstu znalazłem klasyfikator grzbietowy generujący wyniki, które stale przewyższają testy wśród tych klasyfikatorów, które są częściej wymieniane i stosowane do zadań eksploracji tekstu, takich jak SVM, NB, kNN itp. Chociaż nie opracowałem na temat optymalizacji każdego klasyfikatora w tym konkretnym zadaniu klasyfikacji tekstu, z wyjątkiem kilku …


3
Kiedy nie powinienem używać klasyfikatora zespołów?
Ogólnie rzecz biorąc, w przypadku problemu z klasyfikacją, w którym celem jest dokładne przewidywanie członkostwa w klasie poza próbą, kiedy nie powinienem używać klasyfikatora grupowego? To pytanie jest ściśle związane z Dlaczego nie zawsze korzystać z nauki zespołowej? . To pytanie pyta, dlaczego nie używamy zespołów cały czas. Chcę wiedzieć, …

1
Kiedy Naive Bayes osiąga lepsze wyniki niż SVM?
W małym problemie z klasyfikacją tekstu, na który patrzyłem, Naive Bayes wykazywał wydajność podobną lub większą niż SVM i byłem bardzo zdezorientowany. Zastanawiałem się, jakie czynniki decydują o zwycięstwie jednego algorytmu nad drugim. Czy są sytuacje, w których nie ma sensu używać Naive Bayes zamiast SVM? Czy ktoś może rzucić …

1
Chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej oparty na wiadomościach
Mam ten poboczny projekt, w którym indeksuję lokalne serwisy informacyjne w moim kraju i chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej. Omówiłem już część projektu dotyczącą wyszukiwania informacji. Mój plan to zrobić: Ekstrakcja tematu bez nadzoru. Wykrywanie bliskich duplikatów. Nadzorowana klasyfikacja i poziom incydentów (przestępczość / polityka - wysoka …

3
Porównanie wyników dokładności dwóch klasyfikatorów dla istotności statystycznej z testem t
Chcę porównać dokładność dwóch klasyfikatorów dla istotności statystycznej. Oba klasyfikatory działają na tym samym zestawie danych. To prowadzi mnie do przekonania, że ​​powinienem używać testu t jednej próbki z tego, co czytałem . Na przykład: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 Czy to właściwy test? …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.