Statystyki i duże zbiory danych classification

1

k-fold Walidacja krzyżowa uczenia się w zespole

Jestem zdezorientowany, jak podzielić dane na k-krotnie krzyżową weryfikację uczenia się w zespole. Zakładając, że mam kompletny system uczenia się do klasyfikacji. Moja pierwsza warstwa zawiera modele klasyfikacji, np. Svm, drzewa decyzyjne. Moja druga warstwa zawiera model głosowania, który łączy prognozy z pierwszej warstwy i daje ostateczną prognozę. Jeśli użyjemy …

20 classification cross-validation ensemble

2

Losowy las jest zbyt dobry?

Eksperymentuję z losowymi lasami za pomocą scikit-learn i uzyskuję świetne wyniki mojego zestawu treningowego, ale stosunkowo słabe wyniki na moim zestawie testowym ... Oto problem (inspirowany pokerem), który próbuję rozwiązać: biorąc pod uwagę karty własne gracza A, karty własne gracza B i flop (3 karty), który gracz ma najlepszą rękę? …

19 classification random-forest scikit-learn

3

Częściowo nadzorowane uczenie się, aktywne uczenie się i głębokie uczenie się w celu klasyfikacji

Ostateczna edycja ze zaktualizowanymi wszystkimi zasobami: W przypadku projektu stosuję algorytmy uczenia maszynowego do klasyfikacji. Wyzwanie: Dość ograniczone dane oznaczone i znacznie więcej danych nieznakowanych. Cele: Zastosuj klasyfikację częściowo nadzorowaną Zastosuj w jakiś sposób częściowo nadzorowany proces etykietowania (znany jako aktywne uczenie się) Znalazłem wiele informacji z prac naukowych, takich …

19 machine-learning classification software svm text-mining

2

Testowanie klasyfikacji danych o nadmiernie próbkowanych zakłóceniach

Pracuję nad bardzo niezrównoważonymi danymi. W literaturze stosuje się kilka metod ponownego równoważenia danych za pomocą ponownego próbkowania (nadmiernego lub niepełnego próbkowania). Dwa dobre podejścia to: SMOTE: TECHnique over-sampling syntetycznej mniejszości ( SMOTE ) ADASYN: Adaptacyjne syntetyczne podejście do próbkowania dla niezrównoważonego uczenia się ( ADASYN ) Wdrożyłem ADASYN, ponieważ …

19 classification dataset resampling unbalanced-classes oversampling

7

Błędne dane w uczeniu maszynowym

Pracuję nad projektem Machine Learning z danymi, które są już (w dużym stopniu) stronnicze w wyniku selekcji danych. Załóżmy, że masz zestaw zakodowanych reguł. Jak zbudować model uczenia maszynowego, aby go zastąpić, skoro wszystkie dane, których może użyć, to dane, które zostały już odfiltrowane według tych reguł? Aby to wyjaśnić, …

18 machine-learning classification data-mining bias extrapolation

1

Opinie na temat nadpróbkowania w ogóle, a zwłaszcza algorytmu SMOTE [zamknięte]

Zamknięte . To pytanie jest oparte na opiniach . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby można było na nie odpowiedzieć faktami i cytatami, edytując ten post . Zamknięte 2 lata temu . Jakie jest Twoje zdanie na temat nadpróbkowania w klasyfikacji ogólnie, aw szczególności algorytmu …

18 machine-learning classification oversampling

5

Klasyfikacja tekstu na dużą skalę

Chcę dokonać klasyfikacji na podstawie moich danych tekstowych. Mam 300 classes200 dokumentów szkoleniowych na klasę (więc 60000 documents in total), co może skutkować bardzo wysokimi wymiarami danych (być może szukamy ponad 1 milion wymiarów ). Chciałbym wykonać następujące kroki w przygotowaniu (aby dać ci wyobrażenie o moich wymaganiach): Konwertowanie każdego …

18 machine-learning classification text-mining

10

Zestawy danych w sieciach społecznościowych

Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Szukam zestawów danych sieci społecznościowych (Twitter, Friendfeed, Facebook, Lastfm itp.) Do zadań klasyfikacyjnych, najlepiej w formacie ARFF. Moje wyszukiwania za pośrednictwem UCI i Google jak …

18 classification dataset

3

Czy budowanie klasyfikatora wieloklasowego jest lepsze niż kilka binarnych?

Muszę podzielić adresy URL na kategorie. Powiedzmy, że mam 15 kategorii, do których planuję wyzerować każdy adres URL. Czy 15-drożny klasyfikator jest lepszy? Gdzie mam 15 etykiet i generuję funkcje dla każdego punktu danych. Lub budowanie 15 binarnych klasyfikatorów, powiedzmy: film lub nie-film, i użyj liczb, które otrzymuję z tych …

18 machine-learning classification categorical-data svm feature-selection

2

Dlaczego klasyfikator regresji grzbietu działa całkiem dobrze w przypadku klasyfikacji tekstu?

Podczas eksperymentu dotyczącego klasyfikacji tekstu znalazłem klasyfikator grzbietowy generujący wyniki, które stale przewyższają testy wśród tych klasyfikatorów, które są częściej wymieniane i stosowane do zadań eksploracji tekstu, takich jak SVM, NB, kNN itp. Chociaż nie opracowałem na temat optymalizacji każdego klasyfikatora w tym konkretnym zadaniu klasyfikacji tekstu, z wyjątkiem kilku …

18 machine-learning classification text-mining ridge-regression

1

Quiz: Powiedz klasyfikatorowi według granicy decyzji

Podano 6 granic decyzji poniżej. Granice decyzyjne to fioletowe linie. Kropki i krzyżyki to dwa różne zestawy danych. Musimy zdecydować, który z nich jest: Liniowy SVM Jądro SVM (jądro wielomianowe rzędu 2) Perceptron Regresja logistyczna Sieć neuronowa (1 ukryta warstwa z 10 rektyfikowanymi jednostkami liniowymi) Sieć neuronowa (1 ukryta warstwa …

17 machine-learning self-study classification neural-networks svm

3

Kiedy nie powinienem używać klasyfikatora zespołów?

Ogólnie rzecz biorąc, w przypadku problemu z klasyfikacją, w którym celem jest dokładne przewidywanie członkostwa w klasie poza próbą, kiedy nie powinienem używać klasyfikatora grupowego? To pytanie jest ściśle związane z Dlaczego nie zawsze korzystać z nauki zespołowej? . To pytanie pyta, dlaczego nie używamy zespołów cały czas. Chcę wiedzieć, …

17 classification boosting ensemble bagging

1

Kiedy Naive Bayes osiąga lepsze wyniki niż SVM?

W małym problemie z klasyfikacją tekstu, na który patrzyłem, Naive Bayes wykazywał wydajność podobną lub większą niż SVM i byłem bardzo zdezorientowany. Zastanawiałem się, jakie czynniki decydują o zwycięstwie jednego algorytmu nad drugim. Czy są sytuacje, w których nie ma sensu używać Naive Bayes zamiast SVM? Czy ktoś może rzucić …

17 machine-learning classification svm naive-bayes

1

Chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej oparty na wiadomościach

Mam ten poboczny projekt, w którym indeksuję lokalne serwisy informacyjne w moim kraju i chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej. Omówiłem już część projektu dotyczącą wyszukiwania informacji. Mój plan to zrobić: Ekstrakcja tematu bez nadzoru. Wykrywanie bliskich duplikatów. Nadzorowana klasyfikacja i poziom incydentów (przestępczość / polityka - wysoka …

17 machine-learning classification text-mining

3

Porównanie wyników dokładności dwóch klasyfikatorów dla istotności statystycznej z testem t

Chcę porównać dokładność dwóch klasyfikatorów dla istotności statystycznej. Oba klasyfikatory działają na tym samym zestawie danych. To prowadzi mnie do przekonania, że powinienem używać testu t jednej próbki z tego, co czytałem . Na przykład: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 Czy to właściwy test? …

17 machine-learning statistical-significance classification t-test

Pytania otagowane jako classification