Pytania otagowane jako unbalanced-classes

Dane zorganizowane w dyskretne kategorie lub * klasy * mogą stwarzać problemy dla niektórych analiz, jeśli liczba obserwacji (n) przynależność do każdej klasy nie jest stała między klasami. Klasy nierównen są * niezrównoważone *.

2
Dodawanie wag do regresji logistycznej w przypadku niezrównoważonych danych
Chcę modelować regresję logistyczną z niezrównoważonymi danymi (9: 1). Chciałem wypróbować opcję wag w glmfunkcji w R, ale nie jestem w 100% pewien, co ona robi. Powiedzmy, że moja zmienna wyjściowa to c(0,0,0,0,0,0,0,0,0,1). teraz chcę nadać „1” 10-krotnie większą wagę. więc podaję argument wagi weights=c(1,1,1,1,1,1,1,1,1,1,1,10). Gdy to zrobię, zostanie to …

2
Kolejność zmiennych w ANOVA ma znaczenie, prawda?
Czy słusznie rozumiem, że kolejność, w której zmienne są określone w wieloczynnikowej ANOVA, robi różnicę, ale że kolejność nie ma znaczenia przy wykonywaniu wielokrotnej regresji liniowej? Zakładając wynik, taki jak zmierzona utrata krwi y i dwie kategoryczne zmienne metoda adenoidektomii a , metoda wycięcia migdałków b . Model y~a+bróżni się …

2
Testowanie klasyfikacji danych o nadmiernie próbkowanych zakłóceniach
Pracuję nad bardzo niezrównoważonymi danymi. W literaturze stosuje się kilka metod ponownego równoważenia danych za pomocą ponownego próbkowania (nadmiernego lub niepełnego próbkowania). Dwa dobre podejścia to: SMOTE: TECHnique over-sampling syntetycznej mniejszości ( SMOTE ) ADASYN: Adaptacyjne syntetyczne podejście do próbkowania dla niezrównoważonego uczenia się ( ADASYN ) Wdrożyłem ADASYN, ponieważ …


2
Czy klasyfikacja GBM cierpi na niezrównoważone rozmiary klas?
Mam do czynienia z nadzorowanym problemem klasyfikacji binarnej. Chciałbym użyć pakietu GBM do sklasyfikowania osób jako niezainfekowanych / zainfekowanych. Mam 15 razy więcej niezainfekowanych niż zainfekowanych osób. Zastanawiałem się, czy modele GBM cierpią w przypadku niezrównoważonych rozmiarów klas? Nie znalazłem żadnych referencji odpowiadających na to pytanie. Próbowałem skorygować wagi, przypisując …

3
Sugestie dotyczące uczenia się z uwzględnieniem kosztów w warunkach wysoce niezrównoważonych
Mam zestaw danych z kilkoma milionami wierszy i ~ 100 kolumnami. Chciałbym wykryć około 1% przykładów w zestawie danych, które należą do wspólnej klasy. Mam ograniczenie minimalnej precyzji, ale z powodu bardzo asymetrycznego kosztu nie jestem zbytnio zainteresowany żadnym konkretnym wycofaniem (o ile nie mam 10 pozytywnych wyników!) Jakie są …

3
SVM dla niezrównoważonych danych
Chcę spróbować użyć maszyn wektorów wsparcia (SVM) w moim zestawie danych. Zanim jednak spróbowałem rozwiązać problem, zostałem ostrzeżony, że maszyny SVM nie radzą sobie dobrze z bardzo niezrównoważonymi danymi. W moim przypadku mogę mieć aż 95-98% zera i 2-5% 1. Próbowałem znaleźć zasoby, które mówiły o używaniu SVM na rzadkich …



1
Czy przy nadmiernym / niedostatecznym próbkowaniu niesymetrycznych klas maksymalizacja dokładności różni się od minimalizacji kosztów błędnej klasyfikacji?
Przede wszystkim chciałbym opisać niektóre popularne układy używane w książkach Data Mining, wyjaśniając, jak radzić sobie z niezrównoważonymi zestawami danych . Zwykle główna sekcja nosi nazwę Niezrównoważone zestawy danych i obejmują te dwie podsekcje: Klasyfikacja wrażliwa na koszty i Techniki pobierania próbek. Wydaje się, że w obliczu problemu z rzadką …


2
Dlaczego odcięcie P> 0,5 nie jest „optymalne” dla regresji logistycznej?
PRZEDMOWA: Nie dbam o zalety zastosowania odcięcia lub nie, ani o to, jak należy wybrać odcięcie. Moje pytanie jest czysto matematyczne i wynika z ciekawości. Regresja logistyczna modeluje prawdopodobieństwo warunkowe tylne klasy A w porównaniu z klasą B i pasuje do hiperpłaszczyzny, w której prawdopodobieństwa warunkowe tylne są równe. Teoretycznie …

1
Jak zmniejszyć liczbę fałszywych trafień?
Próbuję rozwiązać zadanie zwane wykrywaniem pieszych i trenuję binarny clasifer na dwóch kategoriach pozytywnych - ludzie, negatywne - tło. Mam zestaw danych: liczba wyników dodatnich = 3752 liczba ujemna = 3800 Używam train \ test split 80 \ 20% i RandomForestClassifier z scikit-learn z parametrami: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) Otrzymuję …


3
Jakiej funkcji utraty należy użyć, aby uzyskać binarny klasyfikator o wysokiej precyzji lub o wysokim przywołaniu?
Próbuję stworzyć detektor obiektów, które występują bardzo rzadko (na zdjęciach), planując użyć binarnego klasyfikatora CNN stosowanego w przesuwanym / zmienianym oknie. Skonstruowałem zbalansowane zestawy treningów i testów dodatnich i ujemnych 1: 1 (czy w takim przypadku dobrze jest to zrobić btw?), A klasyfikator ma się dobrze na zestawie testowym pod …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.