Dane zorganizowane w dyskretne kategorie lub * klasy * mogą stwarzać problemy dla niektórych analiz, jeśli liczba obserwacji (n) przynależność do każdej klasy nie jest stała między klasami. Klasy nierównen są * niezrównoważone *.
Chcę modelować regresję logistyczną z niezrównoważonymi danymi (9: 1). Chciałem wypróbować opcję wag w glmfunkcji w R, ale nie jestem w 100% pewien, co ona robi. Powiedzmy, że moja zmienna wyjściowa to c(0,0,0,0,0,0,0,0,0,1). teraz chcę nadać „1” 10-krotnie większą wagę. więc podaję argument wagi weights=c(1,1,1,1,1,1,1,1,1,1,1,10). Gdy to zrobię, zostanie to …
Czy słusznie rozumiem, że kolejność, w której zmienne są określone w wieloczynnikowej ANOVA, robi różnicę, ale że kolejność nie ma znaczenia przy wykonywaniu wielokrotnej regresji liniowej? Zakładając wynik, taki jak zmierzona utrata krwi y i dwie kategoryczne zmienne metoda adenoidektomii a , metoda wycięcia migdałków b . Model y~a+bróżni się …
Pracuję nad bardzo niezrównoważonymi danymi. W literaturze stosuje się kilka metod ponownego równoważenia danych za pomocą ponownego próbkowania (nadmiernego lub niepełnego próbkowania). Dwa dobre podejścia to: SMOTE: TECHnique over-sampling syntetycznej mniejszości ( SMOTE ) ADASYN: Adaptacyjne syntetyczne podejście do próbkowania dla niezrównoważonego uczenia się ( ADASYN ) Wdrożyłem ADASYN, ponieważ …
Właśnie skończyłem czytać tę dyskusję. Twierdzą, że PR AUC jest lepszy niż ROC AUC w niezrównoważonym zbiorze danych. Na przykład mamy 10 próbek w zestawie danych testowych. 9 próbek jest pozytywnych, a 1 ujemna. Mamy okropny model, który przewiduje wszystko pozytywnie. Będziemy zatem mieć miarę, że TP = 9, FP …
Mam do czynienia z nadzorowanym problemem klasyfikacji binarnej. Chciałbym użyć pakietu GBM do sklasyfikowania osób jako niezainfekowanych / zainfekowanych. Mam 15 razy więcej niezainfekowanych niż zainfekowanych osób. Zastanawiałem się, czy modele GBM cierpią w przypadku niezrównoważonych rozmiarów klas? Nie znalazłem żadnych referencji odpowiadających na to pytanie. Próbowałem skorygować wagi, przypisując …
Mam zestaw danych z kilkoma milionami wierszy i ~ 100 kolumnami. Chciałbym wykryć około 1% przykładów w zestawie danych, które należą do wspólnej klasy. Mam ograniczenie minimalnej precyzji, ale z powodu bardzo asymetrycznego kosztu nie jestem zbytnio zainteresowany żadnym konkretnym wycofaniem (o ile nie mam 10 pozytywnych wyników!) Jakie są …
Chcę spróbować użyć maszyn wektorów wsparcia (SVM) w moim zestawie danych. Zanim jednak spróbowałem rozwiązać problem, zostałem ostrzeżony, że maszyny SVM nie radzą sobie dobrze z bardzo niezrównoważonymi danymi. W moim przypadku mogę mieć aż 95-98% zera i 2-5% 1. Próbowałem znaleźć zasoby, które mówiły o używaniu SVM na rzadkich …
Zastanawiałem się, czy ktokolwiek mógłby wyjaśnić różnicę między wyważoną dokładnością b_acc = (sensitivity + specificity)/2 oraz wynik f1, który jest: f1 = 2*precision*recall/(precision + recall)
Czy SVM obsługuje niezrównoważony zestaw danych? Czy to jakieś parametry (takie jak C lub koszt błędnej klasyfikacji) obsługujące niezrównoważony zestaw danych?
Przede wszystkim chciałbym opisać niektóre popularne układy używane w książkach Data Mining, wyjaśniając, jak radzić sobie z niezrównoważonymi zestawami danych . Zwykle główna sekcja nosi nazwę Niezrównoważone zestawy danych i obejmują te dwie podsekcje: Klasyfikacja wrażliwa na koszty i Techniki pobierania próbek. Wydaje się, że w obliczu problemu z rzadką …
Próbuję zwiększyć gradient w zbiorze danych z częstością zdarzeń około 1% przy użyciu Enterprise Minera, ale nie daje żadnego wyniku. Moje pytanie brzmi: skoro jest to podejście oparte na drzewku decyzyjnym, czy w ogóle warto stosować zwiększanie gradientu przy tak niskim zdarzeniu?
PRZEDMOWA: Nie dbam o zalety zastosowania odcięcia lub nie, ani o to, jak należy wybrać odcięcie. Moje pytanie jest czysto matematyczne i wynika z ciekawości. Regresja logistyczna modeluje prawdopodobieństwo warunkowe tylne klasy A w porównaniu z klasą B i pasuje do hiperpłaszczyzny, w której prawdopodobieństwa warunkowe tylne są równe. Teoretycznie …
Próbuję rozwiązać zadanie zwane wykrywaniem pieszych i trenuję binarny clasifer na dwóch kategoriach pozytywnych - ludzie, negatywne - tło. Mam zestaw danych: liczba wyników dodatnich = 3752 liczba ujemna = 3800 Używam train \ test split 80 \ 20% i RandomForestClassifier z scikit-learn z parametrami: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) Otrzymuję …
Chciałbym przetestować mój wyszkolony model na niezrównoważonym zbiorze danych. Czy są dostępne algorytmy do generowania danych syntetycznych ze zbilansowanego zbioru danych (spam / nie spam)?
Próbuję stworzyć detektor obiektów, które występują bardzo rzadko (na zdjęciach), planując użyć binarnego klasyfikatora CNN stosowanego w przesuwanym / zmienianym oknie. Skonstruowałem zbalansowane zestawy treningów i testów dodatnich i ujemnych 1: 1 (czy w takim przypadku dobrze jest to zrobić btw?), A klasyfikator ma się dobrze na zestawie testowym pod …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.