Dane zorganizowane w dyskretne kategorie lub * klasy * mogą stwarzać problemy dla niektórych analiz, jeśli liczba obserwacji (n) przynależność do każdej klasy nie jest stała między klasami. Klasy nierównen są * niezrównoważone *.
Ok, więc myślę, że mam wystarczająco przyzwoitą próbkę, biorąc pod uwagę ogólną zasadę 20: 1: dość dużą próbkę (N = 374) dla łącznie 7 potencjalnych zmiennych predykcyjnych. Mój problem jest następujący: bez względu na to, jakiego zestawu zmiennych predykcyjnych używam, klasyfikacje nigdy nie są lepsze niż specyficzność 100% i czułość …
Mam zestaw danych w postaci (funkcje, wyjście binarne 0 lub 1), ale 1 zdarza się dość rzadko, więc po prostu zawsze przewidując 0, uzyskuję dokładność między 70% a 90% (w zależności od konkretnych danych, na które patrzę ). Metody ML dają mi tę samą dokładność i uważam, że powinny być …
Mieliśmy już wiele pytań na temat niezrównoważonych danych podczas korzystania z regresji logistycznej , SVM , drzew decyzyjnych , tworzenia worków i wielu innych podobnych pytań, co sprawia, że jest to bardzo popularny temat! Niestety, każde z pytań wydaje się być specyficzne dla algorytmu i nie znalazłem żadnych ogólnych wskazówek …
Jest to ogólnie pytanie, które nie jest specyficzne dla żadnej metody ani zestawu danych. Jak radzimy sobie z problemem nierównowagi klas w uczeniu maszynowym nadzorowanym, w którym liczba 0 wynosi około 90%, a liczba 1 wynosi około 10% w zbiorze danych. Jak optymalnie szkolimy klasyfikatora. Jednym ze sposobów, które stosuję, …
Jestem nowy w eksploracji danych i staram się trenować drzewo decyzyjne względem zestawu danych, który jest wysoce niezrównoważony. Mam jednak problemy ze słabą dokładnością predykcyjną. Dane obejmują studentów studiujących kursy, a zmienną klasową jest status kursu, który ma dwie wartości - Wycofany lub Bieżący. Wiek Pochodzenie etniczne Płeć Oczywiście ... …
Jeśli mam zestaw danych z bardzo rzadką klasą dodatnią i próbkuję w dół klasę ujemną, a następnie wykonuję regresję logistyczną, czy muszę dostosowywać współczynniki regresji, aby odzwierciedlić fakt, że zmieniłem częstość występowania klasy dodatniej? Załóżmy na przykład, że mam zestaw danych z 4 zmiennymi: Y, A, B i C. Y, …
Ostatnio dużo myślałem o „problemie nierównowagi klas” w uczeniu maszynowym / statystycznym i coraz głębiej odczuwam, że po prostu nie rozumiem, co się dzieje. Najpierw pozwól mi zdefiniować (lub spróbować) zdefiniować moje warunki: Problemem klasa nierównowaga w maszyny / uczenia statystycznego jest obserwacja, że niektóre klasyfikacji binarnej (*) algorytmy nie …
Mam zadanie klasyfikacji, w którym mam wiele predyktorów (z których jeden jest najbardziej pouczający) i używam modelu MARS do budowy mojego klasyfikatora (jestem zainteresowany dowolnym prostym modelem, a używanie glms do celów ilustracyjnych byłoby też dobrze). Teraz mam ogromną nierównowagę klas w danych treningowych (około 2700 próbek ujemnych na każdą …
Miałem kurs online, w którym dowiedziałem się, że niezrównoważone klasy w danych treningowych mogą prowadzić do problemów, ponieważ algorytmy klasyfikacji są zgodne z regułą większości, ponieważ dają dobre wyniki, jeśli niezrównoważenie jest zbyt duże. W zadaniu należało zrównoważyć dane poprzez niepełne próbkowanie klasy większościowej. Jednak na tym blogu ktoś twierdzi, …
Chcę stworzyć model logistyczny z moich danych ankietowych. To niewielka ankieta dotycząca czterech kolonii mieszkalnych, w której przeprowadzono wywiad tylko z 154 respondentami. Moja zmienna zależna to „zadowalające przejście do pracy”. Stwierdziłem, że spośród 154 respondentów 73 stwierdziło, że zadowalająco przeszły do pracy, a reszta nie. Zatem zmienna zależna ma …
Mam bardzo niezrównoważony zestaw danych. Staram się postępować zgodnie ze wskazówkami dotyczącymi tuningu i używać go, scale_pos_weightale nie jestem pewien, jak go dostroić. Widzę, że RegLossObj.GetGradient: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight więc gradient próbki dodatniej byłby bardziej wpływowy. Jednak zgodnie z artykułem xgboost statystyka gradientów jest zawsze używana …
W ostatnim dobrze odebranym pytaniu Tim pyta, kiedy niezrównoważone dane naprawdę stanowią problem w uczeniu maszynowym ? Przesłanka tego pytania polega na tym, że istnieje wiele literatury dotyczącej uczenia maszynowego, która omawia równowagę klas i problem niezrównoważonych klas . Chodzi o to, że zestawy danych z nierównowagą między klasą dodatnią …
Myślę, że jednym z podstawowych założeń uczenia maszynowego lub szacowania parametrów jest to, że niewidoczne dane pochodzą z tego samego rozkładu, co zestaw szkoleniowy. Jednak w niektórych praktycznych przypadkach rozkład zestawu testowego będzie prawie różny od zestawu szkoleniowego. Powiedz o wielkoskalowym problemie wielu klasyfikacji, który próbuje sklasyfikować opisy produktów do …
Mam do czynienia z problemem wykrywania oszustw (podobnym do punktacji kredytowej). W związku z tym istnieje wysoce niezrównoważony stosunek między fałszywymi i nieuczciwymi obserwacjami. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html zapewnia doskonały przegląd różnych wskaźników klasyfikacji. Precision and Recalllub kappaoba wydają się być dobrym wyborem: Jednym ze sposobów uzasadnienia wyników takich klasyfikatorów jest porównanie ich …
Pojawiły się dobre pytania dotyczące postępowania z niezrównoważonymi danymi w kontekście klasyfikacji , ale zastanawiam się, co ludzie robią, aby próbować pod kątem regresji. Powiedzmy, że dziedzina problemowa jest bardzo wrażliwa na znak, ale tylko w pewnym stopniu wrażliwa na wielkość celu. Jednak wielkość jest na tyle ważna, że modelem …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.