Pytania otagowane jako unbalanced-classes

Dane zorganizowane w dyskretne kategorie lub * klasy * mogą stwarzać problemy dla niektórych analiz, jeśli liczba obserwacji (n) przynależność do każdej klasy nie jest stała między klasami. Klasy nierównen są * niezrównoważone *.

3
Czy niezrównoważona próbka ma znaczenie podczas regresji logistycznej?
Ok, więc myślę, że mam wystarczająco przyzwoitą próbkę, biorąc pod uwagę ogólną zasadę 20: 1: dość dużą próbkę (N = 374) dla łącznie 7 potencjalnych zmiennych predykcyjnych. Mój problem jest następujący: bez względu na to, jakiego zestawu zmiennych predykcyjnych używam, klasyfikacje nigdy nie są lepsze niż specyficzność 100% i czułość …


5
Kiedy niezrównoważone dane naprawdę stanowią problem w uczeniu maszynowym?
Mieliśmy już wiele pytań na temat niezrównoważonych danych podczas korzystania z regresji logistycznej , SVM , drzew decyzyjnych , tworzenia worków i wielu innych podobnych pytań, co sprawia, że ​​jest to bardzo popularny temat! Niestety, każde z pytań wydaje się być specyficzne dla algorytmu i nie znalazłem żadnych ogólnych wskazówek …


4
Szkolenie drzewa decyzyjnego względem niezrównoważonych danych
Jestem nowy w eksploracji danych i staram się trenować drzewo decyzyjne względem zestawu danych, który jest wysoce niezrównoważony. Mam jednak problemy ze słabą dokładnością predykcyjną. Dane obejmują studentów studiujących kursy, a zmienną klasową jest status kursu, który ma dwie wartości - Wycofany lub Bieżący. Wiek Pochodzenie etniczne Płeć Oczywiście ... …


3
Jaka jest podstawowa przyczyna problemu braku równowagi klas?
Ostatnio dużo myślałem o „problemie nierównowagi klas” w uczeniu maszynowym / statystycznym i coraz głębiej odczuwam, że po prostu nie rozumiem, co się dzieje. Najpierw pozwól mi zdefiniować (lub spróbować) zdefiniować moje warunki: Problemem klasa nierównowaga w maszyny / uczenia statystycznego jest obserwacja, że niektóre klasyfikacji binarnej (*) algorytmy nie …

4
Optymalizacja pod kątem krzywych Precyzja-Przywołanie przy niewyważeniu klasy
Mam zadanie klasyfikacji, w którym mam wiele predyktorów (z których jeden jest najbardziej pouczający) i używam modelu MARS do budowy mojego klasyfikatora (jestem zainteresowany dowolnym prostym modelem, a używanie glms do celów ilustracyjnych byłoby też dobrze). Teraz mam ogromną nierównowagę klas w danych treningowych (około 2700 próbek ujemnych na każdą …

4
Kiedy powinienem bilansować klasy w zbiorze danych treningowych?
Miałem kurs online, w którym dowiedziałem się, że niezrównoważone klasy w danych treningowych mogą prowadzić do problemów, ponieważ algorytmy klasyfikacji są zgodne z regułą większości, ponieważ dają dobre wyniki, jeśli niezrównoważenie jest zbyt duże. W zadaniu należało zrównoważyć dane poprzez niepełne próbkowanie klasy większościowej. Jednak na tym blogu ktoś twierdzi, …

6
Wielkość próby regresji logistycznej?
Chcę stworzyć model logistyczny z moich danych ankietowych. To niewielka ankieta dotycząca czterech kolonii mieszkalnych, w której przeprowadzono wywiad tylko z 154 respondentami. Moja zmienna zależna to „zadowalające przejście do pracy”. Stwierdziłem, że spośród 154 respondentów 73 stwierdziło, że zadowalająco przeszły do ​​pracy, a reszta nie. Zatem zmienna zależna ma …

4
Jakie jest właściwe użycie scale_pos_weight w xgboost dla niezrównoważonych zestawów danych?
Mam bardzo niezrównoważony zestaw danych. Staram się postępować zgodnie ze wskazówkami dotyczącymi tuningu i używać go, scale_pos_weightale nie jestem pewien, jak go dostroić. Widzę, że RegLossObj.GetGradient: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight więc gradient próbki dodatniej byłby bardziej wpływowy. Jednak zgodnie z artykułem xgboost statystyka gradientów jest zawsze używana …

4
Jaki problem rozwiązuje oversampling, undersampling i SMOTE?
W ostatnim dobrze odebranym pytaniu Tim pyta, kiedy niezrównoważone dane naprawdę stanowią problem w uczeniu maszynowym ? Przesłanka tego pytania polega na tym, że istnieje wiele literatury dotyczącej uczenia maszynowego, która omawia równowagę klas i problem niezrównoważonych klas . Chodzi o to, że zestawy danych z nierównowagą między klasą dodatnią …

2
Jak poradzić sobie z różnicą między rozkładem zestawu testowego i zestawu treningowego?
Myślę, że jednym z podstawowych założeń uczenia maszynowego lub szacowania parametrów jest to, że niewidoczne dane pochodzą z tego samego rozkładu, co zestaw szkoleniowy. Jednak w niektórych praktycznych przypadkach rozkład zestawu testowego będzie prawie różny od zestawu szkoleniowego. Powiedz o wielkoskalowym problemie wielu klasyfikacji, który próbuje sklasyfikować opisy produktów do …

3
Wskaźniki klasyfikacji / oceny dla wysoce niezrównoważonych danych
Mam do czynienia z problemem wykrywania oszustw (podobnym do punktacji kredytowej). W związku z tym istnieje wysoce niezrównoważony stosunek między fałszywymi i nieuczciwymi obserwacjami. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html zapewnia doskonały przegląd różnych wskaźników klasyfikacji. Precision and Recalllub kappaoba wydają się być dobrym wyborem: Jednym ze sposobów uzasadnienia wyników takich klasyfikatorów jest porównanie ich …

5
Próbkowanie dla niezrównoważonych danych w regresji
Pojawiły się dobre pytania dotyczące postępowania z niezrównoważonymi danymi w kontekście klasyfikacji , ale zastanawiam się, co ludzie robią, aby próbować pod kątem regresji. Powiedzmy, że dziedzina problemowa jest bardzo wrażliwa na znak, ale tylko w pewnym stopniu wrażliwa na wielkość celu. Jednak wielkość jest na tyle ważna, że ​​modelem …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.