Nauka danych unbalanced-classes

5

Czy powinienem wybrać „zrównoważony” zbiór danych czy „reprezentatywny” zestaw danych?

Moim zadaniem „uczenia maszynowego” jest oddzielanie łagodnego ruchu internetowego od ruchu złośliwego. W scenariuszu realnym większość (powiedzmy 90% lub więcej) ruchu internetowego jest łagodna. Dlatego czułem, że powinienem również wybrać podobną konfigurację danych do szkolenia moich modeli. Ale natknąłem się na jeden lub dwa artykuły badawcze (w mojej dziedzinie pracy), …

48 machine-learning dataset unbalanced-classes

4

Krótki przewodnik po szkoleniu wysoce niezrównoważonych zestawów danych

Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości. Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia …

29 machine-learning classification dataset unbalanced-classes

4

Niezrównoważone dane wieloklasowe dzięki XGBoost

Mam 3 klasy z tą dystrybucją: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 I używam xgboostdo klasyfikacji. Wiem, że istnieje parametr o nazwie scale_pos_weight. Ale jak to jest obsługiwane w przypadku „wieloklasowym” i jak mogę to właściwie ustawić?

20 classification xgboost multiclass-classification unbalanced-classes

4

Jakie są implikacje dla szkolenia zespołu drzewiastego z bardzo stronniczymi zestawami danych?

Mam bardzo stronniczy zestaw danych binarnych - mam 1000 razy więcej przykładów klasy ujemnej niż pozytywnej. Chciałbym trenować zespół drzew (na przykład Extra Random Trees lub A Random Forest) na tych danych, ale trudno jest utworzyć zestawy danych szkoleniowych, które zawierają wystarczającą liczbę przykładów pozytywnej klasy. Jakie byłyby konsekwencje zastosowania …

14 machine-learning feature-selection unbalanced-classes

2

Jak stosować SMOTE do klasyfikacji tekstu?

Syntetyczna technika nadpróbkowania mniejszości (SMOTE) to technika nadpróbkowania stosowana w przypadku problemu z niezrównoważonym zestawem danych. Do tej pory mam pomysł, jak zastosować go do ogólnych, ustrukturyzowanych danych. Ale czy można go zastosować do problemu klasyfikacji tekstu? Którą część danych potrzebujesz nadpróbkować? Jest już inne pytanie , ale nie ma …

14 unbalanced-classes text smote

1

Ile komórek LSTM powinienem użyć?

Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Niezbilansowane klasy - jak zminimalizować fałszywe negatywy?

Mam zestaw danych, który ma atrybut klasy binarnej. Istnieje 623 przypadki z klasą +1 (rak dodatni) i 101 671 przypadków z klasą -1 (rak ujemny). Wypróbowałem różne algorytmy (Naive Bayes, Random Forest, AODE, C4.5) i wszystkie mają niedopuszczalne współczynniki fałszywie ujemnych. Losowy las ma najwyższą ogólną dokładność prognozowania (99,5%) i …

11 classification random-forest decision-trees unbalanced-classes

Pytania otagowane jako unbalanced-classes