Pytania otagowane jako unbalanced-classes

5
Czy powinienem wybrać „zrównoważony” zbiór danych czy „reprezentatywny” zestaw danych?
Moim zadaniem „uczenia maszynowego” jest oddzielanie łagodnego ruchu internetowego od ruchu złośliwego. W scenariuszu realnym większość (powiedzmy 90% lub więcej) ruchu internetowego jest łagodna. Dlatego czułem, że powinienem również wybrać podobną konfigurację danych do szkolenia moich modeli. Ale natknąłem się na jeden lub dwa artykuły badawcze (w mojej dziedzinie pracy), …

4
Krótki przewodnik po szkoleniu wysoce niezrównoważonych zestawów danych
Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości. Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia …


4
Jakie są implikacje dla szkolenia zespołu drzewiastego z bardzo stronniczymi zestawami danych?
Mam bardzo stronniczy zestaw danych binarnych - mam 1000 razy więcej przykładów klasy ujemnej niż pozytywnej. Chciałbym trenować zespół drzew (na przykład Extra Random Trees lub A Random Forest) na tych danych, ale trudno jest utworzyć zestawy danych szkoleniowych, które zawierają wystarczającą liczbę przykładów pozytywnej klasy. Jakie byłyby konsekwencje zastosowania …

2
Jak stosować SMOTE do klasyfikacji tekstu?
Syntetyczna technika nadpróbkowania mniejszości (SMOTE) to technika nadpróbkowania stosowana w przypadku problemu z niezrównoważonym zestawem danych. Do tej pory mam pomysł, jak zastosować go do ogólnych, ustrukturyzowanych danych. Ale czy można go zastosować do problemu klasyfikacji tekstu? Którą część danych potrzebujesz nadpróbkować? Jest już inne pytanie , ale nie ma …

1
Ile komórek LSTM powinienem użyć?
Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Niezbilansowane klasy - jak zminimalizować fałszywe negatywy?
Mam zestaw danych, który ma atrybut klasy binarnej. Istnieje 623 przypadki z klasą +1 (rak dodatni) i 101 671 przypadków z klasą -1 (rak ujemny). Wypróbowałem różne algorytmy (Naive Bayes, Random Forest, AODE, C4.5) i wszystkie mają niedopuszczalne współczynniki fałszywie ujemnych. Losowy las ma najwyższą ogólną dokładność prognozowania (99,5%) i …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.