Pytania otagowane jako classification

Instancja nadzorowanego uczenia, która identyfikuje kategorię lub kategorie, do których należy nowa instancja zestawu danych.


6
Podobieństwo cosinus kontra iloczyn iloczynu jako miary odległości
Wygląda na to, że podobieństwo cosinus dwóch cech jest po prostu iloczynem skalowanym przez iloczyn wielkości. Kiedy podobieństwo cosinus stanowi lepszą miarę odległości niż iloczyn kropkowy? Czy to znaczy, że produkt kropkowy i podobieństwo cosinus mają różne mocne i słabe strony w różnych sytuacjach?



1
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Krótki przewodnik po szkoleniu wysoce niezrównoważonych zestawów danych
Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości. Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia …

4
Kiedy używać Random Forest zamiast SVM i odwrotnie?
Kiedy należy używać Random Forestna SVModwrót? Rozumiem, że cross-validationporównanie modeli jest ważnym aspektem wyboru modelu, ale tutaj chciałbym dowiedzieć się więcej na temat zasad praktycznych i heurystyki tych dwóch metod. Czy ktoś może wyjaśnić subtelności, mocne i słabe strony klasyfikatorów, a także problemy, które najlepiej pasują do każdego z nich?

4
Jakich algorytmów należy użyć do przeprowadzenia klasyfikacji zadania na podstawie danych wznawiania?
Zauważ, że robię wszystko w R. Problem wygląda następująco: Zasadniczo mam listę CV (CV). Niektórzy kandydaci będą mieli wcześniej doświadczenie zawodowe, a niektórzy nie. Celem jest tutaj: na podstawie tekstu w życiorysach chcę podzielić je na różne sektory pracy. Zwłaszcza w tych przypadkach, w których kandydaci nie mają doświadczenia / …

4
Jak uzyskać dokładność, F1, precyzję i wycofanie, dla modelu Keras?
Chcę obliczyć precyzję, pamięć i wynik F1 dla mojego binarnego modelu KerasClassifier, ale nie znajduję żadnego rozwiązania. Oto mój rzeczywisty kod: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, …

5
Są algorytmami drzewa decyzyjnego liniowymi lub nieliniowymi
Ostatnio mój przyjaciel został zapytany, czy algorytmy drzewa decyzyjnego są algorytmami liniowymi czy nieliniowymi w wywiadzie. Próbowałem poszukać odpowiedzi na to pytanie, ale nie znalazłem satysfakcjonującego wyjaśnienia. Czy ktoś może odpowiedzieć i wyjaśnić rozwiązanie tego pytania? Jakie są też inne przykłady nieliniowych algorytmów uczenia maszynowego?



2
Kategoryzacja tekstu: łączenie różnego rodzaju funkcji
Problem, który rozwiązuję, polega na podzieleniu krótkich tekstów na wiele klas. Moje obecne podejście polega na wykorzystaniu częstotliwości ważonych tf-idf i nauce prostego klasyfikatora liniowego (regresja logistyczna). Działa to całkiem dobrze (około 90% makra F-1 na zestawie testowym, prawie 100% na zestawie treningowym). Dużym problemem są niewidoczne słowa / n-gram. …

4
Kiedy zastosować odległość Manhattanu jako przeciwieństwo odległości euklidesowej?
Próbuję poszukać dobrego argumentu na temat tego, dlaczego warto wykorzystać odległość Manhattanu nad odległością euklidesową w uczeniu maszynowym. Najbliższa mi jak dotąd dobra argumentacja dotyczy wykładu MIT . W 36:15 na slajdach można zobaczyć następujące oświadczenie: „Zazwyczaj stosuj dane euklidesowe; Manhattan może być odpowiedni, jeśli różne wymiary nie są porównywalne …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.