Pytania otagowane jako classification

Klasyfikacja statystyczna to problem identyfikacji subpopulacji, do której należą nowe obserwacje, w przypadku których tożsamość subpopulacji nie jest znana, na podstawie zestawu danych szkoleniowych zawierających obserwacje, których subpopulacja jest znana. Dlatego te klasyfikacje wykażą zmienne zachowanie, które można zbadać za pomocą statystyk.

3
Jak przeprowadzić rozbudowę danych i rozdzielić walidację pociągu?
Dokonuję klasyfikacji obrazów przy użyciu uczenia maszynowego. Załóżmy, że mam pewne dane treningowe (obrazy) i podzielę dane na zestawy szkoleniowe i walidacyjne. Chcę też rozszerzyć dane (tworzyć nowe obrazy z oryginalnych) przez losowe obroty i wstrzykiwanie szumu. Augmentacja odbywa się offline. Jaki jest właściwy sposób na powiększanie danych? Najpierw podziel …

1
Różnica między regresją logistyczną a maszynami wektorów wsparcia?
Wiem, że regresja logistyczna znajduje hiperpłaszczyznę, która oddziela próbki szkoleniowe. Wiem również, że maszyny wektorowe wsparcia znajdują hiperpłaszczyznę z maksymalnym marginesem. Moje pytanie: czy zatem różnica między regresją logistyczną (LR) a maszynami wektorów wsparcia (SVM) polega na tym, że LR znajduje jakąkolwiek hiperpłaszczyznę, która oddziela próbki szkoleniowe, podczas gdy SVM …

1
Klasyfikatory uczenia maszynowego duże O lub złożoność
Aby ocenić wydajność nowego algorytmu klasyfikatora, próbuję porównać dokładność i złożoność (duże O w treningu i klasyfikacji). Z uczenia maszynowego: recenzja Otrzymuję pełną listę nadzorowanych klasyfikatorów, tabelę dokładności między algorytmami i 44 problemy testowe z repozytorium danych UCI . Nie mogę jednak znaleźć recenzji, artykułu papierowego ani strony internetowej z …

3
Ważenie najnowszych danych w modelu Losowy las
Trenuję model klasyfikacyjny z Random Forest, aby rozróżnić 6 kategorii. Moje dane transakcyjne zawierają około 60 000 obserwacji i 35 zmiennych. Oto przykład, jak to w przybliżeniu wygląda. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG …

1
Używanie LASSO w losowym lesie
Chciałbym utworzyć losowy las przy użyciu następującego procesu: Zbuduj drzewo na losowych próbkach danych i funkcji, używając przyrostu informacji do określania podziałów Zakończ węzeł liścia, jeśli przekracza on z góry określoną głębokość LUB jakiekolwiek rozszczepienie spowodowałoby, że liczba liści byłaby mniejsza niż z góry określone minimum Zamiast przypisywać etykietę klasy …

1
RandomForest - interpretacja fabuły MDS
Użyłem randomForest, aby sklasyfikować 6 zachowań zwierząt (np. Stanie, chodzenie, pływanie itp.) W oparciu o 8 zmiennych (różne postawy ciała i ruch). MDSplot w pakiecie randomForest daje mi to wyjście i mam problemy z interpretacją wyniku. Zrobiłem PCA na tych samych danych i uzyskałem już dobrą separację między wszystkimi klasami …



1
Czy przy nadmiernym / niedostatecznym próbkowaniu niesymetrycznych klas maksymalizacja dokładności różni się od minimalizacji kosztów błędnej klasyfikacji?
Przede wszystkim chciałbym opisać niektóre popularne układy używane w książkach Data Mining, wyjaśniając, jak radzić sobie z niezrównoważonymi zestawami danych . Zwykle główna sekcja nosi nazwę Niezrównoważone zestawy danych i obejmują te dwie podsekcje: Klasyfikacja wrażliwa na koszty i Techniki pobierania próbek. Wydaje się, że w obliczu problemu z rzadką …

3
Czy modele CART mogą być solidne?
Mój kolega z mojego biura powiedział mi dzisiaj: „Modele drzew nie są dobre, ponieważ przyłapują ich ekstremalne obserwacje”. Wyszukiwanie tutaj zaowocowało tym wątkiem, który zasadniczo obsługuje roszczenie. Co prowadzi mnie do pytania - w jakiej sytuacji model CART może być solidny i jak to pokazano?

2
Dlaczego oszacowanie błędu losowego OOB błędu lasu poprawia się, gdy liczba wybranych funkcji jest zmniejszana?
Stosuję algorytm losowego lasu jako klasyfikator w zestawie danych mikromacierzy, które są podzielone na dwie znane grupy z tysiącami funkcji. Po pierwszym uruchomieniu sprawdzam znaczenie funkcji i ponownie uruchamiam algorytm drzewa z 5, 10 i 20 najważniejszymi funkcjami. Uważam, że dla wszystkich funkcji, w pierwszej dziesiątce i 20, szacowany przez …


1
Caret glmnet vs cv.glmnet
Wydaje się, że istnieje wiele zamieszania w porównaniu używania glmnetwewnątrz w caretcelu znalezienia optymalnej lambdy i korzystania cv.glmnetz tego samego zadania. Zadano wiele pytań, np .: Model klasyfikacji train.glmnet vs. cv.glmnet? Jaki jest właściwy sposób używania glmnet z karetką? Cross-validation `glmnet` za pomocą` caret` ale nie udzielono odpowiedzi, co może …

1
GAM vs LOESS vs splajny
Kontekst : Chcę, aby narysować linię na wykresie rozrzutu, że nie pojawia się parametryczne, dlatego używam geom_smooth()w ggplotw R. Automatycznie zwraca geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method., …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.