Kategoryzacja podejść do radzenia sobie z klasami niezrównoważonymi

Jaki jest najlepszy sposób kategoryzacji podejść opracowanych w celu rozwiązania problemu klasy nierównowagi?

W tym artykule podzielono je na:

Przetwarzanie wstępne: obejmuje oversampling, undersampling i metody hybrydowe,
Uczenie wrażliwe na koszty: obejmuje metody bezpośrednie i meta-nauczanie, które to ostatnie dzieli się na progi i pobieranie próbek
Techniki zestawów: obejmują zestawy wrażliwe na koszty i przetwarzanie danych w połączeniu z uczeniem się zestawów.

Druga klasyfikacja:

Wstępne przetwarzanie danych: obejmuje zmianę dystrybucji i ważenie przestrzeni danych. Uczenie się w jednej klasie jest uważane za zmianę dystrybucji.
Metody uczenia się specjalnego
Prognozowanie Post-processing: obejmuje metodę progową i post-processing wrażliwy na koszty
Metody hybrydowe:

Trzeci artykuł :

Metody na poziomie danych
Metody na poziomie algorytmu
Metody hybrydowe

Ostatnia klasyfikacja uznaje również dostosowanie produkcji za podejście niezależne.

Z góry dziękuję.

machine-learning classification class-imbalance

— ebrahimi
źródło

Bardzo krótka odpowiedź: wszystkie są najlepsze, a wszystkie najgorsze! Klasyfikacja i eksploracja danych są ogólnie bardzo wrażliwe na kontekst. W tej dziedzinie nie ma jednego rozwiązania pasującego do wszystkich rozwiązań. Nawiasem mówiąc, najlepsze podejście, w bardzo ogólnym ujęciu, jest zwykle kombinacją najlepszych decyzji na różnych poziomach, od ekstrakcji funkcji, do schematu oceny.

— mok

@mok Dzięki. Czy możesz podać mi wagę klasy w klasyfikatorach sklearn, np. Regresja logistyczna jest klasyfikowana do jakiej kategorii?

— ebrahimi

@ebrahimi, powinien spaść na poziom algorytmu, ponieważ tylko wagi są dostosowywane zgodnie z przekazanym słownikiem lub obliczane (wywnioskowane) zgodnie z wartościami y (klasa), a dane pozostają nietknięte.

— Sanjay Krishna

@SanjayKrishna Dziękujemy bardzo. W przypadku pierwszej kategoryzacji obejmuje uczenie wrażliwe na koszty, prawda? Również w przypadku drugiej taksonomii zostałby zaklasyfikowany do trzeciej kategorii, tj. Post-processingu wrażliwego na koszty. czy to prawda? Druga odpowiedź na to: stackoverflow.com/questions/32492550/... jest również przydatna.

— ebrahimi

Moim zdaniem wszystkie trzy kategoryzacje zgadzają się w wielu sprawach. Na przykład wszystkie trzy mają kategorię kroków wstępnego przetwarzania.

Zazwyczaj zgadzam się co do trzeciej kategoryzacji, ponieważ jest ona bardziej ogólna i obejmuje więcej rzeczy.

Danych poziomu kategoria obejmuje wszystkie etapy przetwarzania wstępnego do czynienia ze stopniem braku równowagi (na przykład powyżej / poniżej próbkowania).
Poziom algorytmu można uznać za obejmujący drugie kategorie pierwszych dwóch artykułów. Każda zmiana w algorytmie zajmującym się nierównowagą klas byłaby tutaj (np. Ważenie klas).
Wreszcie kategoria hybrydowa do połączenia tych dwóch.

Jedyne, czego brakuje w pierwszych dwóch artykułach, to etapy przetwarzania końcowego, które, szczerze mówiąc, nie są stosowane w praktyce tak często jak inne.

— ItsMeMario
źródło