Popularnym podejściem do rozwiązywania problemów z nierównowagą klas jest odchylenie klasyfikatora, tak aby zwracał większą uwagę na pozytywne przypadki. Można tego dokonać na przykład poprzez zwiększenie kary związanej z błędnym zaklasyfikowaniem klasy dodatniej w stosunku do klasy ujemnej. Innym podejściem jest wstępne przetwarzanie danych przez nadmierne próbkowanie klasy większości lub niepełne próbkowanie klasy mniejszości w celu stworzenia zrównoważonego zestawu danych.
Jednak w twoim przypadku nierównowaga klasowa nie wydaje się stanowić problemu. Być może jest to kwestia dostrajania parametrów, ponieważ znalezienie optymalnych parametrów dla klasyfikatora SVM może być dość żmudnym procesem. Istnieją dwa parametry np. W jądrze RBF:do i γ. Nie wiadomo z góry, któredo i γsą najlepsze dla danego problemu; w związku z tym należy dokonać pewnego wyboru modelu (wyszukiwanie parametrów).
Na etapie wstępnego przetwarzania danych pamiętaj, że SVM wymaga, aby każda instancja danych była reprezentowana jako wektor liczb rzeczywistych. Dlatego jeśli istnieją atrybuty kategoryczne, zaleca się ich konwersję na dane liczbowe, używając liczb m do reprezentowania atrybutu kategorii m (lub zastąpienia go nowymi m zmiennymi binarnymi).
Ponadto skalowanie zmiennych przed zastosowaniem SVM jest kluczowe, aby uniknąć atrybutów w większych zakresach liczbowych dominujących w mniejszych zakresach liczbowych.
Sprawdź ten artykuł .
Jeśli pracujesz w R, sprawdź funkcję dostrajania (pakiet e1071), aby dostroić hiperparametry za pomocą wyszukiwania siatki na podstawie podanych zakresów parametrów. Następnie za pomocą plot.tune możesz wizualnie zobaczyć, który zestaw wartości daje mniejszy poziom błędu.
Istnieje skrót wokół czasochłonnego wyszukiwania parametrów. Istnieje pakiet R o nazwie „svmpath”, który oblicza całą ścieżkę regularyzacji dla 2-klasowego klasyfikatora SVM za jednym razem. Oto link do artykułu, który opisuje, co robi.
PS Ten artykuł może Cię również zainteresować: Uzyskiwanie skalibrowanych oszacowań prawdopodobieństwa