Intuicyjne rozumowanie zostało wyjaśnione w blogu:
Jeśli naszym celem jest przewidywanie, spowoduje to wyraźne uprzedzenie. Co gorsza, będzie to trwałe odchylenie w tym sensie, że nie będziemy mieli spójnych szacunków w miarę wzrostu wielkości próby.
Prawdopodobnie problem (sztucznie) zrównoważonych danych jest gorszy niż przypadek niezrównoważony.
Zrównoważone dane nadają się do klasyfikacji, ale oczywiście tracisz informacje o częstotliwościach wyglądu, co ma wpływ na same pomiary dokładności, a także na wydajność produkcji.
Załóżmy, że rozpoznajesz ręcznie pisane litery z alfabetu angielskiego (26 liter). Nadmierne zrównoważenie wyglądu każdej litery spowoduje, że każda litera zostanie sklasyfikowana (poprawnie lub nie) w przybliżeniu 1/26, więc klasyfikator zapomni o rzeczywistym rozmieszczeniu liter w oryginalnej próbce. I jest ok, gdy klasyfikator jest w stanie uogólnić i rozpoznać każdą literę z dużą dokładnością .
Ale jeśli dokładność i, co najważniejsze, uogólnienie nie są „tak wysokie” (nie mogę podać ci definicji - możesz to potraktować jako „najgorszy przypadek”) - błędnie sklasyfikowane punkty najprawdopodobniej zostaną równo rozdzielone między wszystkie litery , coś jak:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
W przeciwieństwie do bez równoważenia (przy założeniu, że „A” i „C” mają znacznie większe prawdopodobieństwo pojawienia się w tekście)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Tak częste przypadki będą miały mniej błędnych klasyfikacji. To, czy jest dobre, czy nie, zależy od twojego zadania. W przypadku naturalnego rozpoznawania tekstu można argumentować, że litery o wyższych częstotliwościach są bardziej opłacalne, ponieważ zachowałyby semantykę oryginalnego tekstu, przybliżając zadanie rozpoznawania do przewidywania (gdzie semantyka reprezentuje tendencje ). Ale jeśli próbujesz rozpoznać coś takiego jak zrzut ekranu klucza ECDSA (więcej entropii -> mniej przewidywania) - utrzymanie niezrównoważenia danych nie pomogłoby. Więc znowu to zależy.
Najważniejsze rozróżnienie polega na tym, że samo oszacowanie dokładności staje się tendencyjne (jak widać na przykładzie zrównoważonego alfabetu), więc nie wiesz, w jaki sposób zachowanie modelu wpływa na najrzadsze lub najczęstsze punkty.
PS Zawsze możesz najpierw śledzić wyniki klasyfikacji niezrównoważonej za pomocą wskaźników Precyzja / Przywołanie i zdecydować, czy chcesz dodać równoważenie, czy nie.
EDYCJA : Istnieje dodatkowe zamieszanie, które polega na teorii szacunków dokładnie na różnicy między średnią próby a średnią populacji. Na przykład możesz znać (prawdopodobnie) faktyczny rozkład liter angielskich w alfabecie , ale twoja próbka (zestaw szkoleniowy) nie jest wystarczająco duża, aby oszacować ją poprawnie (z ). Aby więc skompensować , czasami zaleca się ponowne zrównoważenie klas zgodnie z samą populacją lub parametrami znanymi z większej próbyp ( xja| θ)p ( xja| θ^)θ i - θ jaθ^ja- θja(a zatem lepszy estymator). Jednak w praktyce nie ma gwarancji, że „większa próbka” jest identycznie dystrybuowana ze względu na ryzyko uzyskania stronniczych danych na każdym etapie (powiedzmy, że angielskie litery zebrane z literatury technicznej vs. fikcja vs. cała biblioteka), więc równoważenie może nadal być szkodliwe.
Ta odpowiedź powinna również wyjaśnić kryteria stosowalności bilansowania:
Problem nierównowagi klasowej jest spowodowany brakiem wystarczającej liczby wzorców należących do klasy mniejszościowej, a nie stosunkiem samych pozytywnych i negatywnych wzorców. Zasadniczo, jeśli masz wystarczającą ilość danych, nie pojawia się „problem braku równowagi klas”
Podsumowując, sztuczne równoważenie rzadko jest przydatne, jeśli zestaw treningowy jest wystarczająco duży. Brak danych statystycznych z większej identycznie rozmieszczonej próbki również sugeruje, że nie ma potrzeby sztucznego równoważenia (szczególnie do prognozowania), w przeciwnym razie jakość estymatora jest tak dobra, jak „prawdopodobieństwo spotkania dinozaura”:
Jakie jest prawdopodobieństwo spotkania dinozaura na ulicy?
1/2 albo spotkasz dinozaura albo nie spotkasz dinozaura