Zgodnie z dokumentacją obiektu StandardScaler w scikit-learn:
Na przykład wiele elementów wykorzystywanych w funkcji celu algorytmu uczenia się (np. Jądro RBF maszyn wektora wektorowego lub regulatory modeli liniowych L1 i L2) zakłada, że wszystkie funkcje są wyśrodkowane wokół 0 i mają wariancję w tej samej kolejności. Jeśli cecha ma wariancję większą o rzędy wielkości niż inne, może zdominować funkcję celu i uniemożliwić estymatorowi uczenie się z innych cech poprawnie, zgodnie z oczekiwaniami.
Przed klasyfikacją powinienem skalować moje funkcje. Czy jest jakiś prosty sposób, aby pokazać, dlaczego powinienem to zrobić? Odniesienia do artykułów naukowych byłyby jeszcze lepsze. Znalazłem już jeden, ale prawdopodobnie jest wiele innych.