Przeczytałem więc kilka postów o tym, dlaczego zawsze należy unikać binowania. Popularnym odniesieniem dla tego roszczenia jest ten link .
Główną kwestią jest to, że punkty binningu (lub punkty odcięcia) są raczej arbitralne, jak również wynikająca z tego utrata informacji, i że splajny powinny być preferowane.
Jednak obecnie pracuję z interfejsem API Spotify, który ma wiele miar zaufania dla kilku ich funkcji.
Patrząc na jedną cechę, „instrumentalność”, odniesienia wskazują:
Przewiduje, czy utwór nie zawiera wokalu. W tym kontekście dźwięki „Ooh” i „aah” są traktowane jako instrumentalne. Rap lub słowa mówione są wyraźnie „wokalne”. Im wartość instrumentalności jest bliższa 1,0, tym większe prawdopodobieństwo, że utwór nie zawiera treści wokalnych. Wartości powyżej 0,5 mają reprezentować ścieżki instrumentalne , ale pewność jest wyższa, gdy wartość zbliża się do 1,0.
Biorąc pod uwagę bardzo przesunięty w lewo rozkład moich danych (około 90% próbek jest niewiele powyżej 0, uznałem za sensowne przekształcenie tej cechy w dwie cechy kategoryczne: „instrumentalna” (wszystkie próbki o wartości powyżej 0,5) i „nienarzędziowa” „(dla wszystkich próbek o wartości poniżej 0,5).
Czy to źle? A jaka byłaby alternatywa, gdy prawie wszystkie moje (ciągłe) dane obracają się wokół jednej wartości? Z tego, co rozumiem na temat splajnów, nie będą one również działać z problemami z klasyfikacją (co robię).