Czy ktoś może podać listę algorytmów, które wymagałyby, aby cechy kategoryczne były zakodowane na gorąco, a które nie?
AFAIU, ma więcej wspólnego z konkretnymi danymi , mniej z konkretnym algorytmem . W szczególności zależy to od tego, czy w kategoriach występuje jakiś znaczący porządek, czy nie.
Rozważ dwa przypadki. W pierwszym masz kategorie złe, meh, dobre , aw drugim masz jabłko, pomarańczę, gruszkę . Jest to naturalny porządek w pierwszym przypadku, ponieważ meh jest prawdopodobnie pomiędzy zły i dobry , ale prawdopodobnie nic podobnego dzieje się w jabłko, pomarańcza, gruszka .
Jeśli unikniesz jednorazowego kodowania w pierwszym przypadku, „tracisz” informacje o zamówieniu. Jeśli użyjesz kodowania „na gorąco” dla drugiego przypadku, przypisujesz porządek do kategorii, co z natury nie jest prawdą.
Robię to za każdym razem, gdy algorytm używa metryki odległości do obliczenia podobieństwa.
Czemu? Załóżmy, że jedna z funkcji jest kategorycznie zła, aha, dobra i masz trzy instancje, 1, 2 i 3, w których są one identyczne, z wyjątkiem tego, że 1 jest zła , 2 to meh , a 3 jest dobra. Prawdopodobnie chcesz wyrazić algorytmowi, że 1 jest bardziej podobny do 2 niż do 3.