Kiedy algorytmy ML, np. Vowpal Wabbit lub niektóre maszyny do faktoryzacji wygrywające w konkursach współczynnika klikalności ( Kaggle ), wspominają, że funkcje są „mieszane”, co to właściwie oznacza dla modelu? Powiedzmy, że istnieje zmienna reprezentująca identyfikator dodania internetowego, który przyjmuje wartości takie jak „236BG231”. Rozumiem zatem, że ta funkcja jest haszowana do losowej liczby całkowitej. Ale moje pytanie brzmi:
- Czy liczba całkowita jest teraz używana w modelu, jako liczba całkowita (numeryczna) LUB
- czy wartość zaszyfrowana jest nadal traktowana jak zmienna kategoryczna i kodowana na gorąco? Czyli sztuczką hashującą jest po prostu zaoszczędzić miejsce przy dużych danych?