Jaka jest różnica między jednym kodowaniem na gorąco a pominięciem jednego kodowania?


13

Czytam prezentację i zaleca się, aby nie używać pomijania jednego kodu, ale w przypadku jednego kodowania na gorąco jest to w porządku. Myślałem, że oba są takie same. Czy ktoś może opisać, jakie są między nimi różnice?


1
Z samego pytania nie jest jasne, czym jest nawet pominięcie. Powinieneś to zmienić, aby dać wskaźnik i krótko wyjaśnić twoje zrozumienie tych dwóch i dlaczego uważasz, że są one takie same.
Sean Owen

Odpowiedzi:


15

Prawdopodobnie używają „pomiń kodowanie”, aby odnieść się do strategii Owena Zhanga.

Od: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-main-categories

Zakodowana kolumna nie jest konwencjonalną zmienną fikcyjną, lecz jest średnią odpowiedzią dla wszystkich wierszy dla tego kategorycznego poziomu, z wyłączeniem samego wiersza. Daje to tę zaletę, że ma jednokolumnową reprezentację kategorii, a jednocześnie pozwala uniknąć bezpośredniego wycieku odpowiedzi

To zdjęcie dobrze wyraża ten pomysł. wprowadź opis zdjęcia tutaj


Twoje wyjaśnienie jest lepsze niż wacax w odnośniku, dziękuję
Allan Ruin

Cześć @Dex Groves, więc kodowanie testu_zakończenia dla testu wynosi zawsze .5?
user7117436

3
Cześć! Jak widać na zdjęciu, ten szczególny przykład dotyczy problemu klasyfikacji. Czy ktoś ma doświadczenie w kodowaniu LOO w ramach problemu regresji? Główne pytanie dotyczy sposobu agregacji zmiennej docelowej. Teraz przeprowadzam eksperymenty i mam ogromne przeregulowanie ze średnim (y).
Alexey Trofimov

1
czy w przypadku problemu klastrowania (nienadzorowanego) można użyć tego rodzaju kodowania?
enneppi

@AlexeyTrofimov - spróbuj agregacji z mniejszą wariancją. Zaczynam od różnych grupowań (takich jak 1K, 2K, 2M, .. dla dużych wartości int lub lub zaokrąglanie do miejsca dziesiętnego dla wartości y zmiennoprzecinkowych) => średnia (bin_f (y))
mork
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.