Pytania otagowane jako categorical-encoding

Reprezentowanie zmiennych kategorialnych jako zbiory zmiennych numerycznych. Niezbędne w wielu typach analiz do przetwarzania danych kategorycznych. Typowym przykładem jest użycie predyktora jakościowego w regresji / ANOVA poprzez kodowanie pozorne, kodowanie efektów, kodowanie Helmerta, kontrasty zdefiniowane przez użytkownika itp.



3
Dlaczego musimy tłumić zmienne jakościowe w kodzie?
Nie jestem pewien, dlaczego musimy tłumić zmienne kategorialne. Na przykład, jeśli mam zmienną kategorialną o czterech możliwych wartościach 0,1,2,3, mogę ją zastąpić dwoma wymiarami. Gdyby zmienna miała wartość 0, miałaby 0,0 w dwóch wymiarach, gdyby miała 3, miałaby 1,1 w dwóch wymiarach i tak dalej. Nie jestem pewien, dlaczego musimy …

1
Upuszczenie jednej z kolumn podczas kodowania na gorąco
Rozumiem, że w uczeniu maszynowym może być problem, jeśli zestaw danych ma wysoce skorelowane funkcje, ponieważ skutecznie kodują te same informacje. Ostatnio ktoś zauważył, że gdy wykonujesz kodowanie na gorąco na zmiennej kategorialnej, masz skorelowane cechy, więc powinieneś upuścić jedną z nich jako „odniesienie”. Na przykład kodowanie płci jako dwóch …

3
Kiedy należy stosować regresję wielokrotną z kodowaniem fikcyjnym a ANCOVA?
Niedawno przeanalizowałem eksperyment, w którym manipulowano 2 zmiennymi kategorycznymi i jedną zmienną ciągłą za pomocą ANCOVA. Jednak recenzent zasugerował, że regresja wielokrotna ze zmienną kategorialną zakodowaną jako zmienne pozorne jest bardziej odpowiednim testem dla eksperymentów ze zmiennymi kategorycznymi i ciągłymi. Kiedy należy zastosować ANCOVA vs. regresję wielokrotną ze zmiennymi fikcyjnymi …


5
Jak przekodować zmienną kategorialną na zmienną numeryczną podczas korzystania z SVM lub sieci neuronowej
Aby użyć SVM lub sieci neuronowej, należy przekształcić (zakodować) zmienne kategorialne w zmienne numeryczne, normalną metodą w tym przypadku jest użycie wartości binarnych 0-1 z przekształconą k-tą wartością kategorialną na (0,0, .. ., 1,0, ... 0) (1 jest w pozycji k-tej). Czy istnieją inne metody, aby to zrobić, zwłaszcza gdy …

1
Jak traktować predyktory jakościowe w LASSO
Używam LASSO, który ma pewne predyktory zmiennych jakościowych i niektóre ciągłe. Mam pytanie dotyczące zmiennych kategorialnych. Pierwszym krokiem, jaki rozumiem, jest rozbicie każdego z nich na atrapy, ujednolicenie ich pod kątem uczciwej kary, a następnie regres. Pojawia się kilka opcji traktowania zmiennych fikcyjnych: Uwzględnij wszystkie manekiny oprócz jednego dla każdego …

2
Jakościowe kodowanie zmiennych w regresji prowadzi do „osobliwości”
Mam niezależną zmienną o nazwie „jakość”; ta zmienna ma 3 tryby odpowiedzi (zła jakość; średnia jakość; wysoka jakość). Chcę wprowadzić tę zmienną niezależną do mojej wielokrotnej regresji liniowej. Kiedy mam binarną zmienną niezależną (zmienną fikcyjną, mogę kodować 0/ 1), łatwo jest wprowadzić ją do modelu wielokrotnej regresji liniowej. Ale przy …

2
„Zmienna manekina” kontra „zmienna wskaźnikowa” dla danych nominalnych / kategorialnych
„Zmienna manekina” i „zmienna wskaźnika” to często używane etykiety, aby opisać członkostwo w kategorii z kodowaniem 0/1; zazwyczaj 0: nie należy do kategorii, 1: należy do kategorii. W dniu 26.11.2014 r. Szybkie wyszukiwanie na scholar.google.com (wraz z cytatami) ujawnia, że ​​„zmienna fikcyjna” jest używana w około 318 000 artykułów, a …

2
Jak zrobić regresję z kodowaniem efektu zamiast kodowania fikcyjnego w R?
Obecnie pracuję nad modelem regresji, w którym jako zmienne niezależne mam tylko zmienne kategorialne / czynnikowe. Moja zmienna zależna to stosunek przekształcony logit. Całkiem łatwo jest uruchomić normalną regresję w R, ponieważ R automatycznie wie, jak zakodować manekiny, gdy tylko będą miały typ „czynnik”. Jednak ten rodzaj kodowania oznacza również, …

1
Jakie są różne rodzaje kodowania dostępne dla zmiennych kategorialnych (w R) i kiedy ich użyjesz?
Jeśli dopasujesz model liniowy lub mieszany, dostępne są różne typy kodowania, aby przekształcić zmienną kategorialną lub nominalną w szereg zmiennych, dla których szacowane są parametry, takie jak atrapa warunkowa (domyślnie R) i kodowanie efektów. Słyszałem, że kodowanie efektów (czasami nazywane kodowaniem dewiacyjnym lub kontrastowym) jest preferowane, gdy masz interakcje, ale …


3
Jakie algorytmy wymagają jednorazowego kodowania?
Nigdy nie jestem pewien, kiedy zastosować kodowanie „na gorąco” w przypadku niez uporządkowanych zmiennych kategorialnych, a kiedy nie. Używam go, ilekroć algorytm używa metryki odległości do obliczenia podobieństwa. Czy ktokolwiek może podać ogólną ogólną zasadę, jakie typy algorytmów wymagają, aby niez uporządkowane funkcje kategorialne były zakodowane na gorąco, a które …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.