Statystyki i duże zbiory danych categorical-encoding

4

Czym dokładnie jest matryca kontrastu (termin odnoszący się do analizy z predyktorami jakościowymi) i jak dokładnie określono matrycę kontrastu? Tzn. Czym są kolumny, czym są wiersze, jakie są ograniczenia na tej macierzy i co oznacza liczba w kolumnie ji rzędzie i? Próbowałem przeglądać dokumenty i sieć, ale wygląda na to, …

46 regression categorical-data definition contrasts categorical-encoding

7

Dlaczego na przykład płeć zazwyczaj ma kod 0/1 zamiast 1/2?

Rozumiem logikę kodowania do analizy danych. Moje pytanie poniżej dotyczy użycia określonego kodu. Czy istnieje powód, dla którego płeć jest często kodowana jako 0 dla kobiety i 1 dla mężczyzny? Dlaczego to kodowanie jest uważane za „standardowe”? Porównaj to z Kobietą = 1 i Mężczyzną = 2. Czy występuje problem …

25 data-transformation binary-data categorical-encoding units

3

Dlaczego musimy tłumić zmienne jakościowe w kodzie?

Nie jestem pewien, dlaczego musimy tłumić zmienne kategorialne. Na przykład, jeśli mam zmienną kategorialną o czterech możliwych wartościach 0,1,2,3, mogę ją zastąpić dwoma wymiarami. Gdyby zmienna miała wartość 0, miałaby 0,0 w dwóch wymiarach, gdyby miała 3, miałaby 1,1 w dwóch wymiarach i tak dalej. Nie jestem pewien, dlaczego musimy …

22 categorical-data categorical-encoding

1

Upuszczenie jednej z kolumn podczas kodowania na gorąco

Rozumiem, że w uczeniu maszynowym może być problem, jeśli zestaw danych ma wysoce skorelowane funkcje, ponieważ skutecznie kodują te same informacje. Ostatnio ktoś zauważył, że gdy wykonujesz kodowanie na gorąco na zmiennej kategorialnej, masz skorelowane cechy, więc powinieneś upuścić jedną z nich jako „odniesienie”. Na przykład kodowanie płci jako dwóch …

22 regression machine-learning categorical-data discrete-data categorical-encoding

3

Kiedy należy stosować regresję wielokrotną z kodowaniem fikcyjnym a ANCOVA?

Niedawno przeanalizowałem eksperyment, w którym manipulowano 2 zmiennymi kategorycznymi i jedną zmienną ciągłą za pomocą ANCOVA. Jednak recenzent zasugerował, że regresja wielokrotna ze zmienną kategorialną zakodowaną jako zmienne pozorne jest bardziej odpowiednim testem dla eksperymentów ze zmiennymi kategorycznymi i ciągłymi. Kiedy należy zastosować ANCOVA vs. regresję wielokrotną ze zmiennymi fikcyjnymi …

20 regression multiple-regression ancova categorical-encoding

2

Znaczenie predyktora jakościowego w regresji logistycznej

Mam problem z interpretacją wartości Z dla zmiennych kategorialnych w regresji logistycznej. W poniższym przykładzie mam zmienną kategorialną z 3 klasami i zgodnie z wartością z, KLASA 2 może być istotna, podczas gdy inne nie. Ale co to teraz znaczy? Że mogę połączyć pozostałe klasy w jedną? Czy cała zmienna …

19 r logistic categorical-data feature-selection categorical-encoding

5

Jak przekodować zmienną kategorialną na zmienną numeryczną podczas korzystania z SVM lub sieci neuronowej

Aby użyć SVM lub sieci neuronowej, należy przekształcić (zakodować) zmienne kategorialne w zmienne numeryczne, normalną metodą w tym przypadku jest użycie wartości binarnych 0-1 z przekształconą k-tą wartością kategorialną na (0,0, .. ., 1,0, ... 0) (1 jest w pozycji k-tej). Czy istnieją inne metody, aby to zrobić, zwłaszcza gdy …

19 machine-learning neural-networks categorical-data svm categorical-encoding

1

Jak traktować predyktory jakościowe w LASSO

Używam LASSO, który ma pewne predyktory zmiennych jakościowych i niektóre ciągłe. Mam pytanie dotyczące zmiennych kategorialnych. Pierwszym krokiem, jaki rozumiem, jest rozbicie każdego z nich na atrapy, ujednolicenie ich pod kątem uczciwej kary, a następnie regres. Pojawia się kilka opcji traktowania zmiennych fikcyjnych: Uwzględnij wszystkie manekiny oprócz jednego dla każdego …

17 categorical-data regression-coefficients lasso intercept categorical-encoding

2

Jakościowe kodowanie zmiennych w regresji prowadzi do „osobliwości”

Mam niezależną zmienną o nazwie „jakość”; ta zmienna ma 3 tryby odpowiedzi (zła jakość; średnia jakość; wysoka jakość). Chcę wprowadzić tę zmienną niezależną do mojej wielokrotnej regresji liniowej. Kiedy mam binarną zmienną niezależną (zmienną fikcyjną, mogę kodować 0/ 1), łatwo jest wprowadzić ją do modelu wielokrotnej regresji liniowej. Ale przy …

17 r regression categorical-data multicollinearity categorical-encoding

2

„Zmienna manekina” kontra „zmienna wskaźnikowa” dla danych nominalnych / kategorialnych

„Zmienna manekina” i „zmienna wskaźnika” to często używane etykiety, aby opisać członkostwo w kategorii z kodowaniem 0/1; zazwyczaj 0: nie należy do kategorii, 1: należy do kategorii. W dniu 26.11.2014 r. Szybkie wyszukiwanie na scholar.google.com (wraz z cytatami) ujawnia, że „zmienna fikcyjna” jest używana w około 318 000 artykułów, a …

15 categorical-data terminology categorical-encoding

2

Jak zrobić regresję z kodowaniem efektu zamiast kodowania fikcyjnego w R?

Obecnie pracuję nad modelem regresji, w którym jako zmienne niezależne mam tylko zmienne kategorialne / czynnikowe. Moja zmienna zależna to stosunek przekształcony logit. Całkiem łatwo jest uruchomić normalną regresję w R, ponieważ R automatycznie wie, jak zakodować manekiny, gdy tylko będą miały typ „czynnik”. Jednak ten rodzaj kodowania oznacza również, …

15 r regression categorical-data categorical-encoding

1

Jakie są różne rodzaje kodowania dostępne dla zmiennych kategorialnych (w R) i kiedy ich użyjesz?

Jeśli dopasujesz model liniowy lub mieszany, dostępne są różne typy kodowania, aby przekształcić zmienną kategorialną lub nominalną w szereg zmiennych, dla których szacowane są parametry, takie jak atrapa warunkowa (domyślnie R) i kodowanie efektów. Słyszałem, że kodowanie efektów (czasami nazywane kodowaniem dewiacyjnym lub kontrastowym) jest preferowane, gdy masz interakcje, ale …

14 regression mixed-model categorical-data contrasts categorical-encoding

2

Zrozumienie tworzenia zmiennych fikcyjnych (ręcznych lub automatycznych) w GLM

Jeśli zmienna czynnikowa (np. Płeć o poziomach M i F) jest używana we wzorze glm, tworzone są zmienne zmienne, które można znaleźć w podsumowaniu modelu glm wraz z powiązanymi z nimi współczynnikami (np. Płeć) Jeśli zamiast polegać na R w celu podzielenia współczynnika w ten sposób, czynnik jest zakodowany w …

13 r generalized-linear-model categorical-data categorical-encoding

3

Jakie algorytmy wymagają jednorazowego kodowania?

Nigdy nie jestem pewien, kiedy zastosować kodowanie „na gorąco” w przypadku niez uporządkowanych zmiennych kategorialnych, a kiedy nie. Używam go, ilekroć algorytm używa metryki odległości do obliczenia podobieństwa. Czy ktokolwiek może podać ogólną ogólną zasadę, jakie typy algorytmów wymagają, aby niez uporządkowane funkcje kategorialne były zakodowane na gorąco, a które …

12 machine-learning categorical-data categorical-encoding data-preprocessing

2

Regresja oparta na przykład na dniach tygodnia

Potrzebuję niewielkiej pomocy, aby iść w dobrym kierunku. Minęło dużo czasu, odkąd studiowałem statystyki i wydaje się, że żargon się zmienił. Wyobraź sobie, że mam zestaw danych związanych z samochodem, takich jak Czas podróży z miasta A do miasta B Odległość od miasta A do miasta B. Rozmiar silnika Rozmiar …

11 regression categorical-data categorical-encoding

Pytania otagowane jako categorical-encoding