centrowanie i skalowanie zmiennych zastępczych

13

Mam zestaw danych, który zawiera zarówno zmienne jakościowe, jak i zmienne ciągłe. Poradzono mi, aby przekształcić zmienne kategorialne jako zmienne binarne dla każdego poziomu (tj. A_level1: {0,1}, A_level2: {0,1}) - Myślę, że niektórzy nazywają to „zmiennymi obojętnymi”.

Mając to na uwadze, czy wprowadzanie w błąd i wyśrodkowanie całego zestawu danych przy użyciu nowych zmiennych byłoby mylące? Wygląda na to, że straciłbym znaczenie zmiennych „on / off”.

Jeśli jest to mylące, czy to oznacza, że powinienem wyśrodkować i skalować zmienne ciągłe osobno, a następnie ponownie dodać je do mojego zbioru danych?

TIA

categorical-data data-transformation centering

— użytkownik2300643
źródło

1

To, czy można wyśrodkować i / lub skalować zmienne fikcyjne, jest dopuszczalne lub uzasadnione, zależy od aplikacji, planowanej analizy i rozważań dotyczących konkretnego zadania. Więc nie ma jednej poprawnej odpowiedzi. W najbardziej ogólnym, zgrubnym sformułowaniu, często można to zrobić ze zmiennymi predykcyjnymi predykcyjnymi; często jest to zły pomysł, używając zmiennych manekina odpowiedzi lub metod wielowymiarowych, takich jak grupowanie lub analiza czynnikowa.

— ttnphns

13

Podczas konstruowania zmiennych fikcyjnych do zastosowania w analizach regresji, każda kategoria w zmiennej kategorialnej, z wyjątkiem jednej, powinna otrzymać zmienną binarną. Powinieneś więc mieć np. A_level2, A_level3 itp. Jedna z kategorii nie powinna mieć zmiennej binarnej, a ta kategoria będzie służyć jako kategoria referencyjna. Jeśli nie pominiesz żadnej z kategorii, analizy regresji nie będą działać poprawnie.

Jeśli używasz SPSS lub R, nie sądzę, że skalowanie i centrowanie całego zestawu danych będzie ogólnie stanowić problem, ponieważ te pakiety oprogramowania często interpretują zmienne tylko z dwoma poziomami jako czynnikami, ale może to zależeć od konkretnych zastosowanych metod statystycznych . W każdym razie nie ma sensu skalować i centrować zmiennych binarnych (lub kategorialnych), więc powinieneś wyśrodkowywać i skalować zmienne ciągłe tylko wtedy, gdy musisz to zrobić.

— JonB
źródło

2

Mam silne przeczucie, że jedyną częścią odpowiedzi, która naprawdę odpowiada na pytanie OP, jest to ostatnie zdanie - ta część jest niewyjaśniona. Mówisz, że nie skaluj ich, ale nie wyjaśniaj dlaczego. Tymczasem temat nie jest bardzo łatwy.

— ttnphns

To tylko jeden sposób kodowania zmiennych jakościowych. Nie mam czasu na napisanie pełnej odpowiedzi, ale wyszukiwanie „kontrastów” może pomóc. Odpowiednia odpowiedź to stats.stackexchange.com/questions/60817/…

— user20637

3

Jeśli używasz R i skalujesz zmienne fikcyjne lub zmienne o wartości 0 lub 1 tylko w skali od 0 do 1, wtedy nie będzie żadnych zmian w wartościach tych zmiennych, pozostałe kolumny zostaną przeskalowane.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

— Shekhar Sahu
źródło

Ciekawa wskazówka. Dziękuję za podzielenie się. Minęło trochę czasu, odkąd poprosiłem, ale dobrze widzieć, że nadal mogę uczyć się z tych starych postów.

— user2300643,

3

Celem średniego centrowania w regresji jest ułatwienie interpretacji przechwytywania. To znaczy, czy masz na myśli wyśrodkowanie wszystkich zmiennych w modelu regresji, a następnie punkt przecięcia (nazywany stałą w danych wyjściowych SPSS) jest równy ogólnej wielkiej średniej dla zmiennej wyniku. Co może być wygodne przy interpretacji ostatecznego modelu.

Jeśli chodzi o zmienne manekiny centrujące, właśnie rozmawiałem z moim profesorem o średnich zmiennych centrujących manekin w modelu regresyjnym (w moim przypadku wielopoziomowym modelu z losowym blokiem z 3 poziomami), a mój wynos był taki, że centrowanie zmienne fikcyjne nie zmieniają interpretacji współczynników regresji (z wyjątkiem tego, że rozwiązanie jest całkowicie znormalizowane). Zwykle w regresji nie jest konieczne interpretowanie rzeczywistej wartości średniej na środku - tylko współczynniki. I to w zasadzie się nie zmienia - w większości. Powiedziała, że zmienia się nieznacznie, ponieważ jest znormalizowany, co dla manekinów nie jest tak intuicyjne w zrozumieniu.

Zastrzeżenie: Takie było moje zrozumienie, kiedy opuściłem gabinet mojego profesora. Oczywiście mogłem się mylić.

— Katie
źródło