Czy dobrą praktyką jest standaryzacja danych w regresji za pomocą danych panelowych / podłużnych?


16

Ogólnie rzecz biorąc, standaryzuję moje zmienne niezależne w regresjach, aby właściwie porównać współczynniki (w ten sposób mają one te same jednostki: odchylenia standardowe). Jednak w przypadku danych panelowych / podłużnych nie jestem pewien, jak powinienem ustandaryzować swoje dane, zwłaszcza jeśli oszacuję model hierarchiczny.

Aby zobaczyć, dlaczego może to być potencjalny problem, załóżmy, że masz jednostek mierzonych wzdłuż okresów i zmienną zależną, i jedną zmienną niezależną x_ {i, t} . Jeśli uruchomisz pełną regresję puli, możesz ustandaryzować swoje dane w następujący sposób: xz = (x- \ text {mean} (x)) / \ text {sd} (x) , ponieważ nie zmieni to t- Statystyczny. Z drugiej strony, jeśli dopasujesz regresję niepasowaną, tj. Jedną regresję dla każdej osoby, powinieneś ustandaryzować swoje dane tylko dla poszczególnych osób, a nie dla całego zestawu danych (w kodzie R):i=1,,nt=1,,Tyi,txi,tx.z=(xmean(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Jeśli jednak dopasujesz prosty model hierarchiczny ze zmiennym przechwytywaniem przez poszczególne osoby, wówczas używasz estymatora skurczu, tj. Estymujesz model między regresją zbiorczą a niepasowaną. Jak mam ustandaryzować swoje dane? Używasz całych danych jak regresji zbiorczej? Używasz tylko pojedynczych osób, jak w przypadku niepasującym?

Odpowiedzi:


10

Nie widzę, aby standaryzacja była dobrym pomysłem w zwykłej regresji lub w modelu wzdłużnym. Utrudnia to uzyskanie prognoz i zwykle nie rozwiązuje problemu wymagającego rozwiązania. A co jeśli masz i w modelu. Jak ustandaryzować ? Co jeśli masz zmienną ciągłą i zmienną binarną w modelu? Jak ustandaryzować zmienną binarną? Z pewnością nie ze względu na odchylenie standardowe, co spowodowałoby, że zmienne o niskim rozpowszechnieniu miałyby większe znaczenie.xx2x2

Zasadniczo najlepiej interpretować efekty modelu w oryginalnej skali .x


@Frank Harrell - dobre punkty na temat problemów związanych z zarysowanymi warunkami, ale jeśli ktoś ma wszystkie zmienne ciągłe o różnych skalach, to czy standaryzacja nie jest jedynym sposobem porównywania nachyleń?
DQdlM,

1
@Frank, przypuszczam, że zależy to od tego, jakiego typu modele używasz, ale standaryzacja zmiennych predykcyjnych jest często przydatna. Centrowanie ich oznacza, że ​​przechwytywanie staje się interpretowalne, gdy średni przewidywany wynik i względne znaczenie różnych predyktorów stają się bardziej oczywiste. Zwykle zostawiam predyktory binarne w spokoju, ale czasem inne opcje skalowania są warte rozważenia. Wreszcie, w niektórych przypadkach posiadanie predyktorów o bardzo różnych odchyleniach standardowych może prowadzić do problemów obliczeniowych / konwergencji.
Michael Bishop,

2
R2χ2

1
Jeśli masz zmienne binarne, nie standaryzuj ich, tylko ciągła. Zobacz ten artykuł Gelmana (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >, sugerujący dzielenie zmiennych przez dwa odchylenia standardowe. W każdym razie pomaga osiągnąć zbieżność, jeśli pasujesz do modelu bayesowskiego.
Manoel Galdino

xx2

0

Istnieje alternatywa dla standaryzacji w celu dostosowania zmiennych mierzonych różnymi skalami do tej samej metryki. Nazywa się to Proportion of Maximum Scaling (POMS) i nie umiera w bałaganie z rozkładami wielowymiarowymi, jak to zwykle bywa z transformacją z.

Todd Little wyraźnie zaleca POMS zamiast standaryzacji w swojej książce na temat modelowania równań strukturalnych podłużnych. Transformacja Z wiąże się z dodatkowymi problemami w przypadku danych podłużnych, patrz tutaj: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.