Czy dobrą praktyką jest standaryzacja danych w regresji za pomocą danych panelowych / podłużnych?

Ogólnie rzecz biorąc, standaryzuję moje zmienne niezależne w regresjach, aby właściwie porównać współczynniki (w ten sposób mają one te same jednostki: odchylenia standardowe). Jednak w przypadku danych panelowych / podłużnych nie jestem pewien, jak powinienem ustandaryzować swoje dane, zwłaszcza jeśli oszacuję model hierarchiczny.

Aby zobaczyć, dlaczego może to być potencjalny problem, załóżmy, że masz jednostek mierzonych wzdłuż okresów i zmienną zależną, i jedną zmienną niezależną . Jeśli uruchomisz pełną regresję puli, możesz ustandaryzować swoje dane w następujący sposób: , ponieważ nie zmieni to t- Statystyczny. Z drugiej strony, jeśli dopasujesz regresję niepasowaną, tj. Jedną regresję dla każdej osoby, powinieneś ustandaryzować swoje dane tylko dla poszczególnych osób, a nie dla całego zestawu danych (w kodzie R): $i = 1, \ldots, n$ $t=1,\ldots, T$ $y_{i,t}$ $x_{i,t}$ $x.z = (x- \text{mean}(x))/\text{sd}(x)$

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Jeśli jednak dopasujesz prosty model hierarchiczny ze zmiennym przechwytywaniem przez poszczególne osoby, wówczas używasz estymatora skurczu, tj. Estymujesz model między regresją zbiorczą a niepasowaną. Jak mam ustandaryzować swoje dane? Używasz całych danych jak regresji zbiorczej? Używasz tylko pojedynczych osób, jak w przypadku niepasującym?

r regression standardization

— Manoel Galdino
źródło

Odpowiedzi:

Nie widzę, aby standaryzacja była dobrym pomysłem w zwykłej regresji lub w modelu wzdłużnym. Utrudnia to uzyskanie prognoz i zwykle nie rozwiązuje problemu wymagającego rozwiązania. A co jeśli masz i w modelu. Jak ustandaryzować ? Co jeśli masz zmienną ciągłą i zmienną binarną w modelu? Jak ustandaryzować zmienną binarną? Z pewnością nie ze względu na odchylenie standardowe, co spowodowałoby, że zmienne o niskim rozpowszechnieniu miałyby większe znaczenie. $x$ $x^2$ $x^2$

Zasadniczo najlepiej interpretować efekty modelu w oryginalnej skali . $x$

— Frank Harrell
źródło

@Frank Harrell - dobre punkty na temat problemów związanych z zarysowanymi warunkami, ale jeśli ktoś ma wszystkie zmienne ciągłe o różnych skalach, to czy standaryzacja nie jest jedynym sposobem porównywania nachyleń?

— DQdlM,

@Frank, przypuszczam, że zależy to od tego, jakiego typu modele używasz, ale standaryzacja zmiennych predykcyjnych jest często przydatna. Centrowanie ich oznacza, że przechwytywanie staje się interpretowalne, gdy średni przewidywany wynik i względne znaczenie różnych predyktorów stają się bardziej oczywiste. Zwykle zostawiam predyktory binarne w spokoju, ale czasem inne opcje skalowania są warte rozważenia. Wreszcie, w niektórych przypadkach posiadanie predyktorów o bardzo różnych odchyleniach standardowych może prowadzić do problemów obliczeniowych / konwergencji.

— Michael Bishop,

R^{2}

$R^2$

χ^{2}

$\chi^2$

Jeśli masz zmienne binarne, nie standaryzuj ich, tylko ciągła. Zobacz ten artykuł Gelmana (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >, sugerujący dzielenie zmiennych przez dwa odchylenia standardowe. W każdym razie pomaga osiągnąć zbieżność, jeśli pasujesz do modelu bayesowskiego.

— Manoel Galdino

x

$x$

x^{2}

$x^{2}$

Istnieje alternatywa dla standaryzacji w celu dostosowania zmiennych mierzonych różnymi skalami do tej samej metryki. Nazywa się to Proportion of Maximum Scaling (POMS) i nie umiera w bałaganie z rozkładami wielowymiarowymi, jak to zwykle bywa z transformacją z.

Todd Little wyraźnie zaleca POMS zamiast standaryzacji w swojej książce na temat modelowania równań strukturalnych podłużnych. Transformacja Z wiąże się z dodatkowymi problemami w przypadku danych podłużnych, patrz tutaj: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

— użytkownik142548
źródło