Podobają mi się obie dotychczasowe odpowiedzi. Pozwól mi dodać kilka rzeczy.
Inną opcją jest możliwość łączenia zmiennych. Odbywa się to poprzez standaryzację obu (tj. Przekształcenie ich w z-score), uśrednienie ich, a następnie dopasowanie modelu do zmiennej złożonej. To byłoby dobre podejście, jeśli uważasz, że są to dwie różne miary tego samego konstruktu bazowego. W takim przypadku masz dwa pomiary, które są zanieczyszczone błędem. Najbardziej prawdopodobna prawdziwa wartość zmiennej, którą naprawdę masztroska jest między nimi, dlatego uśrednienie ich daje dokładniejsze oszacowanie. Standaryzujesz je najpierw, aby umieścić je w tej samej skali, aby problemy nominalne nie zanieczyszczały wyniku (np. Nie chciałbyś uśredniać kilku pomiarów temperatury, jeśli niektóre to Fahrenheita, a niektóre Celsjusza). Oczywiście, jeśli są już w tej samej skali (np. Kilka bardzo skorelowanych sondaży opinii publicznej), możesz pominąć ten krok. Jeśli uważasz, że jedna ze zmiennych może być dokładniejsza niż druga, możesz zrobić średnią ważoną (być może wykorzystując odwrotność błędów pomiaru).
r>.98połączyłem je, ale po co? Zależy to jednak krytycznie od faktu, że zmienne są skorelowane, ponieważ są to dwie różne wersje tej samej rzeczy; jeśli istnieje inny powód ich korelacji, może to być całkowicie niewłaściwe.
X1→X2→YXZ Xx1x2XZ
Zgadzam się, że regresja grzbietu jest prawdopodobnie lepsza, ponieważ pozwala na użycie zmiennych, które pierwotnie zamierzałeś, i może dać bety, które są bardzo zbliżone do ich prawdziwych wartości (chociaż będą tendencyjne - zobacz tutaj lub tutaj, aby uzyskać więcej informacji ). Niemniej jednak uważam, że ma również dwa potencjalne wady: jest bardziej skomplikowany (wymaga większego zaawansowania statystycznego), a moim zdaniem model wynikowy jest trudniejszy do interpretacji.
Rozumiem, że być może najlepszym rozwiązaniem byłoby dopasowanie modelu równania strukturalnego. To dlatego, że pozwoliłoby ci sformułować dokładny zestaw relacji, które uważasz za działające, w tym zmienne ukryte. Jednak nie znam SEM wystarczająco dobrze, aby cokolwiek na ten temat powiedzieć, oprócz wspominania o możliwości. (Podejrzewam również, że byłoby to przesadą w sytuacji, którą opisujesz za pomocą tylko dwóch zmiennych towarzyszących).