Co możesz zrobić, gdy masz zmienne predykcyjne oparte na średnich grupowych o różnych wielkościach próby?

Rozważmy klasycznego problemu analizy danych, gdzie trzeba rezultatu $Y_{i}$ i jak to jest związane z wieloma czynnikami prognostycznymi $X_{i1}, ..., X_{ip}$ . Podstawowym rodzajem aplikacji, o których tu mowa, jest to

$Y_{i}$ jest wynikiem na poziomie grupy, takim jak wskaźnik przestępczości w mieście $i$ .
Predyktory są cechami na poziomie grupy, takimi jak cechy demograficzne miasta . $i$

Podstawowym celem jest dopasowanie modelu regresji (być może z efektami losowymi, ale na razie o tym zapomnij):

E (Y_{i} | X_{i}) = β_{0} + β_{1} X_{i 1} + . . . + β_{p} X_{i p}

$E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip}$

Czy występują trudności techniczne, gdy jeden (lub więcej) predyktorów jest wynikiem badania, które ma różne wielkości próby dla każdej jednostki? Załóżmy na przykład, że $X_{i1}$ to wynik sumaryczny dla miasta który jest średnią odpowiedzią z próby osób z miasta ale wielkości próbek, na których oparto te średnie, są bardzo różne: $i$ $i$

\begin{array}{cc} C i t y & S a m p l e s i z e \\ 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ ⋮ & ⋮ \end{array}

$\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ \vdots & \vdots \\ \end{array}$

Ponieważ wszystkie zmienne predykcyjne nie mają w pewnym sensie tego samego znaczenia dla każdego miasta, obawiam się, że uwarunkowanie tych zmiennych w modelu regresji, tak jakby wszystkie były „równe”, może powodować wprowadzanie w błąd.

Czy istnieje nazwa tego typu problemu? Jeśli tak, to czy istnieją badania, jak sobie z tym poradzić?

Moim pomysłem jest potraktowanie go jako zmiennej predykcyjnej mierzonej błędem i zrobienie czegoś w tym kierunku, ale w błędach pomiaru występuje heteroskedastyczność, więc byłoby to bardzo skomplikowane. Mógłbym myśleć o tym w niewłaściwy sposób lub może to komplikować bardziej niż jest, ale każda dyskusja tutaj byłaby pomocna.

regression measurement-error errors-in-variables

— Makro
źródło

Nazywa się to problemem „heteroscedastycznych błędów w zmiennych”. (To wyrażenie jest dobrym celem dla wyszukiwarki Google.) Niedawno (2007) Delaigle i Meister zaproponowali nieparametryczny estymator gęstości jądra w artykule JASA . Streszczenie na temat niektórych metod parametrycznych (metoda momentów i MLE) sugeruje kilka dodatkowych podejść: sciencedirect.com/science/article/pii/S1572312709000045 . (Nie jestem wystarczająco zaznajomiony z badaniami, aby udzielić wiarygodnej odpowiedzi na temat tego, jak postępować z konkretnym

— zestawem

@whuber +1 dla obu komentarzy. Myślę, że „błędy w zmiennych” były brakującym słowem kluczowym, którego szukałem. Jeśli nikt nie udzieli mocnej odpowiedzi poniżej, którą mogę zaakceptować, przejrzę literaturę i wrócę, aby opublikować wszystko, co ostatecznie zrobię jako odpowiedź.

— Makro

Odpowiedzi:

Artykuł „Heteroscedastyczny model błędów zmiennych w zmiennych z błędem równania” można pobrać na stronie autora:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

zasadniczo należy wziąć pod uwagę zmienność obu zmiennych, aby uniknąć niespójnych estymatorów, niewiarygodnych testów hipotez i przedziałów ufności.

— Alexandre Patriota
źródło

$σ^2$ $X_i$ $σ^2/n_i$ $n_i$ $i$

— Michael R. Chernick
źródło

Wydaje się to rozsądne, chociaż miałem nadzieję, że w ogóle nie będę musiał modelować błędu pomiaru. Gdybym poszedł w tym kierunku, czego byś użył do oszacowania efektu predyktora mierzonego błędem? Użyłem jednej metody o nazwie SIMEX, ale wydaje się to rzadkie i zastanawiam się, czy są inne opcje.

— Makro,

@Macro Nie znam konkretnego oprogramowania do modelowania regresji z funkcją wariancji do oszacowania.

— Michael R. Chernick,

Makro, jako ogólna reguła w regresji homoscedastycznej z błędami w zmiennych, jeśli błędy w IV są małe w porównaniu do błędów w DV, możesz bezpiecznie zignorować te pierwsze i zastosować zwykłą regresję. To daje szybki i prosty sposób na rozwiązanie problemu.

— whuber

@ whuber, dzięki - to się przydaje. Wydaje się, że jeśli ta praktyczna zasada ma sens, wówczas w przypadku heteroskedastyczności sensowne byłoby użycie „jeśli największa wariancja błędu w IV jest niewielka w porównaniu do wariancji błędu w DV, można bezpiecznie zignorować problem” rozsądna zasada, która może być spełniona w danych, na które patrzę.

— Makro

σ^{2} \approx 1

$\sigma^2 \approx 1$

\approx 1 / n

$\approx 1/n$

(.05, 1)

$(.05,1)$

Y_{i}

$Y_i$