Rozważmy klasycznego problemu analizy danych, gdzie trzeba rezultatu i jak to jest związane z wieloma czynnikami prognostycznymi . Podstawowym rodzajem aplikacji, o których tu mowa, jest to
jest wynikiem na poziomie grupy, takim jak wskaźnik przestępczości w mieście .
Predyktory są cechami na poziomie grupy, takimi jak cechy demograficzne miasta .
Podstawowym celem jest dopasowanie modelu regresji (być może z efektami losowymi, ale na razie o tym zapomnij):
Czy występują trudności techniczne, gdy jeden (lub więcej) predyktorów jest wynikiem badania, które ma różne wielkości próby dla każdej jednostki? Załóżmy na przykład, że to wynik sumaryczny dla miasta który jest średnią odpowiedzią z próby osób z miasta i, ale wielkości próbek, na których oparto te średnie, są bardzo różne:
Ponieważ wszystkie zmienne predykcyjne nie mają w pewnym sensie tego samego znaczenia dla każdego miasta, obawiam się, że uwarunkowanie tych zmiennych w modelu regresji, tak jakby wszystkie były „równe”, może powodować wprowadzanie w błąd.
Czy istnieje nazwa tego typu problemu? Jeśli tak, to czy istnieją badania, jak sobie z tym poradzić?
Moim pomysłem jest potraktowanie go jako zmiennej predykcyjnej mierzonej błędem i zrobienie czegoś w tym kierunku, ale w błędach pomiaru występuje heteroskedastyczność, więc byłoby to bardzo skomplikowane. Mógłbym myśleć o tym w niewłaściwy sposób lub może to komplikować bardziej niż jest, ale każda dyskusja tutaj byłaby pomocna.