Interesujące byłoby dzieło Gary'ego Kinga, w szczególności jego książka „Rozwiązanie problemu wnioskowania ekologicznego” (pierwsze dwa rozdziały są dostępne tutaj ) (a także towarzyszące mu oprogramowanie, którego używa do wnioskowania ekologicznego). King pokazuje w swojej książce, w jaki sposób można ulepszyć szacunki modeli regresji wykorzystujących dane zagregowane, badając potencjalne granice, które grupy niższego poziomu mają na podstawie dostępnych danych zagregowanych. Fakt, że twoje dane są w większości kategorycznymi grupami, czyni je podatnymi na tę technikę. (Chociaż nie daj się zwieść, nie jest to tak wszechstronne rozwiązanie, jak można się spodziewać po tytule!) Istnieje więcej bieżących prac, ale książka Kinga to IMO najlepsze miejsce na rozpoczęcie.
Inną możliwością byłoby po prostu przedstawienie potencjalnych granic samych danych (na mapach lub wykresach). Na przykład możesz podać rozkład płci na poziomie zagregowanym (powiedzmy 5000 mężczyzn i 5000 kobiet) i wiesz, że ten zagregowany poziom obejmuje 2 różne małe jednostki powierzchni w populacjach 9 000 i 1 000 osób. Następnie możesz przedstawić to jako tabelę awaryjną formularza;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Chociaż nie masz informacji w komórkach dla agregacji niższego poziomu, z wartości krańcowych możemy stworzyć minimalne lub maksymalne potencjalne wartości dla każdej komórki. Tak więc w tym przykładzie Men X Unit1
komórka może przyjmować wartości tylko między 4000 a 5000 (Za każdym razem, gdy rozkład krańcowy jest bardziej nierównomierny, im mniejszy przedział możliwych wartości przyjmą komórki). Najwyraźniej uzyskanie granic tabeli jest trudniejsze niż się spodziewałem ( Dobra i Fienberg, 2000 ), ale wydaje się, że funkcja jest dostępna w eiPack
bibliotece w R ( Lau i in., 2007, s. 43 ).
Analiza wielowymiarowa z danymi na poziomie zagregowanym jest trudna, ponieważ tendencyjność agregacji nieuchronnie występuje w przypadku tego rodzaju danych. (W skrócie, po prostu opisałbym stronniczość agregacji, ponieważ wiele różnych procesów generowania danych na poziomie indywidualnym może skutkować skojarzeniami na poziomie agregatów. Seria artykułów w American Sociological Revieww latach 70. XX wieku znajdują się niektóre z moich ulubionych odniesień do tematów (Firebaugh, 1978; Hammond, 1973; Hannan i Burstein, 1974), choć mogą to być źródła kanoniczne na ten temat (Fotheringham i Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Sądzę, że reprezentowanie potencjalnych granic, które dane mogą przyjąć, może być potencjalnie pobudzające, chociaż tak naprawdę przeszkadzają Ci ograniczenia agregacji danych do przeprowadzania analizy wielowymiarowej. Nie powstrzymuje to jednak nikogo przed naukami społecznymi (na dobre i na złe!)
Należy zauważyć (jak powiedział Charlie w komentarzach), że „rozwiązanie” Kinga spotkało się z dużą krytyką (Anselin i Cho, 2002; Freedman i in., 1998). Mimo że krytyki tej nie można powiedzieć o matematyce metody Kinga, tym bardziej w odniesieniu do sytuacji, w których metoda Kinga nadal nie uwzględnia błędu agregacji (i zgadzam się zarówno z Freedmanem, jak i Anselinem w tych sytuacjach, w których dane nauki społeczne są nadal podejrzane, że są znacznie bardziej powszechne niż te, które spełniają założenia króla). Jest to częściowo powód, dla którego sugeruję po prostu zbadanie granic (nie ma w tym nic złego), ale wyciąganie wniosków na temat korelacji poszczególnych poziomów z takich danych wymaga znacznie więcej skoków wiary, które ostatecznie są nieuzasadnione w większości sytuacji.
Cytowania
- Anselin, L. i WKT Cho (2002). Efekty przestrzenne i wnioskowanie ekologiczne. Analiza polityczna 10 (3): 276–297.
- Dobra A. i SE Fienberg (2000). Granice dla wpisów komórek w tabelach kontyngencji z podanymi wartościami krańcowymi i grafami rozkładowymi. Postępowania z National Academy of Sciences 97 (22): 11885-11892
- Firebaugh, G. (1978). Reguła wnioskowania o poszczególnych relacjach na podstawie danych zagregowanych. American Sociological Review 43 (4): 557–572
- Fotheringham, AS i DW Wong (1991). Problem z modyfikowalną jednostką powierzchniową w wielowymiarowej analizie statystycznej. Środowisko i planowanie A 23 (7): 1025–1044
- Freedman, DA, SP Klein, M. Ostland i MR Roberts (1998). Recenzowane prace: Rozwiązanie problemu wnioskowania ekologicznego G. Kinga. Journal of American Statistics Association 93 (444): 1518–1522. ( Tutaj PDF )
- Hammond, JL (1973) Dwa źródła błędu w korelacjach ekologicznych. American Sociological Review 38 (6): 764-777
- Hannan, MT i L. Burstein (1974). Oszacowanie na podstawie pogrupowanych obserwacji. American Sociological Review 39 (3): 374–392
- King G. (1997). Rozwiązanie problemu wnioskowania ekologicznego: rekonstruowanie indywidualnych zachowań na podstawie danych zbiorczych . Princeton: Princeton University Press.
- Lau O., RT Moore i M. Kellerman (2007). eiPack: wnioskowanie ekologiczne RXC i zarządzanie danymi wyższego wymiaru. Wiadomości R 7 (2): 43–47
- Oppenshaw, S. (1984). Problem modyfikowalnej jednostki powierzchni . Norwich: Geo Books. ( Tutaj PDF )
- Robinson, WS (1950). Korelacje ekologiczne i zachowanie jednostek. American Sociological Review 15 (3): 351–357. ( Tutaj PDF )