Jak mogę zasymulować mikrodane ze spisu ludności dla małych obszarów za pomocą 1% próbki mikrodanych w dużej skali i zagregować statystyki w małej skali?

Chciałbym przeprowadzić analizę wielowymiarową na poziomie indywidualnym na małych poziomach agregacji geograficznej (dystrykty gromadzenia australijskiego spisu powszechnego). Oczywiście spis ludności nie jest dostępny na tych małych poziomach agregacji ze względu na prywatność, więc badam inne alternatywy. Prawie wszystkie zmienne będące przedmiotem zainteresowania są kategoryczne. Mam do dyspozycji dwa zestawy danych:

Próbka spisu powszechnego o wartości 1% jest dostępna na znacznie wyższym poziomie agregacji przestrzennej (obszar o populacji około 190 000 i znacznej przestrzennej segregacji danych demograficznych).
Tabele częstotliwości dla zmiennych, którymi jestem zainteresowany na poziomie małych obszarów (500 małych obszarów, średni pop = 385, sd = 319, mediana = 355).

Jak mogę wykorzystać te dwa zestawy danych do symulacji rozkładu populacji na poziomie małego obszaru, który jest jak najbardziej zbliżony do faktycznej populacji małego obszaru?

Rozumiem, że mogą istnieć rutynowe metody wykonania tego; jeśli tak, bardzo doceniony zostanie wskaźnik do podręcznika lub odpowiednich artykułów w czasopiśmie.

— fmark
źródło

prawdopodobnie związane (mam podobny problem): stats.stackexchange.com/questions/14399 /... Próbkowanie Gibbs może być tutaj potrzebne.

— mzuba,

Możesz zadać pytanie na liście mailingowej SRMSNET Amerykańskiego Stowarzyszenia Statystycznego. Jeśli jesteś w Australii, podchodzę do Ray Chambersa - chyba nikt nie zna SAE lepiej niż on na półkuli południowej :).

— StasK

Ten problem jest ściśle związany z „mapowaniem dasymetrycznym”.

— whuber

Zgadzam się z @whuber, a mapowanie dasymetryczne może być interesujące dla fmark, biorąc również pod uwagę przedmiotowy materiał. Niestety, jest on w dużej mierze oddzielony od literatury dotyczącej wnioskowania ekologicznego, którą zacytowałem w mojej odpowiedzi (nie chcę więcej kupować więcej literatury!) Jak myślisz, co jest fajne?

— Andy W

Niektóre techniki mapowania dasymetrycznego zaczęły wykorzystywać dane pomocnicze do próby interpolacji danych na mniejsze obszary. Cele wnioskowania ekologicznego i mapowania dasymetrycznego są nieco inne (nieco analogiczne do różnicy między prognozowaniem / prognozowaniem a wnioskowaniem). Napiszę kolejny post na temat zebranych przeze mnie źródeł, które moim zdaniem również mogą być interesujące. Niestety nie mogę udzielić bardziej przydatnych porad niż zacytować literaturę. Jest to popularny współczesny temat i mam nadzieję, że możesz się do niego przyczynić!

— Andy W

Odpowiedzi:

Mapowanie dasymetryczne koncentruje się głównie na interpolacji szacunków populacji na mniejsze obszary niż dostępne w obecnie rozpowszechnianych danych (zobacz to pytanie, aby znaleźć wiele przydatnych odniesień na ten temat). Często dokonywano tego po prostu poprzez identyfikację obszarów (w oparciu o cechy terenu), na których oczywiście nie ma populacji, a następnie ponowne oszacowanie gęstości zaludnienia (z pominięciem tych obszarów). Przykładem może być zbiornik wodny w mieście, innym może być identyfikacja działek przemysłowych, na których nie ma populacji zamieszkałej przez mieszkańców. Nowsze podejścia do mapowania dasymetrycznego uwzględniają inne dane pomocnicze w ramach probabilistycznych w celu alokacji szacunków populacji (Kyriakidis, 2004; Liu i in., 2008; Lin i in., 2011; Zhang i Qiu, 2011).

Teraz łatwo jest zobaczyć związek z twoim pytaniem. Chcesz oszacowania populacji małych obszarów. Ale powinno być również jasne, w jaki sposób może nie spełniać twoich celów. Chcesz nie tylko danych o populacji, ale także cech tych populacji. Jednym z terminów używanych do opisania tej sytuacji jest zmiana problemu wsparcia (Cressie, 1996; Gotway & Young, 2002). Pożyczając z literatury geostatystycznej, w której próbuje się przewidzieć pewną cechę na dużym obszarze z próbek punktowych, ostatnie prace próbowały interpolować dane powierzchniowe do różnych stref docelowych. Wiele prac Pierre'a Goovaertsa koncentruje się na takich metodach krigingu obszarowego, najnowszy artykuł w czasopiśmie Geographic Analysis ma kilka przykładów metody stosowanej w różnych materiałach przedmiotowych (Haining i in., 2010), a jednym z moich ulubionych zastosowań jest ten artykuł (Young i in., 2009).

To, co cytuję, nie powinno być jednak postrzegane jako panaceum na problem. Ostatecznie wiele takich samych problemów z wnioskami ekologicznymi i tendencyjnością agregacji dotyczy również celów interpolacji powierzchniowej. Podobnie wiele relacji między danymi na poziomie mikro jest po prostu zatraconych w procesie agregacji, a takie techniki interpolacji nie będą w stanie ich odzyskać. Także proces, w którym dane są interpolowane empirycznie (poprzez szacowanie wariogramów na podstawie danych na poziomie zagregowanym), jest często dość doraźny, co powinno budzić wątpliwości w tym procesie (Goovaerts, 2008).

Niestety, zamieszczam to w osobnej odpowiedzi, ponieważ literatura na temat wnioskowania ekologicznego i literatura na temat mapowania dasymetrycznego i krigingu obszarowego nie pokrywają się. Chociaż literatura na temat wnioskowania ekologicznego ma wiele implikacji dla tych technik. Techniki interpolacji podlegają nie tylko tendencyjności agregacji, ale inteligentne techniki dasymetryczne (wykorzystujące dane zagregowane do dopasowania modeli do przewidywania mniejszych obszarów) są prawdopodobnie podejrzane o tendencję agregacji. Znajomość sytuacji, w których występuje tendencyjność agregacji, powinna być pouczająca o sytuacjach, w których interpolacja powierzchniowa i mapowanie dasymetryczne w dużej mierze zawiodą (szczególnie w odniesieniu do identyfikowania korelacji między różnymi zmiennymi na poziomie zdezagregowanym).

Cytowania

— Andy W.
źródło

Dzięki za przydatny punkt wyjścia do literatury współczesnej - nie wiedziałem o metodach dasymetrycznych, które wykraczały poza gęstość populacji, więc przyjrzę się temu z niecierpliwością.

— fmark 21.09.11

Interesujące byłoby dzieło Gary'ego Kinga, w szczególności jego książka „Rozwiązanie problemu wnioskowania ekologicznego” (pierwsze dwa rozdziały są dostępne tutaj ) (a także towarzyszące mu oprogramowanie, którego używa do wnioskowania ekologicznego). King pokazuje w swojej książce, w jaki sposób można ulepszyć szacunki modeli regresji wykorzystujących dane zagregowane, badając potencjalne granice, które grupy niższego poziomu mają na podstawie dostępnych danych zagregowanych. Fakt, że twoje dane są w większości kategorycznymi grupami, czyni je podatnymi na tę technikę. (Chociaż nie daj się zwieść, nie jest to tak wszechstronne rozwiązanie, jak można się spodziewać po tytule!) Istnieje więcej bieżących prac, ale książka Kinga to IMO najlepsze miejsce na rozpoczęcie.

Inną możliwością byłoby po prostu przedstawienie potencjalnych granic samych danych (na mapach lub wykresach). Na przykład możesz podać rozkład płci na poziomie zagregowanym (powiedzmy 5000 mężczyzn i 5000 kobiet) i wiesz, że ten zagregowany poziom obejmuje 2 różne małe jednostki powierzchni w populacjach 9 000 i 1 000 osób. Następnie możesz przedstawić to jako tabelę awaryjną formularza;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000

Chociaż nie masz informacji w komórkach dla agregacji niższego poziomu, z wartości krańcowych możemy stworzyć minimalne lub maksymalne potencjalne wartości dla każdej komórki. Tak więc w tym przykładzie Men X Unit1komórka może przyjmować wartości tylko między 4000 a 5000 (Za każdym razem, gdy rozkład krańcowy jest bardziej nierównomierny, im mniejszy przedział możliwych wartości przyjmą komórki). Najwyraźniej uzyskanie granic tabeli jest trudniejsze niż się spodziewałem ( Dobra i Fienberg, 2000 ), ale wydaje się, że funkcja jest dostępna w eiPackbibliotece w R ( Lau i in., 2007, s. 43 ).

Analiza wielowymiarowa z danymi na poziomie zagregowanym jest trudna, ponieważ tendencyjność agregacji nieuchronnie występuje w przypadku tego rodzaju danych. (W skrócie, po prostu opisałbym stronniczość agregacji, ponieważ wiele różnych procesów generowania danych na poziomie indywidualnym może skutkować skojarzeniami na poziomie agregatów. Seria artykułów w American Sociological Revieww latach 70. XX wieku znajdują się niektóre z moich ulubionych odniesień do tematów (Firebaugh, 1978; Hammond, 1973; Hannan i Burstein, 1974), choć mogą to być źródła kanoniczne na ten temat (Fotheringham i Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Sądzę, że reprezentowanie potencjalnych granic, które dane mogą przyjąć, może być potencjalnie pobudzające, chociaż tak naprawdę przeszkadzają Ci ograniczenia agregacji danych do przeprowadzania analizy wielowymiarowej. Nie powstrzymuje to jednak nikogo przed naukami społecznymi (na dobre i na złe!)

Należy zauważyć (jak powiedział Charlie w komentarzach), że „rozwiązanie” Kinga spotkało się z dużą krytyką (Anselin i Cho, 2002; Freedman i in., 1998). Mimo że krytyki tej nie można powiedzieć o matematyce metody Kinga, tym bardziej w odniesieniu do sytuacji, w których metoda Kinga nadal nie uwzględnia błędu agregacji (i zgadzam się zarówno z Freedmanem, jak i Anselinem w tych sytuacjach, w których dane nauki społeczne są nadal podejrzane, że są znacznie bardziej powszechne niż te, które spełniają założenia króla). Jest to częściowo powód, dla którego sugeruję po prostu zbadanie granic (nie ma w tym nic złego), ale wyciąganie wniosków na temat korelacji poszczególnych poziomów z takich danych wymaga znacznie więcej skoków wiary, które ostatecznie są nieuzasadnione w większości sytuacji.

Cytowania

— Andy W.
źródło

Zauważ, że inni krytykowali podejście króla do kwestii błędu ekologicznego; David Freedman jest godnym uwagi przykładem. Oto odpowiedź Freedmana i jego współautorów na cytowaną powyżej książkę Kinga: citeseerx.ist.psu.edu/viewdoc/… Oczywiście King ma odpowiedź, a Freedman i in. mam odpowiedź na odpowiedź na tę odpowiedź ... Nie mogę do końca zrozumieć, co próbujesz zrobić i jakie masz dane, ale ogólnie jestem bardzo sceptyczny wobec analiz typu wnioskowania ekologicznego.

— Charlie,

Tak @Charlie Zgadzam się (i szczególnie podoba mi się stanowisko Freedmana w ogóle). Jest to częściowo powód, dla którego wskazuję ogólną literaturę na temat stronniczości agregacyjnej na końcu mojego postu. Nie jestem do końca pewien, co rozumiesz przez stwierdzenie „Nie mogę do końca zrozumieć, co próbujesz zrobić i jakie masz dane, ale ogólnie jestem bardzo sceptyczny wobec analiz typu wnioskowania ekologicznego”, jest to pozdrawiam króla i Freedmana, którzy narzekają na nieudostępnianie danych?

— Andy W

@Andy, czy ta technika jest taka sama, jak ekonomiści nazywają częściowo zidentyfikowane dystrybucje ( springer.com/statistics/statistic+theory+and+methods/book/… )?

— StasK

@ Andy, nie, przepraszam za dwuznaczność. Właściwie rozmawiałem z OP. Jeśli ma tabele częstotliwości na małym obszarze i chce uzyskać statystyki na poziomie małego obszaru, czego brakuje? Myślę, że musi mieć tylko marginesy, ale nie zawartość komórki, jak sugerujesz w swoim poście.

— Charlie,

@StasK, nie wiem. Sprawdzę, czy King odwołuje się do Manskiego jeszcze w tym tygodniu, kiedy mam dostęp do książki. Prawdopodobnie zachodzi pewne nakładanie się, biorąc pod uwagę streszczenie ekologiczne. Innym potencjalnym (darmowym) źródłem do zbadania związku między nimi może być czytelnik King pod redakcją „Nowe metody wnioskowania ekologicznego” ( opublikowany w całości na swojej stronie internetowej)

— Andy W

Nie jestem pewien, czy w literaturze istnieje dobrze zdefiniowana odpowiedź, biorąc pod uwagę, że wyszukiwarka Google podaje w zasadzie trzy użyteczne odniesienia do wielowymiarowego oszacowania małego obszaru. Pfeffermann (2002) omawia zmienne dyskretne odpowiedzi w sekcji 4 artykułu, ale będą to modele jednowymiarowe. Oczywiście, dzięki hierarchicznym metodom bayesowskim ( Rao 2003, rozdz. 10 ), możesz robić wszelkiego rodzaju cuda, ale jeśli w końcu po prostu powielasz swoje przeory (ponieważ masz tak mało danych), byłoby to okropne wynik ćwiczenia symulacyjnego. Poza tym Rao traktuje tylko zmienne ciągłe.

Myślę, że największym wyzwaniem będzie rozkład macierzy kowariancji na komponenty między i wewnątrz małych obszarów. Przy 1% próbce będziesz mieć tylko 3 obserwacje z twojego SAE, więc może być trudno uzyskać stabilne oszacowanie składnika wewnętrznego.

Gdybym był w twoich butach, wypróbowałbym wielowymiarowe rozszerzenie modelu Pfeffermann z wielowymiarowym losowym efektem małego obszaru. Rzeczywiście możesz do tego dojść do hierarchicznego modelu bayesowskiego, jeśli nic nie działa na podstawie projektu.

AKTUALIZACJA (aby odpowiedzieć na komentarz Andy'ego do tej odpowiedzi): metody ładowania początkowego do oszacowania małych obszarów ( Lahiri 2003 ) specjalnie odtwarzają wiarygodną populację z badania. Podczas gdy celem bootstrap jest oszacowanie wariancji oszacowań małego obszaru, procedury powinny być interesujące i istotne dla opublikowanego problemu.

— StasK
źródło

Nie oceniałbym statusu literatury na podstawie wyszukiwania w Google. Nie jestem pewien, czy w tym przypadku autor szukałby oszacowania małego obszaru. O ile rozumiem, literatura koncentruje się albo na przewidywaniu charakterystyk na małych obszarach ( Kriegler i Berk, 2010 ), albo na szacowaniu parametrów w modelach wielopoziomowych na podstawie rzadkiej liczby próbek na jednostkę agregatu.

— Andy W

Nie jestem pewien, czy chcę zrobić oszacowanie małego obszaru. Jak rozumiem, estymacja małego obszaru ma na celu przejście od kilku próbek na małym obszarze do agregacji statystyk podsumowujących. Poszukuję czegoś przeciwnego (aby przejść z rozkładu populacji dużych obszarów i zbiorczych statystyk zbiorczych na małych obszarach do symulowanych populacji małych obszarów). Lahiri 2003 wygląda tutaj jako dobry punkt wyjścia.

— fmark