Jaki jest związek między metodami, takimi jak dopasowywanie i statystyczna kontrola zmiennych?


10

Często w artykułach badawczych, które czytasz, badacze kontrolowali pewne zmienne. Można to zrobić metodami takimi jak dopasowywanie, blokowanie itp.

Ale zawsze uważałem, że kontrolowanie zmiennych było czymś statystycznym, mierząc kilka zmiennych, które mogą mieć wpływ, i przeprowadzając analizę statystyczną tych zmiennych, co można przeprowadzić zarówno w prawdziwych, jak i quasi-eksperymentach. Na przykład miałbyś ankietę lub inny test, w którym zmierzyłbyś zmienną niezależną i niektóre zmienne, które mogą być mylące, i dokonałeś analizy.

  • Czy można kontrolować zmienne w quasi-eksperymentach?
  • Jaki jest związek między metodami, takimi jak dopasowywanie i statystyczna kontrola zmiennych?

Odpowiedzi:


6

Podobnie jak w przypadku AdamO, myślę, że kluczem do odpowiedzi na to pytanie jest koncepcja wnioskowania przyczynowego i tego, jak dotrzeć do „modelu przyczynowego” za pomocą konfiguracji obserwacyjnych.

W idealnym świecie mielibyśmy coś, co nazywa się populacją alternatywną - populacja badana, identyczna pod każdym względem, z wyjątkiem jednej rzeczy, która nas interesuje. Różnica między tymi dwiema populacjami, oparta na tej różnicy, jest prawdziwym wynikiem przyczynowym.

Oczywiście nie możemy tego mieć.

Istnieją jednak sposoby na zbliżenie się do niego:

  • Randomizacja: Teoretycznie (jeśli randomizacja jest przeprowadzana poprawnie) powinny dać ci dwie identyczne populacje, z wyjątkiem leczenia po randomizacji.

  • Stratyfikacja: możesz spojrzeć na populację w obrębie zmiennych towarzyszących, w których dokonujesz porównań „jak z podobnymi”. Działa to doskonale na niewielkiej liczbie poziomów, ale szybko staje się nieporęczne.

  • Dopasowywanie: Dopasowywanie jest próbą zebrania badanej populacji, tak aby Grupa A przypominała Grupę B, a zatem można ją porównać.

  • Korekta statystyczna: Uwzględnienie zmiennych towarzyszących w modelu regresji pozwala na oszacowanie efektu w obrębie poziomów zmiennych towarzyszących - ponownie, porównanie z podobnymi lub przynajmniej próba.

Wszystkie są próbą zbliżenia się do tej alternatywnej populacji. To, jak najlepiej się do tego dostać, zależy od tego, co chcesz wydostać i jak wygląda twoje badanie.


Cudowne wyjaśnienie. O wiele bardziej zwięzłe i lepiej odnosi się do pierwotnego pytania. Dodam, że z tych metod tylko korekta statystyczna jest niewrażliwa na problem posiadania pustych warstw. W badaniu kontrolnym przypadku, jeśli chcemy stratyfikować populację według wieku, dopasowanie, stratyfikacja i (blokowanie) randomizacji według wieku wymaga zgrubienia lub podziału na grupy w celu porównania 50-letniego przypadku z 51-letnią kontrolą.
AdamO,

W regresji logistycznej można jednak wykorzystywać ciągłe informacje do niejawnego pożyczania informacji między grupami, na przykład z wiekiem skorygowanym o splajn liniowy lub bazowy, aby dokonać tego porównania. To sprawia, że ​​modelowanie regresji jest jedną z najpotężniejszych i najbardziej użytecznych dostępnych metod statystycznych.
AdamO,

@AdamO zgodził się - w mojej odpowiedzi w powyższym pytaniu wspominam, że można go wykorzystać do wygładzenia obszarów bez informacji, o ile brak informacji wynika z przypadku i binowania. Ale tak - istnieje powód, dla którego regresja jest niesamowita.
Fomite,

2

Myślę, że modelowanie przyczynowe jest kluczem do odpowiedzi na to pytanie. Na samym początku trzeba zmierzyć się z właściwym skorygowanym / stratyfikowanym / kontrolowanym efektem zainteresowania, a nawet spojrzeć na dane. Gdybym miał oszacować stosunek wysokości do pojemności płuc u dorosłych, dostosowałbym się do statusu palenia, ponieważ palenie tytoniu hamuje wzrost i wpływa na pojemność płuc. Pomyłki są zmiennymi, które są przyczynowo powiązane z predyktorem zainteresowania i są powiązane z wynikiem zainteresowania. Zobacz Causality z Judei Pearl, wyd. 2. Należy sprecyzować i zasilić ich analizę dla prawidłowych zmiennych zakłócających, zanim proces gromadzenia danych zacznie nawet używać racjonalnej logiki i wcześniejszej wiedzy z poprzednich badań eksploracyjnych.

R2)dla modeli liniowych dla tych zmiennych dostosowujących. Innym procesem powszechnym w epidemiologii jest to, że zmienne są dodawane do modelu tylko wtedy, gdy zmieniają oszacowanie głównego efektu (np. Iloraz szans lub iloraz ryzyka) o co najmniej 10%. Chociaż jest to „bardziej” poprawne niż wybór modelu na podstawie AIC, nadal uważam, że w tym podejściu istnieją poważne zastrzeżenia.

Moim zaleceniem jest sprecyzowanie pożądanej analizy w ramach hipotezy. Ryzyko palenia / raka dostosowane do wieku jest innym parametrem i prowadzi do innego wnioskowania w kontrolowanym badaniu niż surowe ryzyko palenia / raka. Wykorzystanie wiedzy przedmiotowej jest najlepszym sposobem wyboru predyktorów do dostosowania w analizach regresji lub jako zmiennych stratyfikacyjnych, dopasowujących lub ważących w różnych innych rodzajach „kontrolowanych” analiz eksperymentalnych i quasi-eksperymentalnych.


2

Historia związku między dopasowaniem a regresją została krótko streszczona w poście na blogu tutaj . W skrócie

„Regresuj na D [wskaźnik leczenia] pełny zestaw modeli manekinów (tj. Nasyconych) dla X [zmiennych towarzyszących]. Wynikowe oszacowanie efektu D jest równe dopasowaniu na X i ważeniu w różnych komórkach zmiennych przez wariancję leczenia uzależnionego od X ”

Dokładne omówienie znajduje się również w sekcji 3.3 w większości nieszkodliwych ekonometrii lub w sekcji 5.3 kontrfaktycznych i wnioskowania przyczynowego , w tym wady i zalety D, biorąc pod uwagę wagę X, którą regresja niejawnie zapewnia.

@EpiGrad to dobry początek pierwszego pytania. Książki, o których mowa powyżej, traktują to prawie wyłącznie. Jeśli nie masz wykształcenia informatycznego / matematycznego, może okazać się, że Pearl jest trudna (choć w końcu warto!)

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.