Tło i przykład empiryczny
Mam dwa studia; Przeprowadziłem eksperyment (badanie 1), a następnie powtórzyłem go (badanie 2). W badaniu 1 znalazłem interakcję między dwiema zmiennymi; w badaniu 2 ta interakcja była w tym samym kierunku, ale nie znacząca. Oto podsumowanie modelu badania 1:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.75882 0.26368 21.840 < 2e-16 ***
condSuppression -1.69598 0.34549 -4.909 1.94e-06 ***
prej -0.01981 0.08474 -0.234 0.81542
condSuppression:prej 0.36342 0.11513 3.157 0.00185 **
I model Study 2:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.24493 0.24459 21.444 <2e-16 ***
prej 0.13817 0.07984 1.731 0.0851 .
condSuppression -0.59510 0.34168 -1.742 0.0831 .
prej:condSuppression 0.13588 0.11889 1.143 0.2545
Zamiast powiedzieć: „Wydaje mi się, że nic nie mam, ponieważ„ nie udało mi się powielić ”.„ Połączyłem dwa zestawy danych, utworzyłem zmienną fikcyjną dla tego badania, z którego pochodzą dane, a następnie uruchomiłem interakcję ponownie po kontrolowaniu do badania zmiennej manekina. Ta interakcja była znacząca nawet po jej kontrolowaniu i odkryłem, że ta dwukierunkowa interakcja między warunkiem a niechęcią / prej nie była zakwalifikowana przez trójstronną interakcję z badaną zmienną.
Przedstawiamy analizę bayesowską
Kazałem komuś zasugerować, że jest to świetna okazja do zastosowania analizy bayesowskiej: w badaniu 2 mam informacje z badania 1, które mogę wykorzystać jako informacje wstępne! W ten sposób w badaniu 2 przeprowadzana jest aktualizacja bayesowska z częstych, zwykłych wyników najmniejszych kwadratów w badaniu 1. Więc wracam i ponownie analizuję model badania 2, używając teraz pouczających informacji o współczynnikach: wszystkie współczynniki miały normalne przed, gdzie średnia była oszacowaniem w badaniu 1, a odchylenie standardowe było błędem standardowym w badaniu 1.
To jest podsumowanie wyniku:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.63 0.17 5.30 5.52 5.63 5.74 5.96
condSuppression -1.20 0.20 -1.60 -1.34 -1.21 -1.07 -0.80
prej 0.02 0.05 -0.08 -0.01 0.02 0.05 0.11
condSuppression:prej 0.34 0.06 0.21 0.30 0.34 0.38 0.46
sigma 1.14 0.06 1.03 1.10 1.13 1.17 1.26
mean_PPD 5.49 0.11 5.27 5.41 5.49 5.56 5.72
log-posterior -316.40 1.63 -320.25 -317.25 -316.03 -315.23 -314.29
Wygląda na to, że teraz mamy dość solidne dowody na interakcję z analizy badania 2. Jest to zgodne z tym, co zrobiłem, gdy po prostu ułożyłem dane jeden na drugim i uruchomiłem model z numerem badania jako zmienną fikcyjną.
Scenariusz alternatywny: co jeśli pierwszy raz studiowałem 2?
To sprawiło, że pomyślałem: co jeśli najpierw uruchomiłem badanie 2, a następnie wykorzystałem dane z badania 1, aby zaktualizować swoje przekonania dotyczące badania 2? Zrobiłem to samo, co powyżej, ale odwrotnie: ponownie przeanalizowałem dane z badania 1, używając częstych, zwykłych oszacowań współczynnika najmniejszych kwadratów i standardowych odchyleń od badania 2 jako wcześniejszych średnich i odchyleń standardowych dla mojej analizy danych z badania 1. Podsumowanie wyników:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.35 0.17 5.01 5.23 5.35 5.46 5.69
condSuppression -1.09 0.20 -1.47 -1.22 -1.09 -0.96 -0.69
prej 0.11 0.05 0.01 0.08 0.11 0.14 0.21
condSuppression:prej 0.17 0.06 0.05 0.13 0.17 0.21 0.28
sigma 1.10 0.06 0.99 1.06 1.09 1.13 1.21
mean_PPD 5.33 0.11 5.11 5.25 5.33 5.40 5.54
log-posterior -303.89 1.61 -307.96 -304.67 -303.53 -302.74 -301.83
Ponownie widzimy dowody na interakcję, jednak niekoniecznie tak było. Zauważ, że oszacowanie punktowe dla obu analiz bayesowskich nie występuje nawet w 95% wiarygodnych przedziałach; dwa wiarygodne przedziały z analiz bayesowskich mają więcej nakładania się niż nakładania się.
Jakie jest bayesowskie uzasadnienie pierwszeństwa czasu?
Moje pytanie brzmi zatem: jakie są uzasadnienia Bayesian dla przestrzegania chronologii gromadzenia i analizy danych? Otrzymuję wyniki z Studium 1 i używam ich jako istotnych informacji w Studium 2, dzięki czemu używam Studium 2 do „aktualizacji” moich przekonań. Ale jeśli założymy, że wyniki, które otrzymuję, są losowo brane z rozkładu z prawdziwym efektem populacyjnym ... to dlaczego uprzywilejowuję wyniki z badania 1? Jakie jest uzasadnienie wykorzystania wyników badania 1 jako priorytetów dla badania 2 zamiast przyjmowania wyników badania 2 jako priorytetów dla badania 1? Czy kolejność, w jakiej zbierałem i obliczałem analizy, naprawdę ma znaczenie? Wydaje mi się, że nie powinno tak być - jakie jest uzasadnienie bayesowskie? Dlaczego mam wierzyć, że oszacowanie punktowe jest bliższe 0,34 niż 0,17 tylko dlatego, że najpierw uruchomiłem Badanie 1?
Odpowiadanie na odpowiedź Kodiologa
Kodiolog zauważył:
Drugi z tych punktów wskazuje na ważne odejście od konwencji bayesowskiej. Nie ustawiłeś wcześniej pierwszego, a potem pasowałeś do obu modeli w stylu bayesowskim. Pasujesz jeden model w sposób nienależący do Bayesa, a następnie używasz go do priory dla drugiego modelu. Jeśli zastosujesz konwencjonalne podejście, nie zobaczysz zależności od porządku, którą tu widziałeś.
Aby rozwiązać ten problem, dopasowuję modele do badania 1 i badania 2, w których wszystkie współczynniki regresji miały wcześniejszy . Zmienny obojętne zmienną warunkach doświadczalnych, oznaczonych 0 lub 1; zarówno zmienna, jak i wynik, zostały zmierzone w 7-punktowych skalach od 1 do 7. Dlatego uważam, że jest to dobry wybór wcześniejszy. Po prostu według sposobu skalowania danych byłoby bardzo, bardzo rzadko widzieć współczynniki znacznie większe niż sugeruje to wcześniej.cond
prej
Średnie oszacowania i odchylenie standardowe tych oszacowań są mniej więcej takie same jak w regresji OLS. Studium 1:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.756 0.270 5.236 5.573 5.751 5.940 6.289
condSuppression -1.694 0.357 -2.403 -1.925 -1.688 -1.452 -0.986
prej -0.019 0.087 -0.191 -0.079 -0.017 0.040 0.150
condSuppression:prej 0.363 0.119 0.132 0.282 0.360 0.442 0.601
sigma 1.091 0.057 0.987 1.054 1.088 1.126 1.213
mean_PPD 5.332 0.108 5.121 5.259 5.332 5.406 5.542
log-posterior -304.764 1.589 -308.532 -305.551 -304.463 -303.595 -302.625
I badanie 2:
Estimates:
mean sd 2.5% 25% 50% 75% 97.5%
(Intercept) 5.249 0.243 4.783 5.082 5.246 5.417 5.715
condSuppression -0.599 0.342 -1.272 -0.823 -0.599 -0.374 0.098
prej 0.137 0.079 -0.021 0.084 0.138 0.192 0.287
condSuppression:prej 0.135 0.120 -0.099 0.055 0.136 0.214 0.366
sigma 1.132 0.056 1.034 1.092 1.128 1.169 1.253
mean_PPD 5.470 0.114 5.248 5.392 5.471 5.548 5.687
log-posterior -316.699 1.583 -320.626 -317.454 -316.342 -315.561 -314.651
Ponieważ te średnie i standardowe odchylenia są mniej więcej takie same jak szacunki OLS, powyższy efekt kolejności nadal występuje. Jeśli podłączę tylne statystyki podsumowujące z badania 1 do priors podczas analizowania badania 2, obserwuję inny końcowy obraz tylny niż podczas analizy badania 2, a następnie wykorzystuję te późniejsze statystyki podsumowujące jako priorytety do analizy badania 1.
Nawet gdy używam średnich bayesowskich i standardowych odchyleń dla współczynników regresji jako priorytetów zamiast częstych szacunków, nadal obserwowałbym ten sam efekt porządkowy. Pozostaje więc pytanie: jakie jest bayesowskie uzasadnienie uprzywilejowania badania, które było pierwsze?
rstanarm
lub Stan? Wygląda na to, że pytanie zostało zadane tutaj wcześniej: stats.stackexchange.com/questions/241690/…
prej
powinno być takie samo w obu przypadkach, chyba że źle rozumiem twoją procedurę.