Cóż, jeśli znasz rozbieżności w parach niesparowanych i sparowanych (które ogólnie byłyby znacznie mniejsze), optymalnymi wagami dla dwóch oszacowań różnicy w grupach średnich byłyby wagi odwrotnie proporcjonalne do wariancji osobnika szacunki różnicy średnich.
[Edycja: okazuje się, że przy szacowaniu wariancji nazywa się to estymatorem Graybill-Deal. Było na ten temat sporo artykułów. Oto jeden]
Konieczność oszacowania wariancji powoduje pewne trudności (wynikowy stosunek szacunków wariancji wynosi F, i myślę, że uzyskane masy mają rozkład beta, a wynikowa statystyka jest dość skomplikowana), ale ponieważ rozważasz bootstrapping, może to być mniej obaw.
Alternatywną możliwością, która może być w pewnym sensie ładniejsza (lub przynajmniej trochę bardziej odporna na nienormalność, ponieważ gramy ze współczynnikami wariancji) przy bardzo niewielkiej utracie wydajności na normalnym poziomie, jest oparcie łącznej oceny przesunięcia sparowane i niesparowane testy rangowe - w każdym przypadku rodzaj szacunku Hodgesa-Lehmanna, w niesparowanym przypadku opartym na medianach różnic między próbami parami oraz w sparowanym przypadku od median średnich średnich par. Ponownie, minimalna ważona wariancją liniowa kombinacja tych dwóch będzie miała wagi proporcjonalne do odwrotności wariancji. W takim przypadku prawdopodobnie skłaniam się ku permutacji (/ randomizacji) zamiast bootstrapu - ale w zależności od tego, jak zaimplementujesz bootstrap, mogą skończyć w tym samym miejscu.
W obu przypadkach możesz chcieć wzmocnić swoje wariancje / zmniejszyć współczynnik wariancji. Dostanie się do właściwego boiska do wagi jest dobre, ale normalnie stracisz bardzo małą wydajność, czyniąc go nieco solidnym. ---
Kilka dodatkowych myśli, których wcześniej wyraźnie nie uporządkowałem:
Ten problem ma wyraźne podobieństwo do problemu Behrensa-Fishera, ale jest jeszcze trudniejszy.
Gdybyśmy ustalili wagi, moglibyśmy po prostu uderzyć w przybliżeniu typu Welch-Satterthwaite; struktura problemu jest taka sama.
Naszym problemem jest to, że chcemy zoptymalizować wagi, co faktycznie oznacza, że waga nie jest ustalona - i rzeczywiście dąży do maksymalizacji statystyki (przynajmniej w przybliżeniu i prawie w dużych próbkach, ponieważ każdy zestaw wag jest losową wielkością szacującą to samo licznik, a my staramy się zminimalizować mianownik; oba nie są niezależne).
Spodziewam się, że pogorszyłoby to przybliżenie chi-kwadrat i prawie na pewno wpłynęłoby jeszcze bardziej na wartość df przybliżenia.
[Jeśli problem ten jest możliwy do wykonania, może się okazać, że istnieje dobra zasada, która mówi: „możesz zrobić prawie równie dobrze, jeśli używasz tylko sparowanych danych w tych okolicznościach, tylko niesparowanych w tych innych zestawach warunki, a reszta, ten ustalony schemat masy jest zwykle bardzo zbliżony do optymalnego ”- ale nie wstrzymam oddechu, czekając na tę szansę. Taka reguła decyzyjna niewątpliwie miałaby pewien wpływ na prawdziwe znaczenie w każdym przypadku, ale jeśli ten efekt nie byłby tak duży, taka praktyczna zasada dałaby łatwy sposób korzystania z istniejącego oprogramowania, więc pożądane byłoby spróbuj zidentyfikować taką regułę dla użytkowników w takiej sytuacji.]
---
Edycja: Uwaga do siebie - Musisz wrócić i wypełnić szczegóły pracy nad testami „nakładających się próbek”, zwłaszcza t-testów nakładających się próbek
---
Przyszło mi do głowy, że test randomizacji powinien działać dobrze -
gdzie dane są sparowane, losowo permutujesz etykiety grup w parach
tam, gdzie dane są niesparowane, ale zakłada się, że mają wspólną dystrybucję (poniżej wartości zerowej), permutujesz przypisania grupowe
w1=1/(1+v1v2)
(Dodano znacznie później)
Ewentualnie odpowiedni papier:
Derrick, B., Russ B., Toher, D. i White, P. (2017),
„Statystyka testu dla porównania średnich dla dwóch próbek, które obejmują zarówno sparowane, jak i niezależne obserwacje”,
Journal of Modern Applied Methods Methods , maj Vol. 16, nr 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm