Przejrzałem wiele zestawów danych R, wpisów w DASL i innych miejscach i nie znajduję zbyt wielu dobrych przykładów interesujących zestawów danych ilustrujących analizę kowariancji danych eksperymentalnych. Istnieje wiele „zabawkowych” zbiorów danych z wymyślonymi danymi w podręcznikach statystycznych.
Chciałbym mieć przykład, w którym:
- Dane są prawdziwe, z ciekawą historią
- Istnieje co najmniej jeden czynnik leczenia i dwie zmienne towarzyszące
- Na co najmniej jedną zmienną towarzyszącą wpływa jeden lub więcej czynników leczenia, a na leczenie nie ma wpływu.
- Najlepiej raczej eksperymentalne niż obserwacyjne
tło
Moim prawdziwym celem jest znalezienie dobrego przykładu umieszczenia winiety dla mojego pakietu R. Ale większym celem jest to, że ludzie muszą zobaczyć dobre przykłady, aby zilustrować niektóre ważne obawy w analizie kowariancji. Rozważmy następujący wymyślony scenariusz (i proszę zrozumieć, że moja wiedza na temat rolnictwa jest w najlepszym razie powierzchowna).
- Wykonujemy eksperyment, w którym nawozy są losowo przydzielane do działek, a rośliny są sadzone. Po odpowiednim okresie wzrostu zbieramy plony i mierzymy pewne cechy jakościowe - to zmienna odpowiedzi. Ale rejestrujemy również całkowite opady w okresie wegetacji oraz kwasowość gleby w czasie żniw - i, oczywiście, który nawóz został użyty. Mamy więc dwie zmienne towarzyszące i leczenie.
Zwykłym sposobem analizy uzyskanych danych byłoby dopasowanie modelu liniowego z traktowaniem jako czynnikiem i efektami addytywnymi dla zmiennych towarzyszących. Następnie, aby podsumować wyniki, oblicza się „skorygowane średnie” (AKA średnie najmniejszych kwadratów), które są prognozami z modelu dla każdego nawozu, przy średnich opadach i 3 średniej kwasowości gleby. To stawia wszystko na równi, ponieważ wtedy, gdy porównujemy te wyniki, utrzymujemy stałą ilość opadów i kwasowość.
Ale jest to prawdopodobnie niewłaściwa rzecz, ponieważ nawóz prawdopodobnie wpływa na kwasowość gleby, a także na reakcję. To powoduje, że skorygowane środki wprowadzają w błąd, ponieważ efekt leczenia obejmuje jego wpływ na kwasowość. Jednym ze sposobów poradzenia sobie z tym byłoby usunięcie kwasowości z modelu, a następnie środki skorygowane o opady zapewnią uczciwe porównanie. Ale jeśli kwasowość jest ważna, ta uczciwość wiąże się z dużymi kosztami, ponieważ zwiększa się zmienność resztkowa.
Istnieją sposoby obejścia tego problemu przy użyciu skorygowanej wersji kwasowości w modelu zamiast jej oryginalnych wartości. Nadchodząca aktualizacja mojego pakietu R. lsmeans sprawi, że będzie to wręcz łatwe. Ale chcę mieć dobry przykład, aby to zilustrować. Będę bardzo wdzięczny każdemu, kto może wskazać mi kilka dobrych przykładowych zestawów danych, i należycie go zaakceptuje.