Oba testy domyślnie modelują zależność wiek-reakcja, ale robią to na różne sposoby. Wybór zależy od tego, w jaki sposób modelujesz tę relację. Twój wybór powinien zależeć od podstawowej teorii, jeśli istnieje; na jaki rodzaj informacji chcesz wyciągnąć z wyników; i o tym, jak wybierana jest próbka. Ta odpowiedź omawia te trzy aspekty w kolejności.
Opiszę test t i regresję logistyczną przy użyciu języka, który zakłada, że studiujesz dobrze zdefiniowaną populację ludzi i chcesz wyciągnąć wnioski z próby dla tej populacji.
Aby wesprzeć jakiekolwiek wnioskowanie statystyczne, musimy założyć, że próba jest losowa.
Test t zakłada, że osoby w próbie, które odpowiedziały „nie”, są prostą losową próbą wszystkich nie-respondentów w populacji i że osoby w próbie, które odpowiedziały „tak”, są prostą losową próbą wszystkich tak-respondentów w populacja.
Test t zawiera dodatkowe założenia techniczne dotyczące rozkładów wieku w każdej z dwóch grup w populacji. Istnieją różne wersje testu t, aby poradzić sobie z prawdopodobnymi możliwościami.
Regresja logistyczna zakłada, że wszyscy ludzie w każdym wieku są prostą losową próbą osób w tym wieku w populacji. Oddzielne grupy wiekowe mogą wykazywać różne wskaźniki odpowiedzi „tak”. Wskaźniki te, wyrażone jako logarytmiczne szanse (a nie jako proste proporcje), zakłada się, że są liniowo powiązane z wiekiem (lub z pewnymi określonymi funkcjami wieku).
Regresję logistyczną można łatwo rozszerzyć, aby uwzględnić nieliniowe relacje między wiekiem a reakcją. Takie rozszerzenie można wykorzystać do oceny wiarygodności początkowego założenia liniowego. Jest to praktyczne w przypadku dużych zestawów danych, które zapewniają wystarczająco dużo szczegółów, aby wyświetlić nieliniowości, ale jest mało prawdopodobne, aby były przydatne w przypadku małych zestawów danych. Powszechna ogólna zasada - że modele regresji powinny mieć dziesięć razy więcej obserwacji niż parametrów - sugeruje, że do wykrycia nieliniowości potrzeba znacznie więcej niż 20 obserwacji (co wymaga trzeciego parametru oprócz punktu przecięcia i nachylenia funkcji liniowej ).
Test t wykrywa, czy przeciętny wiek różni się w populacji wśród osób, które nie udzieliły odpowiedzi „tak” i „tak”. Regresja logistyczna szacuje, jak odsetek odpowiedzi różni się w zależności od wieku. Jako taki jest bardziej elastyczny i może dostarczać bardziej szczegółowych informacji niż test t. Z drugiej strony okazuje się, że ma mniejszą moc niż test t do podstawowego celu wykrycia różnicy między średnim wiekiem w grupach.
Jest możliwe, aby para testów wykazała wszystkie cztery kombinacje istotności i nieistotności. Dwa z nich są problematyczne:
Test t nie jest znaczący, ale regresja logistyczna jest. Gdy założenia obu testów są wiarygodne, taki wynik jest praktycznie niemożliwy, ponieważ test t nie próbuje wykryć tak specyficznej zależności, jak zakłada regresja logistyczna. Jednak gdy związek ten jest wystarczająco nieliniowy, aby spowodować, że najstarsze i najmłodsze podmioty podzielają jedną opinię, a osoby w średnim wieku - inne, wówczas rozszerzenie regresji logistycznej na relacje nieliniowe może wykryć i kwantyfikować tę sytuację, której żaden test t nie mógłby wykryć .
Test t jest znaczący, ale regresja logistyczna nie jest, jak w pytaniu. Zdarza się to często, zwłaszcza gdy istnieje grupa młodszych respondentów, grupa starszych respondentów i kilka osób pomiędzy nimi. Może to stworzyć wielki rozdział między odsetkami odpowiedzi „nie” i „tak”. Jest on łatwo wykrywany przez test t. Jednak regresja logistyczna miałaby albo stosunkowo mało szczegółowych informacji o tym, jak odsetek odpowiedzi faktycznie zmienia się wraz z wiekiem, albo miałaby niejednoznaczne informacje: przypadek „całkowitego rozdzielenia”, w którym wszyscy starsi ludzie reagują w jeden sposób, a wszyscy młodsi w inny sposób - ale w takim przypadku oba testy miałyby zwykle bardzo niskie wartości p.
Należy pamiętać, że projekt eksperymentalny może unieważnić niektóre założenia testowe. Na przykład, jeśli wybrano osoby według ich wieku w układzie warstwowym, wówczas założenie testu t (że każda grupa odzwierciedla prostą losową grupę wiekową) staje się wątpliwe. Ten projekt sugerowałby poleganie na regresji logistycznej. Jeśli zamiast tego miałeś dwie pule, jedną bez odpowiedzi i jedną z odpowiedzi tak, i wybrałeś losowo spośród tych, aby ustalić ich wiek, wówczas założenia próby regresji logistycznej są wątpliwe, podczas gdy te z testu t utrzymają się. Ten projekt sugerowałby zastosowanie jakiejś formy testu t.
(Drugi projekt może wydawać się tutaj głupi, ale w okolicznościach, w których „wiek” jest zastępowany przez jakąś cechę, która jest trudna, kosztowna lub czasochłonna do zmierzenia, może być atrakcyjna).