Mam dwie populacje, jedną z N = 38 704 (liczba obserwacji), a drugą z N = 1 313 662. Te zestawy danych mają ~ 25 zmiennych, wszystkie ciągłe. Wziąłem średnią z każdego z każdego zestawu danych i obliczyłem statystyki testowe przy użyciu wzoru
t = średnia różnica / błąd standardowy
Problemem jest stopień swobody. Zgodnie z formułą df = N1 + N2-2 będziemy mieć więcej swobody, niż może obsłużyć stół. Wszelkie sugestie na ten temat? Jak sprawdzić statystykę t tutaj. Wiem, że test t służy do obsługi próbek, ale co, jeśli zastosujemy to do dużych próbek.