To, co wyciągasz wniosek, jeśli dane to IID, pochodzi z informacji zewnętrznych, a nie samych danych. Jako naukowiec musisz ustalić, czy uzasadnione jest przyjęcie danych IID w oparciu o sposób gromadzenia danych i inne informacje zewnętrzne.
Rozważ kilka przykładów.
Scenariusz 1: Generujemy zestaw danych niezależnie od pojedynczego rozkładu, który przypadkowo jest mieszaniną 2 normalnych.
Scenariusz 2: Najpierw generujemy zmienną płci z rozkładu dwumianowego, następnie u mężczyzn i kobiet generujemy niezależnie dane z rozkładu normalnego (ale normalne są różne dla mężczyzn i kobiet), a następnie usuwamy lub tracimy informacje o płci.
W scenariuszu 1 dane są IID, aw scenariuszu 2 dane wyraźnie nie są identycznie rozmieszczone (różne rozkłady dla mężczyzn i kobiet), ale 2 rozkłady dla 2 scenariuszy są nie do odróżnienia od danych, musisz wiedzieć o tym, jak dane został wygenerowany w celu ustalenia różnicy.
Scenariusz 3: pobieram prostą losową próbę ludzi mieszkających w moim mieście, przeprowadzam ankietę i analizuję wyniki, aby wyciągać wnioski na temat wszystkich mieszkańców miasta.
Scenariusz 4: Biorę prostą losową próbę ludzi mieszkających w moim mieście, przeprowadzam ankietę i analizuję wyniki, aby wyciągać wnioski na temat wszystkich ludzi w kraju.
W scenariuszu 3 badani byliby uważani za niezależnych (zwykła losowa próba populacji będących przedmiotem zainteresowania), ale w scenariuszu 4 nie byliby uznani za niezależnych, ponieważ zostali wybrani z niewielkiej części interesującej populacji, a bliskość geograficzna prawdopodobnie narzuciłaby zależność. Ale 2 zestawy danych są identyczne, to sposób, w jaki zamierzamy wykorzystać dane, określa, czy w tym przypadku są one niezależne czy zależne.
Dlatego nie ma sposobu na przetestowanie przy użyciu samych danych, aby wykazać, że dane to IID, wykresy i inne testy diagnostyczne mogą pokazywać niektóre typy nie-IID, ale ich brak nie gwarantuje, że dane są IID. Można także porównać do konkretnych założeń (normalne IID jest łatwiejsze do obalenia niż tylko IID). Każdy test wciąż jest wykluczony, ale jego odrzucenie nigdy nie dowodzi, że jest to IID.
Decyzje dotyczące tego, czy jesteś skłonny założyć, że warunki IID się utrzymują, muszą być podejmowane w oparciu o naukę o tym, jak dane zostały zebrane, jak odnoszą się do innych informacji i jak będą wykorzystywane.
Edycje:
Oto kolejny zestaw przykładów nie-identycznych.
Scenariusz 5: dane są pozostałościami z regresji, w której występuje heteroscedastyczność (wariancje nie są równe).
Scenariusz 6: dane pochodzą z mieszanki normalnych ze średnią 0, ale różnymi wariancjami.
W scenariuszu 5 możemy wyraźnie zobaczyć, że reszty nie są identycznie rozłożone, jeśli wykreślimy reszty względem dopasowanych wartości lub innych zmiennych (predyktorów lub potencjalnych predyktorów), ale same reszty (bez zewnętrznych informacji) byłyby nie do odróżnienia od scenariusza 6.