Badam część mojego zestawu danych zawierającą 46840 podwójnych wartości od 1 do 1690 pogrupowanych w dwie grupy. Aby przeanalizować różnice między tymi grupami, zacząłem od zbadania rozkładu wartości w celu wybrania właściwego testu.
Po poradniku na temat testowania normalności zrobiłem qqplot, histogram i boxplot.
To nie wydaje się być normalnym rozkładem. Ponieważ przewodnik stwierdza dość poprawnie, że czysto graficzne badanie nie jest wystarczające, chcę również przetestować rozkład pod kątem normalności.
Biorąc pod uwagę rozmiar zestawu danych i ograniczenie testu Shapiro-Wilksa w R, w jaki sposób dany rozkład powinien być testowany pod kątem normalności i biorąc pod uwagę rozmiar zestawu danych, czy jest to w ogóle wiarygodne? ( Zobacz zaakceptowaną odpowiedź na to pytanie )
Edytować:
Ograniczeniem testu Shapiro-Wilka, o którym mówię, jest to, że testowany zestaw danych jest ograniczony do 5000 punktów. Cytując kolejną dobrą odpowiedź dotyczącą tego tematu:
Dodatkowym problemem związanym z testem Shapiro-Wilka jest to, że gdy podajesz mu więcej danych, szanse na odrzucenie hipotezy zerowej stają się większe. Tak więc dzieje się tak, że w przypadku dużych ilości danych można wykryć nawet bardzo małe odchylenia od normalności, co prowadzi do odrzucenia hipotezy zerowej, chociaż ze względów praktycznych dane są więcej niż normalne.
[...] Na szczęście shapiro.test chroni użytkownika przed wyżej opisanym efektem, ograniczając rozmiar danych do 5000.
Co do tego, dlaczego przede wszystkim testuję normalną dystrybucję:
Niektóre testy hipotez zakładają normalny rozkład danych. Chcę wiedzieć, czy mogę korzystać z tych testów.