Czy mogę używać normalnej dystrybucji GLM z funkcją łącza LOG na DV, który został już przekształcony w log?
Tak; jeśli założenia są spełnione w tej skali
Czy test jednorodności wariancji jest wystarczający, aby uzasadnić zastosowanie rozkładu normalnego?
Dlaczego równość wariancji miałaby oznaczać normalność?
Czy procedura sprawdzania resztek jest prawidłowa, aby uzasadnić wybór modelu funkcji łącza?
Powinieneś wystrzegać się używania zarówno histogramów, jak i testów dopasowania, aby sprawdzić trafność swoich założeń:
1) Uważaj, używając histogramu do oceny normalności. (Zobacz także tutaj )
Krótko mówiąc, w zależności od czegoś tak prostego, jak niewielka zmiana wyboru szerokości bin, a nawet po prostu lokalizacja granicy bin, można uzyskać całkiem różne wrażenia na temat kształtu danych:
To dwa histogramy tego samego zestawu danych. Używanie kilku różnych szerokości łączy może być przydatne w sprawdzaniu, czy wrażliwość na to wrażliwość.
2) Strzeż się stosowania testów poprawności dopasowania w celu stwierdzenia, że założenie normalności jest uzasadnione. Formalne testy hipotez nie odpowiadają właściwie na pytanie.
np. patrz linki w punkcie 2. tutaj
O wariancji wspomnianej w niektórych artykułach przy użyciu podobnych zestawów danych „ponieważ rozkłady miały homogeniczne wariancje, zastosowano GLM z rozkładem Gaussa”. Jeśli nie jest to poprawne, jak mogę uzasadnić lub zdecydować o dystrybucji?
W normalnych okolicznościach pytanie nie brzmi „czy moje błędy (lub rozkłady warunkowe) są normalne?” - nie będą, nie musimy nawet sprawdzać. Bardziej trafne pytanie brzmi: „jak bardzo obecny poziom nienormalności wpływa na moje wnioski?”
Sugeruję oszacowanie gęstości jądra lub normalny wykres QQ (wykres reszt w porównaniu do normalnych wyników). Jeśli rozkład wygląda na całkiem normalny, nie musisz się martwić. W rzeczywistości, nawet jeśli jest to wyraźnie nienormalne, nadal może nie mieć większego znaczenia, w zależności od tego, co chcesz zrobić (normalne interwały przewidywania naprawdę będą na przykład opierać się na normalności, ale wiele innych rzeczy będzie działać na dużych próbkach )
Co zabawne, przy dużych próbach normalność staje się na ogół coraz mniej istotna (oprócz wspomnianych powyżej PI), ale twoja zdolność do odrzucania normalności staje się coraz większa.
Edycja: kwestia równości wariancji polega na tym, że naprawdę może wpływać na twoje wnioski, nawet przy dużych próbkach. Ale prawdopodobnie nie powinieneś również oceniać tego za pomocą testów hipotez. Niewłaściwe założenie wariancji jest problemem niezależnie od założonego rozkładu.
Czytałem, że skalowane odchylenie powinno wynosić około Np, aby model dobrze pasował, prawda?
Kiedy dopasujesz normalny model, ma on parametr skali, w którym to przypadku twoje skalowane odchylenie będzie wynosić około Np, nawet jeśli twój rozkład nie jest normalny.
Twoim zdaniem normalna dystrybucja z linkiem dziennika jest dobrym wyborem
Wobec ciągłego braku wiedzy o tym, co mierzysz lub do czego używasz wnioskowania, nadal nie mogę ocenić, czy zasugerować inną dystrybucję dla GLM, ani jak ważna może być normalność twoich wniosków.
Jeśli jednak twoje inne założenia są również uzasadnione (należy przynajmniej sprawdzić liniowość i równość wariancji oraz rozważyć potencjalne źródła zależności), to w większości przypadków bardzo wygodnie robiłbym takie rzeczy, jak używanie elementów CI i testowanie współczynników lub kontrastów - w tych resztkach jest tylko niewielkie wrażenie skośności, co, nawet jeśli jest to rzeczywisty efekt, nie powinno mieć istotnego wpływu na tego rodzaju wnioskowanie.
Krótko mówiąc, wszystko powinno być w porządku.
(Podczas gdy inna funkcja dystrybucji i link może być nieco lepsza pod względem dopasowania, to tylko w ograniczonych okolicznościach mogłyby one mieć większy sens).