Czy istnieje jakiś powód tego, co mogę wymyślić, aby przekształcić dane pierwiastkiem kwadratowym? Chodzi mi o to, że zawsze obserwuję wzrost R ^ 2. Ale to prawdopodobnie tylko z powodu centrowania danych! Każda myśl jest doceniana!
Czy istnieje jakiś powód tego, co mogę wymyślić, aby przekształcić dane pierwiastkiem kwadratowym? Chodzi mi o to, że zawsze obserwuję wzrost R ^ 2. Ale to prawdopodobnie tylko z powodu centrowania danych! Każda myśl jest doceniana!
Odpowiedzi:
Ogólnie regresja parametryczna / GLM zakłada, że związek między zmienną a każdym X zmienną jest liniowy, że reszty po dopasowaniu modelu mają rozkład normalny i że wielkość reszt pozostaje prawie taka sama wzdłuż dopasowanej linii. Gdy Twoje dane nie są zgodne z tymi założeniami, transformacje mogą pomóc.
Powinno być intuicyjne, że jeśli jest proporcjonalne do X 2, to ukorzenienie kwadratowe Y linearyzuje tę zależność, prowadząc do modelu, który lepiej pasuje do założeń i który tłumaczy większą wariancję (ma wyższą R 2 ). Rootowanie kwadratowe Y pomaga również wtedy, gdy masz problem, że rozmiar twoich reszt stopniowo wzrasta, gdy twoje wartości Xwzrost (tzn. rozproszenie punktów danych wokół dopasowanej linii staje się bardziej zaznaczone w miarę przesuwania się wzdłuż niej). Pomyśl o kształcie funkcji pierwiastka kwadratowego: najpierw rośnie gwałtownie, ale potem nasyca się. Zatem zastosowanie przekształcenia pierwiastka kwadratowego powoduje napompowanie mniejszych liczb, ale stabilizuje większe. Możesz więc pomyśleć o tym, że odsuwa małe reszty przy niskich wartościach od dopasowanej linii i wyciska duże reszty przy wysokich wartościach X w kierunku linii. (To jest skrót mentalny, a nie właściwa matematyka!)
Jak mówią Dmitrij i ocram, jest to tylko jedna możliwa transformacja, która pomoże w pewnych okolicznościach, a narzędzia takie jak formuła Box-Cox mogą pomóc ci wybrać najbardziej przydatną. Radziłbym przyzwyczaić się do tego, aby zawsze patrzeć na wykresy reszt w porównaniu z dopasowanymi wartościami (a także normalny wykres prawdopodobieństwa lub histogram reszt) po dopasowaniu modelu. Przekonasz się, że często będziesz w stanie zobaczyć z tego, jaka transformacja pomoże.
Jednak ta stała wartość z góry może być (i prawdopodobnie nie jest) optymalna. W R możesz rozważyć funkcję z car
biblioteki, powerTransform
która pomaga oszacować optymalną wartość transformacji Box-Coxa dla każdej ze zmiennych uczestniczących w regresji liniowej lub dowolnych danych, z którymi pracujesz (zobacz example(powerTransform)
dalsze szczegóły).
Gdy zmienna podąża za rozkładem Poissona, wyniki przekształcenia pierwiastka kwadratowego będą znacznie bliższe Gaussa.
Macierz odległości obliczona za pomocą Bray-Curtisa zwykle nie jest metryczna dla niektórych danych, co powoduje powstanie ujemnych wartości własnych. Jednym z rozwiązań tego problemu jest transformacja (logarytmiczna, pierwiastek kwadratowy lub podwójny pierwiastek kwadratowy).