Jaki może być powód zastosowania transformacji pierwiastka kwadratowego w danych?

15

Czy istnieje jakiś powód tego, co mogę wymyślić, aby przekształcić dane pierwiastkiem kwadratowym? Chodzi mi o to, że zawsze obserwuję wzrost R ^ 2. Ale to prawdopodobnie tylko z powodu centrowania danych! Każda myśl jest doceniana!

regression data-transformation variance-stabilizing

— MarkDollar
źródło

Odpowiedziałem na to pytanie i na bardziej ogólne pytanie tutaj stats.stackexchange.com/questions/18844/…

— IrishStat

3

Jeśli zmienna zależna jest inna, kwadraty R nie mogą być porównywane.

13

Ogólnie regresja parametryczna / GLM zakłada, że związek między zmienną a każdym $Y$ $X$ zmienną jest liniowy, że reszty po dopasowaniu modelu mają rozkład normalny i że wielkość reszt pozostaje prawie taka sama wzdłuż dopasowanej linii. Gdy Twoje dane nie są zgodne z tymi założeniami, transformacje mogą pomóc.

Powinno być intuicyjne, że jeśli jest proporcjonalne do to ukorzenienie kwadratowe linearyzuje tę zależność, prowadząc do modelu, który lepiej pasuje do założeń i który tłumaczy większą wariancję (ma wyższą ). Rootowanie kwadratowe pomaga również wtedy, gdy masz problem, że rozmiar twoich reszt stopniowo wzrasta, gdy twoje wartości $Y$ $X^2$ $Y$ $R^2$ $Y$ $X$ wzrost (tzn. rozproszenie punktów danych wokół dopasowanej linii staje się bardziej zaznaczone w miarę przesuwania się wzdłuż niej). Pomyśl o kształcie funkcji pierwiastka kwadratowego: najpierw rośnie gwałtownie, ale potem nasyca się. Zatem zastosowanie przekształcenia pierwiastka kwadratowego powoduje napompowanie mniejszych liczb, ale stabilizuje większe. Możesz więc pomyśleć o tym, że odsuwa małe reszty przy niskich wartościach od dopasowanej linii i wyciska duże reszty przy wysokich wartościach kierunku linii. (To jest skrót mentalny, a nie właściwa matematyka!) $X$ $X$

Jak mówią Dmitrij i ocram, jest to tylko jedna możliwa transformacja, która pomoże w pewnych okolicznościach, a narzędzia takie jak formuła Box-Cox mogą pomóc ci wybrać najbardziej przydatną. Radziłbym przyzwyczaić się do tego, aby zawsze patrzeć na wykresy reszt w porównaniu z dopasowanymi wartościami (a także normalny wykres prawdopodobieństwa lub histogram reszt) po dopasowaniu modelu. Przekonasz się, że często będziesz w stanie zobaczyć z tego, jaka transformacja pomoże.

— Freya Harrison
źródło

Hej dzięki! Znam funkcję boxcox, ale zastanawiałem się, z jakich praktycznych powodów transformacja sqrt ma sens! Dziękuję Ci!

— MarkDollar

1

jeśli wariancja błędów jest liniowo powiązana z poziomem szeregu, przyjmuje się transformację logarytmiczną. Jeśli odchylenie standardowe jest liniowo powiązane z poziomem szeregu, przyjmuje się transformację pierwiastkową. Wybór nie ma nic wspólnego z rozmiarem reszt, ponieważ odnosi się do poziomu y, a wszystko dotyczy sprzężenia / rozprzężenia pierwszego i drugiego momentu.

— IrishStat

1

Freya, +1 za stenogram mentalny >> właściwe matematyki. Czy ta intuicja jest również powodem do używania wskaźników L.5 do klastrowania ?

— denis

Cześć Denis, obawiam się, że nie wiem nic o klastrowaniu.

— Freya Harrison

10

$\lambda = 0.5$

$y\sim N(X\beta, \sigma^2 I_n)$

Jednak ta stała wartość z góry może być (i prawdopodobnie nie jest) optymalna. W R możesz rozważyć funkcję z carbiblioteki, powerTransformktóra pomaga oszacować optymalną wartość transformacji Box-Coxa dla każdej ze zmiennych uczestniczących w regresji liniowej lub dowolnych danych, z którymi pracujesz (zobacz example(powerTransform)dalsze szczegóły).

— Dmitrij Celov
źródło

5

Gdy zmienna podąża za rozkładem Poissona, wyniki przekształcenia pierwiastka kwadratowego będą znacznie bliższe Gaussa.

— Harvey Motulsky
źródło

Czy możesz podać jakieś argumenty za tym roszczeniem?

— utdiscant

Naprawdę niewiele pomaga w indywidualnym rozkładzie z określoną wartością parametru, ale sprawia, że rodzina rozkładu uzyskana, gdy parametr się zmienia, jest bliższa normalnej rodzinie ze stałą zmiennością

— kjetil b halvorsen

Zobacz en.wikipedia.org/wiki/Anscombe_transform

— Tom Wenseleers

3

Często zaleca się stosowanie pierwiastka kwadratowego, aby zmienna nienormalna wyglądała jak zmienna normalna w problemach z regresją. Logarytm jest kolejną powszechną możliwą transformacją.

— ocram
źródło

0

Macierz odległości obliczona za pomocą Bray-Curtisa zwykle nie jest metryczna dla niektórych danych, co powoduje powstanie ujemnych wartości własnych. Jednym z rozwiązań tego problemu jest transformacja (logarytmiczna, pierwiastek kwadratowy lub podwójny pierwiastek kwadratowy).

— Ahmed Nur Osman
źródło