Przekształcanie danych: wszystkie zmienne czy tylko niestandardowe?

W odkrywaniu statystyk Andy Fielda za pomocą SPSS stwierdza, że wszystkie zmienne muszą zostać przekształcone.

Jednak w publikacji: „Badanie zróżnicowanych przestrzennie zależności między użytkowaniem gruntów a jakością wody przy użyciu regresji ważonej geograficznie I: Projektowanie i ocena modelu” wyraźnie stwierdzają, że transformowane były tylko zmienne niestandardowe.

Czy ta analiza jest specyficzna? Na przykład, w porównaniu średnich, porównywanie logów z surowymi danymi przyniosłoby oczywiście znaczącą różnicę, podczas gdy przy użyciu czegoś takiego jak regresja do badania związku między zmiennymi staje się mniej ważne.

Edycja: Oto strona z pełnym tekstem w sekcji „Transformacja danych”:

A tutaj jest link do artykułu: http://www.sciencedirect.com/science/article/pii/S0048969708009121

normal-distribution data-transformation

— I Heart Beats
źródło

Na podstawie opublikowanego nowego obrazu autor wydaje się mylić „zmienną” z „obserwacją”. Na górze p. 154 słusznie podkreśla, że kiedy transformujesz zmienną, musisz transformować wszystkie jej wartości (obserwacje) w ten sam sposób, bo inaczej niemożliwe staje się porównanie. (Twierdzenie, że „nie zmieni relacji między zmiennymi” wymaga jednak wyjątkowo hojnej interpretacji, aby było poprawne.) Dół p. 154 jest tak wyraźnie błędne zdanie po zdaniu (nawet w przypisach), że nawet nie warto poświęcać czasu na wyliczenie wszystkich problemów z tym związanych.

— whuber

Odpowiedzi:

Cytujesz kilka rad, z których wszystkie bez wątpienia są pomocne, ale trudno znaleźć w nich jakąś wartość.

W każdym przypadku polegam całkowicie na tym, co cytujesz jako podsumowanie. W obronie autorów chciałbym wierzyć, że dodają odpowiednie kwalifikacje w otoczeniu lub innym materiale. (Pełne odniesienia bibliograficzne w zwykłych nazwiskach, dacie, tytule (wydawcy, miejscu) lub (tytule czasopisma, tomie, stronach) poprawiłyby pytanie.)

Pole

Ta rada jest przydatna, ale w najlepszym wypadku jest bardzo uproszczona. Wydaje się, że rady Fielda były ogólnie zamierzone; na przykład odniesienie do testu Levene'a oznacza tymczasowe skupienie się na analizie wariancji.

$(1,0)$

Mówiąc bardziej ogólnie, w wielu dziedzinach jest to zwykła sytuacja, że niektóre predyktory powinny zostać przekształcone, a pozostałe pozostawione bez zmian.

Prawdą jest, że napotkanie w pracy lub rozprawie mieszanki transformacji zastosowanych w różny sposób w różnych predyktorach (w tym jako szczególny przypadek, transformacja tożsamości lub pozostawienie takiej, jaka jest) jest często kwestią niepokojącą czytelnika. Czy ta mieszanka to dobrze przemyślany zestaw wyborów, czy też była arbitralna i kapryśna?

Ponadto w serii badań spójność podejścia (zawsze stosowanie logarytmów do odpowiedzi lub nigdy jej nie robienie) bardzo pomaga w porównywaniu wyników, a odmienne podejście utrudnia.

Ale to nie znaczy, że nigdy nie byłoby powodów do mieszanki transformacji.

Nie widzę, aby większość cytowanej przez ciebie sekcji miała duży wpływ na kluczowe porady, które wyróżniasz na żółto. To samo w sobie jest powodem do niepokoju: dziwnym biznesem jest ogłaszanie bezwzględnej zasady, a następnie nie wyjaśnianie jej. I przeciwnie, nakaz „Pamiętaj” sugeruje, że uzasadnienia Fielda zostały dostarczone wcześniej w książce.

Anonimowy papier

Kontekstem są tutaj modele regresji. Jak często mówienie o OLS dziwnie kładzie nacisk na metodę szacowania, a nie model, ale możemy zrozumieć, co jest zamierzone. GWR I interpretuje się jako regresję ważoną geograficznie.

Argument polega na tym, że powinieneś przekształcić nietypowe predyktory i pozostawić pozostałe bez zmian. Ponownie rodzi się pytanie o to, co można i należy zrobić ze zmiennymi wskaźnikowymi, których normalnie nie można rozłożyć (na które jak wyżej można odpowiedzieć, wskazując, że nienormalność w tym przypadku nie stanowi problemu). Ale nakaz ma to odwrotnie, sugerując, że problemem jest nienormalność predyktorów. Skąd; modelowanie regresji nie jest częścią zakładania czegokolwiek o krańcowych rozkładach predyktorów.

$X\beta$

Na tym forum jest tak wiele dobrych rad dotyczących transformacji, że skupiłem się na omawianiu tego, co cytujesz.

PS Dodajesz zdanie zaczynające się od „Na przykład, dla porównania średnich, porównanie dzienników z surowymi danymi oczywiście dałoby znaczącą różnicę”. Nie jestem pewien, co masz na myśli, ale porównywanie wartości dla jednej grupy z logarytmami wartości dla innej grupy byłoby po prostu nonsensowne. W ogóle nie rozumiem reszty twojego oświadczenia.

— Nick Cox
źródło

Nick, chciałem szybko i zwięźle przedstawić swój punkt widzenia, co mam wrażenie. W świecie Google podałem wystarczającą ilość informacji, aby w razie potrzeby móc łatwo uzyskać dostęp do oryginalnych dokumentów. Dziękuję za udzielenie odpowiedzi, choć w sposób okrągły, dostarczyłeś mi dokładnie tych informacji, których szukałem: Konieczność transformacji wszystkich zmiennych, jak sugeruje Field, w jego sekcji transformacji danych jest niewłaściwym podejściem do transformacji danych.

— I Heart Beats

+1. Dziwię się, jak taktownie udało ci się odnieść do materiałów, które są całkowicie błędne. Przeglądanie stron tu i tam w książce SPSS zapewnia wgląd w niektóre z naprawdę zagmatwanych pytań, które otrzymujemy na tej stronie: Myślę, że muszą one pochodzić od czytelników tej książki. Jest pełen błędów, dezinformacji i jawnej konfabulacji.

— whuber

@I Heart Beats Pleased znalazłeś odpowiedź pomocną, ale moja prośba o właściwe odniesienie stoi. Równie dobrze możesz powiedzieć, że niekompletne referencje są zawsze możliwe do obrony, ponieważ zainteresowani ludzie zawsze mogą Google. Przeciwnie, dobrym stypendium i naukom pomaga dobra praktyka bibliograficzna, podawanie pełnych szczegółów i nie zmuszanie (wielu) czytelników do niepotrzebnej pracy.

— Nick Cox

@Nick zobacz zmiany w moim pytaniu. Wierzę, że ten artykuł jest open source i dodałem pełną stronę tekstu dla kontekstu.

— I Heart Beats

Dzięki za ulepszenie referencji. Cytujesz więcej z Field. Widoczna jest dodatkowa sekcja, w tym stwierdzenie, że „przekształcenie danych nie zmieni relacji między zmiennymi”. Albo to opiera się na idiosynkratycznym znaczeniu „związku”, albo (co bardziej prawdopodobne, obawiam się) jest nieprzydatne, a nawet całkiem błędne. Żałuję (w pewnym sensie), że zgadzam się z @whuber w sprawie omawianej książki na temat dowodów przed nami . (Aktualizacja: Whuber robił zasadniczo ten sam punkt jednocześnie: patrz jego komentarz do pytania.)

— Nick Cox

Po pierwsze, oba cytaty są mylące, ponieważ żadna transformacja zastosowana do danych przeznaczonych do zastosowania w modelu regresji nie jest wykonywana, aby zmienne pliki PDF były bardziej normalnie dystrybuowane, ma to na celu uczynienie reszt modelu bardziej symetrycznymi, ponieważ jednym założeniem w regresji klasycznej jest że błędy są gaussowskie. Oznacza to głębszy poziom rygorystyczności i surowości niż jedynie symetryczność pliku PDF.

Co więcej, oba cytaty są słabe, ponieważ nikt nie zagłębia się w motywy ich recept (przynajmniej w oparciu o dostarczone informacje). Tak się składa, że nie zgadzam się z obiema.

W wyróżnionym przez ciebie fragmencie książka SPSS twierdzi, że mieszanie transformacji (np. Log naturalny dla jednej zmiennej, pierwiastek sq dla innej) jest niedozwolone. Dlaczego to jest nielegalne? Mieszanki transformacji nie naruszają założeń regresji, o których jestem świadomy. Sprawdź wszelkie teksty regresji dotyczące założeń regresji, aby potwierdzić, że tak jest. Mieszaniny transformacyjne mogą stanowić istotny problem opisowy pod względem ich interpretacji, ale nie jest to kwestia tego, czy mieszaniny są nielegalne. Facet SPSS się myli.

Jeśli chodzi o drugi tekst, znowu transformacje są całkowicie kwestią wyboru analityka - niezależnie od tego, czy się je robi, transformuje wszystkie dane wejściowe lub niektóre zmienne, a nie inne. Nic z tego nie narusza żadnych założeń.

Tam, gdzie myślę, że drugi cytat zejdzie z torów, jest stwierdzenie, że „... aby uniknąć potencjalnej wielokoliniowości ... tylko jeden wskaźnik użytkowania gruntów (został użyty) ...” Jest to rażąco zła rada i brzmi jak coś, co niektórzy analitycy zrobią jako technikę redukcji wymiarów, w której przeanalizują kilka zmiennych i wybiorą najwyższą zmienną obciążenia dla każdego czynnika. Ta heurystyka istnieje od lat i nie jest to ani ta, której używam, ani polecam. Znowu jest to kwestia preferencji i szkolenia analityków. Ale ten punkt nie ma na celu udzielenia odpowiedzi na konkretne pytania.

Na koniec dnia oba cytaty są twierdzeniem o opiniach autorów przy braku jakichkolwiek dowodów potwierdzających, na podstawie dostarczonych informacji.

— Mike Hunter
źródło

Podajemy zasadniczo podobne punkty, ale chcę dodać, że dobre teksty wyjaśniają, że błędy Gaussa są najmniej ważnym założeniem w modelowaniu regresji i nie są potrzebne do wielu celów.

— Nick Cox

Dobry tekst: stat.columbia.edu/~gelman/arm :)

— Matthew Drury