Ponowne wyrażanie matematyczne, często nieliniowe, wartości danych. Dane są często przekształcane w celu spełnienia założeń modelu statystycznego lub w celu ułatwienia interpretacji wyników analizy.
Jeśli mam bardzo wypaczone pozytywne dane, często biorę dzienniki. Ale co mam zrobić z mocno wypaczonymi nieujemnymi danymi, które zawierają zera? Widziałem dwie zastosowane transformacje: log( x + 1 )log(x+1)\log(x+1) który ma ciekawą funkcję, która 0 odwzorowuje na 0. log( x + c )log(x+c)\log(x+c) gdzie c jest albo oszacowane, albo …
Mam ramkę danych R taką jak ta: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Potrzebuję uzyskać ramkę danych w następującej formie: group mean sd …
Powiedzmy, że mam pewne dane historyczne, np. Poprzednie ceny akcji, wahania cen biletów lotniczych, przeszłe dane finansowe firmy ... Teraz pojawia się ktoś (lub jakaś formuła) i mówi: „weźmy / wykorzystaj dziennik dystrybucji” i oto gdzie idę DLACZEGO ? Pytania: DLACZEGO przede wszystkim należy wziąć dziennik dystrybucji? CO dziennik dystrybucji …
Często zaleca się, aby wziąć pierwiastek kwadratowy, gdy zliczasz dane. (Aby zapoznać się z niektórymi przykładami CV, patrz odpowiedź @ Harveya Motulsky'ego tutaj lub odpowiedź @ whubera tutaj .) Z drugiej strony, podczas dopasowywania uogólnionego modelu liniowego ze zmienną odpowiedzi rozmieszczoną jako Poisson, log jest łącznikiem kanonicznym . Jest to …
Analizowałem moje dane takimi, jakie są. Teraz chcę spojrzeć na moje analizy po pobraniu dziennika wszystkich zmiennych. Wiele zmiennych zawiera wiele zer. Dlatego dodaję niewielką ilość, aby uniknąć przyjęcia logarytmu zerowego. Do tej pory dodałem 10 ^ -10, bez żadnego uzasadnienia, tylko dlatego, że czułem, że dodanie bardzo małej ilości …
Odpowiadając na to pytanie dotyczące danych dyskretnych i ciągłych , uprzejmie stwierdziłem, że rzadko ma sens traktowanie danych kategorycznych jako ciągłych. Na pierwszy rzut oka wydaje się to oczywiste, ale intuicja jest często kiepskim przewodnikiem statystycznym, a przynajmniej moim. Zastanawiam się teraz: czy to prawda? A może istnieją ustalone analizy, …
Czytałem, że używanie skal logów, gdy wykresy / wykresy są odpowiednie w pewnych okolicznościach, takich jak oś y na wykresie szeregów czasowych. Jednak nie byłem w stanie znaleźć ostatecznego wyjaśnienia, dlaczego tak jest, ani kiedy byłoby to właściwe. Proszę pamiętać, że nie jestem statystykiem, więc mogę zupełnie nie rozumieć tego …
Czy istnieje transformacja podobna do Box-Coxa dla zmiennych niezależnych? Czyli transformacja, która optymalizuje zmienną , aby lepiej pasowała do modelu liniowego?xxxy~f(x) Jeśli tak, to czy jest funkcja do wykonania tego R?
Istnieją dwa różne sposoby kodowania zmiennych jakościowych. Powiedzmy, że jedna zmienna kategorialna ma n wartości. Kodowanie na gorąco konwertuje go na n zmiennych, podczas gdy kodowanie zastępcze konwertuje go na zmienne n-1 . Jeśli mamy k zmiennych kategorialnych, z których każda ma n wartości. Jedno kodowanie na gorąco kończy się …
Czy jednocześnie przekształcam wszystkie moje dane lub foldery (jeśli zastosowano CV)? na przykład (allData - mean(allData)) / sd(allData) Czy osobno przekształcam skład zestawu i zestaw testowy? na przykład (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Czy też przekształcam skład zestawu i korzystam z obliczeń na zestawie testów? …
Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …
Jaka jest różnica między „normalizacją” danych a „skalowaniem” danych? Do tej pory myślałem, że oba terminy odnoszą się do tego samego procesu, ale teraz zdaję sobie sprawę, że jest coś więcej, czego nie wiem / nie rozumiem. Także jeśli istnieje różnica między normalizacją a skalowaniem, kiedy powinniśmy używać normalizacji, ale …
Czy podczas transformowania zmiennych musisz używać tej samej transformacji? Na przykład mogę wybrać i wybrać zmienne transformowane, jak w: Niech będzie wiekiem, długością zatrudnienia, długością pobytu i dochodem.x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) A może musisz być spójny ze swoimi transformacjami i używać tego samego? Jak w: Y …
Mam dane z 3 grup biomasy alg ( , , ), które zawierają nierówne wielkości próbek ( n_A = 15 , n_B = 13 , n_C = 12 ) i chciałbym porównać, czy te grupy pochodzą z tej samej populacji.B C n A = 15 n B = 13 n …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.