Statystyki i duże zbiory danych data-transformation

12

Jak przekształcić dane nieujemne, w tym zera?

Jeśli mam bardzo wypaczone pozytywne dane, często biorę dzienniki. Ale co mam zrobić z mocno wypaczonymi nieujemnymi danymi, które zawierają zera? Widziałem dwie zastosowane transformacje: log( x + 1 )log⁡(x+1)\log(x+1) który ma ciekawą funkcję, która 0 odwzorowuje na 0. log( x + c )log⁡(x+c)\log(x+c) gdzie c jest albo oszacowane, albo …

191 data-transformation large-data

9

Jak podsumować dane według grupy w R? [Zamknięte]

Mam ramkę danych R taką jak ta: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Potrzebuję uzyskać ramkę danych w następującej formie: group mean sd …

181 r data-transformation

2

Kiedy (i dlaczego) należy wziąć dziennik rozkładu (liczb)?

Powiedzmy, że mam pewne dane historyczne, np. Poprzednie ceny akcji, wahania cen biletów lotniczych, przeszłe dane finansowe firmy ... Teraz pojawia się ktoś (lub jakaś formuła) i mówi: „weźmy / wykorzystaj dziennik dystrybucji” i oto gdzie idę DLACZEGO ? Pytania: DLACZEGO przede wszystkim należy wziąć dziennik dystrybucji? CO dziennik dystrybucji …

173 distributions data-transformation logarithm

8

Kiedy w regresji liniowej należy zastosować log zmiennej niezależnej zamiast wartości rzeczywistych?

Czy szukam lepszego zachowania dla danej zmiennej niezależnej, czy też ograniczenia efektu wartości odstających, czy czegoś innego?

164 regression distributions data-transformation logarithm regression-strategies

1

Dlaczego transformacja pierwiastka kwadratowego jest zalecana dla danych zliczania?

Często zaleca się, aby wziąć pierwiastek kwadratowy, gdy zliczasz dane. (Aby zapoznać się z niektórymi przykładami CV, patrz odpowiedź @ Harveya Motulsky'ego tutaj lub odpowiedź @ whubera tutaj .) Z drugiej strony, podczas dopasowywania uogólnionego modelu liniowego ze zmienną odpowiedzi rozmieszczoną jako Poisson, log jest łącznikiem kanonicznym . Jest to …

57 generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing

5

Jak niewielka ilość powinna być dodana do x, aby uniknąć przyjęcia logarytmu zerowego?

Analizowałem moje dane takimi, jakie są. Teraz chcę spojrzeć na moje analizy po pobraniu dziennika wszystkich zmiennych. Wiele zmiennych zawiera wiele zer. Dlatego dodaję niewielką ilość, aby uniknąć przyjęcia logarytmu zerowego. Do tej pory dodałem 10 ^ -10, bez żadnego uzasadnienia, tylko dlatego, że czułem, że dodanie bardzo małej ilości …

57 data-transformation chemometrics

8

Czy kiedykolwiek ma sens traktowanie danych kategorycznych jako ciągłych?

Odpowiadając na to pytanie dotyczące danych dyskretnych i ciągłych , uprzejmie stwierdziłem, że rzadko ma sens traktowanie danych kategorycznych jako ciągłych. Na pierwszy rzut oka wydaje się to oczywiste, ale intuicja jest często kiepskim przewodnikiem statystycznym, a przynajmniej moim. Zastanawiam się teraz: czy to prawda? A może istnieją ustalone analizy, …

57 categorical-data data-transformation ordinal-data continuous-data

3

Kiedy odpowiednie są skale dziennika?

Czytałem, że używanie skal logów, gdy wykresy / wykresy są odpowiednie w pewnych okolicznościach, takich jak oś y na wykresie szeregów czasowych. Jednak nie byłem w stanie znaleźć ostatecznego wyjaśnienia, dlaczego tak jest, ani kiedy byłoby to właściwe. Proszę pamiętać, że nie jestem statystykiem, więc mogę zupełnie nie rozumieć tego …

57 data-visualization data-transformation

3

Transformacja Box-Coxa dla zmiennych niezależnych?

Czy istnieje transformacja podobna do Box-Coxa dla zmiennych niezależnych? Czyli transformacja, która optymalizuje zmienną , aby lepiej pasowała do modelu liniowego?xxxy~f(x) Jeśli tak, to czy jest funkcja do wykonania tego R?

53 r regression data-transformation normality-assumption

1

Kodowanie typu hot-man vs dummy w Scikit-learn

Istnieją dwa różne sposoby kodowania zmiennych jakościowych. Powiedzmy, że jedna zmienna kategorialna ma n wartości. Kodowanie na gorąco konwertuje go na n zmiennych, podczas gdy kodowanie zastępcze konwertuje go na zmienne n-1 . Jeśli mamy k zmiennych kategorialnych, z których każda ma n wartości. Jedno kodowanie na gorąco kończy się …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

1

Jak zastosować normalizację / normalizację do zestawu szkoleniowego i testowego, jeśli celem jest przewidywanie?

Czy jednocześnie przekształcam wszystkie moje dane lub foldery (jeśli zastosowano CV)? na przykład (allData - mean(allData)) / sd(allData) Czy osobno przekształcam skład zestawu i zestaw testowy? na przykład (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Czy też przekształcam skład zestawu i korzystam z obliczeń na zestawie testów? …

47 r cross-validation data-transformation normalization standardization

3

Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie

Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

4

Normalizacja a skalowanie

Jaka jest różnica między „normalizacją” danych a „skalowaniem” danych? Do tej pory myślałem, że oba terminy odnoszą się do tego samego procesu, ale teraz zdaję sobie sprawę, że jest coś więcej, czego nie wiem / nie rozumiem. Także jeśli istnieje różnica między normalizacją a skalowaniem, kiedy powinniśmy używać normalizacji, ale …

45 data-transformation scales normality-assumption normalization

1

Regresja: przekształcanie zmiennych

Czy podczas transformowania zmiennych musisz używać tej samej transformacji? Na przykład mogę wybrać i wybrać zmienne transformowane, jak w: Niech będzie wiekiem, długością zatrudnienia, długością pobytu i dochodem.x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) A może musisz być spójny ze swoimi transformacjami i używać tego samego? Jak w: Y …

41 r regression logistic data-transformation

1

Alternatywy dla jednokierunkowej ANOVA dla danych heteroskedastycznych

Mam dane z 3 grup biomasy alg ( , , ), które zawierają nierówne wielkości próbek ( n_A = 15 , n_B = 13 , n_C = 12 ) i chciałbym porównać, czy te grupy pochodzą z tej samej populacji.B C n A = 15 n B = 13 n …

36 r anova data-transformation heteroscedasticity

Pytania otagowane jako data-transformation