Statystyki i duże zbiory danych r

4

Korzystam z pakietu imprezowego w R z 10 000 wierszy i 34 funkcjami, a niektóre funkcje czynnikowe mają ponad 300 poziomów. Czas przetwarzania jest za długi. (Jak dotąd zajęło to 3 godziny i jeszcze się nie skończyło.) Chcę wiedzieć, które elementy mają duży wpływ na czas obliczeń losowego lasu. Czy …

49 r random-forest

5

Jaka jest różnica między NaN a NA?

Chciałbym wiedzieć, dlaczego niektóre języki, takie jak R, mają zarówno NA, jak i NaN. Jakie są różnice, czy są jednakowo takie same? Czy naprawdę trzeba mieć NA?

48 r

7

Od czego zacząć od statystyk dla doświadczonego programisty

W pierwszej połowie 2015 r. Ukończyłem kurs Machine Learning (autor: Andrew Ng, WIELKI kurs). I nauczył się podstaw uczenia maszynowego (regresja liniowa, regresja logistyczna, SVM, sieci neuronowe ...) Jestem również programistą od 10 lat, więc nauka nowego języka programowania nie byłaby problemem. Ostatnio zacząłem uczyć się języka R w celu …

47 r regression machine-learning references

1

Jak zastosować normalizację / normalizację do zestawu szkoleniowego i testowego, jeśli celem jest przewidywanie?

Czy jednocześnie przekształcam wszystkie moje dane lub foldery (jeśli zastosowano CV)? na przykład (allData - mean(allData)) / sd(allData) Czy osobno przekształcam skład zestawu i zestaw testowy? na przykład (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Czy też przekształcam skład zestawu i korzystam z obliczeń na zestawie testów? …

47 r cross-validation data-transformation normalization standardization

5

R - QQPlot: jak sprawdzić, czy dane są zwykle dystrybuowane

Zrobiłem to po wykonaniu testu normalności Shapiro-Wilka. Test wykazał, że populacja jest zwykle podzielona. Jak jednak zobaczyć to „zachowanie” na tej fabule? AKTUALIZACJA Prosty histogram danych: AKTUALIZACJA Test Shapiro-Wilka mówi:

47 r data-visualization normal-distribution histogram qq-plot

4

Jak dokonać wyboru podzbioru regresji logistycznej?

Dopasowuję dwumianową rodzinę glm w R i mam całą grupę zmiennych objaśniających i muszę znaleźć najlepsze (R-kwadrat jako miara jest w porządku). Krótko po napisaniu skryptu do przechodzenia między losowymi różnymi kombinacjami zmiennych objaśniających, a następnie nagraniu, które działa najlepiej, naprawdę nie wiem, co robić. Wydaje się, że leapsfunkcja przeskakiwania …

47 r logistic

5

Pierwszy kod źródłowy pakietów R do nauki w ramach przygotowań do napisania własnego pakietu

Planuję zacząć pisać paczki R. Pomyślałem, że dobrze byłoby przestudiować kod źródłowy istniejących pakietów, aby poznać konwencje budowy pakietów. Moje kryteria dobrych pakietów do nauki: Proste pomysły statystyczne / techniczne : Chodzi o poznanie mechaniki konstrukcji opakowań. Zrozumienie pakietu nie powinno wymagać szczegółowej wiedzy ściśle związanej z domeną na temat …

47 r

3

Czy możliwe jest grupowanie szeregów czasowych na podstawie kształtu krzywej?

Mam dane dotyczące sprzedaży dla szeregu punktów sprzedaży i chcę je kategoryzować na podstawie kształtu ich krzywych w czasie. Dane wyglądają mniej więcej tak (ale oczywiście nie są losowe i brakuje niektórych danych): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, …

47 r time-series clustering

5

Jak obliczyć pseudo

Opis Christophera Manninga dotyczący regresji logistycznej w R pokazuje regresję logistyczną w R w następujący sposób: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Niektóre dane wyjściowe: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q …

46 r logistic log-likelihood

3

Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie

Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

2

Jak symulować sztuczne dane dla regresji logistycznej?

Wiem, że brakuje mi czegoś w rozumieniu regresji logistycznej i naprawdę doceniłbym każdą pomoc. O ile rozumiem, regresja logistyczna zakłada, że prawdopodobieństwo wyniku „1” przy danych wejściowych jest liniową kombinacją danych wejściowych, przechodzącą przez funkcję odwrotnej logistyki. Jest to zilustrowane w następującym kodzie R: #create data: x1 = rnorm(1000) # …

45 r regression logistic generalized-linear-model simulation

5

Korzystanie z R online - bez instalacji [zamknięty]

Czy istnieje możliwość użycia R w interfejsie internetowym bez konieczności jego instalowania? Mam tylko jeden mały skrypt, który lubię uruchamiać, ale chcę go wypróbować bez długiej procedury instalacyjnej. Dziękuję Ci.

45 r

3

Co to jest Deviance? (szczególnie w CART / rpart)

Co to jest „dewiacja”, jak jest obliczana i jakie jest jej zastosowanie w różnych dziedzinach statystyki? W szczególności jestem osobiście zainteresowany jego zastosowaniami w CART (i jego implementacją w rpart w R). Pytam o to, ponieważ artykuł na wiki wydaje się nieco brakuje, a twoje spostrzeżenia będą mile widziane.

45 r cart rpart deviance

3

Czy jest jakaś różnica między lm a glm dla gaussowskiej rodziny glm?

W szczególności chcę wiedzieć, czy istnieje różnica między lm(y ~ x1 + x2)i glm(y ~ x1 + x2, family=gaussian). Myślę, że ten konkretny przypadek glm jest równy lm. Czy się mylę?

45 r normal-distribution generalized-linear-model lm

1

Jak interpretować ANOVA typu I, typu II i typu III i MANOVA?

Moje podstawowe pytanie brzmi: jak interpretować wynik (współczynniki, F, P) podczas przeprowadzania ANOVA typu I (sekwencyjnego)? Mój konkretny problem badawczy jest nieco bardziej złożony, dlatego podzielę mój przykład na części. Po pierwsze, jeśli interesuje mnie wpływ gęstości pająków (X1) na powiedzmy wzrost roślin (Y1) i sadziłem sadzonki w zagrodach i …

45 r hypothesis-testing anova manova sums-of-squares

Pytania otagowane jako r