Statystyki i duże zbiory danych fitting

3

R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

6

Dopasuj sinusoidalny termin do danych

Chociaż czytam ten post, nadal nie mam pojęcia, jak zastosować to do moich danych i mam nadzieję, że ktoś może mi pomóc. Mam następujące dane: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, …

26 r regression fitting

1

Wykrywanie wartości odstających w danych zliczania

Mam coś, co naiwnie uważałem za dość prosty problem, który polega na wykrywaniu wartości odstających dla wielu różnych zestawów danych zliczania. W szczególności chcę ustalić, czy jedna lub więcej wartości w serii danych zliczania jest wyższa lub niższa niż oczekiwano w stosunku do reszty zliczeń w rozkładzie. Czynnikiem zakłócającym jest …

21 outliers count-data fitting

1

Kiedy dostępny jest analityczny jakobian, czy lepiej jest przybliżyć Hessian przez

Powiedzmy, że obliczam niektóre parametry modelu, minimalizując resztkowe sumy do kwadratu i zakładam, że moje błędy są gaussowskie. Mój model wytwarza analityczne pochodne, więc optymalizator nie musi używać różnic skończonych. Po zakończeniu dopasowania chcę obliczyć standardowe błędy dopasowanych parametrów. Zasadniczo w tej sytuacji przyjmuje się, że Hesja funkcji błędu jest …

19 standard-error fitting

1

MLE vs najmniejsze kwadraty w dopasowywanych rozkładach prawdopodobieństwa

Mam wrażenie, że na podstawie kilku artykułów, książek i artykułów, które przeczytałem, zalecanym sposobem dopasowania rozkładu prawdopodobieństwa na zbiorze danych jest oszacowanie maksymalnego prawdopodobieństwa (MLE). Jednak jako fizyk bardziej intuicyjny sposób polega na dopasowaniu pdf modelu do empirycznego pdf danych przy użyciu najmniejszych kwadratów. Dlaczego zatem MLE jest lepszy od …

18 distributions maximum-likelihood least-squares heteroscedasticity fitting

2

Różnica między analizą regresji a dopasowaniem krzywej

Czy ktoś może mi wyjaśnić prawdziwą różnicę między analizą regresji a dopasowaniem krzywej (liniową i nieliniową), podając przykład, jeśli to możliwe? Wydaje się, że obie próbują znaleźć związek między dwiema zmiennymi (zależne vs niezależne), a następnie określić parametr (lub współczynnik) związany z proponowanymi modelami. Na przykład, jeśli mam zestaw danych, …

17 regression multiple-regression fitting roc curve-fitting

3

Dopasowanie rozkładu t w R: parametr skalowania

Jak dopasować parametry rozkładu t, tj. Parametry odpowiadające „średniej” i „odchyleniu standardowemu” rozkładu normalnego. Zakładam, że są one nazywane „średnimi” i „skalowaniem / stopniami swobody” dla rozkładu t? Poniższy kod często powoduje błędy „nieudana optymalizacja”. library(MASS) fitdistr(x, "t") Czy najpierw muszę skalować x, czy przeliczać na prawdopodobieństwa? Jak najlepiej to …

17 r distributions maximum-likelihood fitting robust

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

5

Dlaczego regresja liniowa wykorzystuje funkcję kosztu opartą na pionowej odległości między hipotezą a wejściowym punktem danych?

Powiedzmy, że mamy wejściowe (predyktor) i wyjściowe (odpowiedź) punkty danych A, B, C, D, E i chcemy dopasować linię przez te punkty. Jest to prosty problem do zilustrowania pytania, ale można go również rozszerzyć na większe wymiary. Opis problemu Bieżące najlepsze dopasowanie lub hipoteza jest reprezentowane przez czarną linię powyżej. …

14 regression linear fitting cost-maximization

3

Jak mogę programowo wykryć segmenty serii danych, aby pasowały do różnych krzywych?

Czy istnieją udokumentowane algorytmy rozdzielające sekcje danego zestawu danych na różne krzywe najlepszego dopasowania? Na przykład większość ludzi patrząc na ten wykres danych z łatwością podzieliłby go na 3 części: odcinek sinusoidalny, odcinek liniowy i odwrotny odcinek wykładniczy. W rzeczywistości zrobiłem ten konkretny z sinusoidą, linią i prostą formułą wykładniczą. …

14 fitting curve-fitting segmentation

3

Czy mogę zastosować test Kołmogorowa-Smirnova i oszacować parametry dystrybucji?

Czytałem, że test Kołmogorowa-Smirnowa nie powinien być stosowany do testowania dobroci dopasowania rozkładu, którego parametry zostały oszacowane na podstawie próbki. Czy sensowne jest podzielenie mojej próbki na dwie części i wykorzystanie pierwszej połowy do oszacowania parametrów, a drugiej do testu KS? Z góry dziękuję

14 estimation fitting kolmogorov-smirnov

1

Jak zminimalizować resztkową sumę kwadratów dopasowania wykładniczego?

Mam następujące dane i chciałbym dopasować do niego model ujemnego wzrostu wykładniczego: Days <- c( 1,5,12,16,22,27,36,43) Emissions <- c( 936.76, 1458.68, 1787.23, 1840.04, 1928.97, 1963.63, 1965.37, 1985.71) plot(Days, Emissions) fit <- nls(Emissions ~ a* (1-exp(-b*Days)), start = list(a = 2000, b = 0.55)) curve((y = 1882 * (1 - exp(-0.5108*x))), …

14 r nonlinear-regression fitting nls

3

Jak dopasować splajn do danych zawierających wartości i 1. / 2. pochodną?

Mam zestaw danych, który zawiera, powiedzmy, kilka pomiarów pozycji, prędkości i przyspieszenia. Wszystkie pochodzą z tego samego „biegu”. Mógłbym zbudować układ liniowy i dopasować wielomian do wszystkich tych pomiarów. Ale czy mogę zrobić to samo z splajnami? W jaki sposób można to zrobić? Oto kilka symulowanych danych, które chciałbym dopasować: …

14 r model fitting splines derivative

1

Dlaczego średnia arytmetyczna jest mniejsza niż średnia rozkładu w rozkładzie logarytmiczno-normalnym?

Tak, mam losowy proces generowania log-normalnie rozprowadzane zmiennych losowych . Oto odpowiednia funkcja gęstości prawdopodobieństwa:XXX Chciałem oszacować rozkład kilku chwil pierwotnego rozkładu, powiedzmy pierwszy moment: średnią arytmetyczną. Aby to zrobić, narysowałem 100 losowych zmiennych 10000 razy, aby móc obliczyć 10000 oszacowania średniej arytmetycznej. Istnieją dwa różne sposoby oszacowania tego (przynajmniej …

13 estimation bias fitting lognormal moments

2

ARIMA vs ARMA w zróżnicowanej serii

W R (2.15.2) dopasowałem raz ARIMA (3,1,3) na szeregu czasowym i raz ARMA (3,3) na raz zróżnicowanym szeregu czasowym. Dopasowane parametry różnią się, co przypisałem metodzie dopasowania w ARIMA. Ponadto dopasowanie ARIMA (3,0,3) do tych samych danych co ARMA (3,3) nie da identycznych parametrów, bez względu na zastosowaną metodę dopasowania. …

13 r time-series arima fitting arma

Pytania otagowane jako fitting