Statystyki i duże zbiory danych error

1

Jestem stosunkowo nowy w statystyce i byłbym wdzięczny za pomoc w lepszym zrozumieniu tego. W mojej dziedzinie znajduje się powszechnie stosowany model formularza: P.t= Po( Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha Kiedy ludzie dopasowują model do danych, zwykle linearyzują go i dopasowują do poniższych log( Pt) = log( Po) + dziennik α( Vt) …

13 modeling model error curve-fitting measurement-error

5

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Nazwa średniego błędu bezwzględnego analogicznego do wyniku Briera?

Wczorajsze pytanie Określ dokładność modelu, który szacuje prawdopodobieństwo zdarzenia, zainteresowało mnie do oceny prawdopodobieństwa. Wynik Briera jest średnią kwadratową miarą błędu. Czy analogiczna średnia miara błędu bezwzględnego masz też imię?1N.∑i = 1N.( p r e di c t i O Nja- r e fe r e n c eja)2)1N.∑ja=1N.(prmirejadotjaonja-rmifamirmindomija)2)\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i …

12 classification error validation scoring-rules brier-score

4

Bootstrap vs Monte Carlo, oszacowanie błędu

Czytam artykuł Propagacja błędów metodą Monte Carlo w obliczeniach geochemicznych, Anderson (1976) i jest coś, czego nie do końca rozumiem. Rozważmy niektóre zmierzone dane oraz program, który je przetwarza i zwraca określoną wartość. W artykule program ten służy najpierw do uzyskania najlepszej wartości za pomocą danych (tj .: ).{ A …

12 bootstrap monte-carlo error

3

Macierz wariancji-kowariancji błędów w regresji liniowej

Jak w praktyce obliczana jest macierz błędów var / cov za pomocą pakietów analizy statystycznej? Ten pomysł jest dla mnie jasny w teorii. Ale nie w praktyce. Mam na myśli, że jeśli mam wektor zmiennych losowych , rozumiem, że macierz wariancji / kowariancji Σ otrzyma zewnętrzny iloczyn odchylenia od-od- średnie …

12 variance error covariance-matrix beta-regression

3

Liczba cyfr znaczących do zgłoszenia

Czy istnieje bardziej naukowy sposób określania liczby cyfr znaczących, które należy zgłosić dla średniej lub przedziału ufności w sytuacji, która jest dość standardowa - np. Klasa pierwszego roku na studiach. Widziałem liczbę znaczących cyfr do umieszczenia w tabeli , dlaczego nie używamy znaczących cyfr i liczbę znaczących cyfr w dopasowaniu …

12 standard-deviation error reporting communication

2

Czy współczynnik błędów jest funkcją wypukłą parametru regulowania lambda?

Wybierając parametr regulowania lambda w Ridge lub Lasso, zalecaną metodą jest wypróbowanie różnych wartości lambda, zmierzenie błędu w zbiorze walidacyjnym i wybranie wartości lambda, która zwraca najmniejszy błąd. Nie jest dla mnie kłamstwem, jeśli funkcja f (lambda) = error jest wypukła. Czy może tak być? To znaczy, że ta krzywa …

11 cross-validation error regularization validation optimization

3

Niezawodność dopasowanej krzywej?

Chciałbym oszacować niepewność lub wiarygodność dopasowanej krzywej. Celowo nie wymieniam dokładnej wielkości matematycznej, której szukam, ponieważ nie wiem, co to jest. Tutaj (energia) jest zmienną zależną (odpowiedź), a (objętość) jest zmienną niezależną. Chciałbym znaleźć krzywą energia-objętość, , jakiegoś materiału. Wykonałem więc obliczenia za pomocą komputerowego programu chemii kwantowej, aby uzyskać …

11 error fitting reliability uncertainty

1

R neuralnet - compute daje stałą odpowiedź

Próbuję użyć neuralnetpakietu R ( tutaj dokumentacji ) do przewidywania. Oto, co próbuję zrobić: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net …

11 r neural-networks prediction error

3

Jak znaleźć odchylenie standardowe próbki odchylenie standardowe od rozkładu normalnego?

Wybacz mi, że coś przeoczyłem. Jestem fizykiem z rozkładem (histogramem) skupionym wokół średniej wartości zbliżonej do rozkładu normalnego. Ważną dla mnie wartością jest odchylenie standardowe tej losowej zmiennej Gaussa. Jak miałbym spróbować znaleźć błąd w odchyleniu standardowym próbki? Mam wrażenie, że ma to związek z błędem na każdym bin w …

11 normal-distribution standard-deviation error measurement-error

4

Jak konceptualizować błąd w modelu regresji?

Uczęszczam na klasę analizy danych i niektóre z moich głęboko zakorzenionych pomysłów są wstrząśnięte. Mianowicie idea, że błąd (epsilon), a także jakakolwiek inna wariancja, odnosi się tylko (tak myślałem) do grupy (próbki lub całej populacji). Teraz uczymy się, że jednym z założeń regresji jest to, że wariancja jest „taka sama …

11 regression variance error measurement-error

1

Błąd podczas zgłaszania z medianą i reprezentacjami graficznymi?

Użyłem szerokiej gamy testów dla danych mojej pracy magisterskiej, od parametrycznych ANOVA i testów t do nieparametrycznych testów Kruskala-Wallisa i Manna-Whitneysa, a także transformowanych rangą 2-drogowych ANOVA i GzLM z danymi binarnymi, dane Poissona i proporcjonalne. Teraz muszę wszystko zgłosić, pisząc to wszystko w moich wynikach. Zapytałem już tutaj, jak …

11 data-visualization median error

4

Dlaczego metody regresji metodą najmniejszych kwadratów i największej wiarygodności nie są równoważne, gdy błędy nie są zwykle rozkładane?

Tytuł mówi wszystko. Rozumiem, że najmniejsze kwadraty i maksymalne prawdopodobieństwo dadzą taki sam wynik dla współczynników regresji, jeśli błędy modelu są zwykle rozkładane. Ale co się stanie, jeśli błędy nie są zwykle dystrybuowane? Dlaczego te dwie metody nie są już równoważne?

10 regression normal-distribution maximum-likelihood least-squares error

2

Różnica między uśrednieniem danych a dopasowaniem i dopasowaniem danych a następnie uśrednieniem

Jeśli istnieje, między dopasowaniem linii do wielu oddzielnych „eksperymentów”, a następnie uśrednieniem pasowań lub uśrednieniem danych z oddzielnych eksperymentów, a następnie dopasowaniem uśrednionych danych. Pozwól mi rozwinąć: Wykonuję symulacje komputerowe, które generują krzywą, pokazaną poniżej. Wydobywamy ilość, nazwijmy ją „A”, dopasowując region liniowy wykresu (długi czas). Wartość jest po prostu …

10 error fitting average

1

Czy błędy przetwarzania danych są już „wycenione” w analizie statystycznej?

Ok, uczciwe ostrzeżenie - to filozoficzne pytanie, które nie zawiera liczb. Dużo zastanawiałem się nad tym, jak błędy wkradają się do zestawów danych w czasie i jak analitycy powinni to potraktować - czy może to naprawdę ma znaczenie? Na przykład robię analizę długoterminowego badania, które obejmuje wiele zbiorów danych zebranych …

10 dataset error

Pytania otagowane jako error