Statystyki i duże zbiory danych outliers

5

Jak poprawić wykryte wartości odstające dla prognozowania danych szeregów czasowych?

Próbuję znaleźć sposób korygowania wartości odstających, gdy tylko znajdę je / wykryję w danych szeregów czasowych. Niektóre metody, takie jak nnetar w R, dają pewne błędy dla szeregów czasowych z dużymi / dużymi wartościami odstającymi. Udało mi się już poprawić brakujące wartości, ale wartości odstające wciąż niszczą moje prognozy ...

10 time-series forecasting outliers winsorizing

2

Wykrywanie anomalii: jakiego algorytmu użyć?

Kontekst: Opracowuję system analizujący dane kliniczne w celu odfiltrowania nieprawdopodobnych danych, które mogą być literówkami. Co do tej pory zrobiłem: Aby oszacować wiarygodność, do tej pory próbowałem znormalizować dane, a następnie obliczyć wartość wiarygodności dla punktu p na podstawie jego odległości do znanych punktów danych w zestawie D (= zestaw …

10 machine-learning multivariate-analysis feature-selection algorithms outliers

1

Jak włączyć innowacyjną wartość odstającą przy obserwacji 48 w moim modelu ARIMA?

Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1). Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych. Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

1

Histogram z pojemnikami jednolitymi vs niejednorodnymi

To pytanie opisuje podstawową różnicę między histogramem jednolitym i niejednorodnym. I to pytanie omawia ogólną zasadę wybierania liczby pojemników jednolitego histogramu, który optymalizuje (w pewnym sensie) stopień, w jakim histogram reprezentuje rozkład, z którego zostały pobrane próbki danych. Nie mogę znaleźć takiego samego rodzaju „optymalności” dyskusji na temat histogramów jednolitych …

10 nonparametric outliers histogram rule-of-thumb

2

Wpływowa wartość rezydualna vs. wartość odstająca

Po pierwsze, powinienem stwierdzić, że szukałem odpowiedzi na tej stronie. Albo nie znalazłem pytania, które odpowiedziałoby na moje pytanie, albo mój poziom wiedzy jest tak niski, że nie zdawałem sobie sprawy, że już przeczytałem odpowiedź. Studiuję do egzaminu AP Statistics. Muszę nauczyć się regresji liniowej, a jednym z tematów są …

10 regression outliers residuals

4

Wykrywanie wartości odstających online

Chcę przetwarzać automatycznie segmentowane obrazy mikroskopowe w celu wykrycia wadliwych obrazów i / lub wadliwych segmentacji w ramach wysokowydajnego potoku obrazowania. Istnieje wiele parametrów, które można obliczyć dla każdego surowego obrazu i segmentacji, i które stają się „ekstremalne”, gdy obraz jest wadliwy. Na przykład bąbelek na obrazie spowoduje anomalie, takie …

10 outliers online

1

Różnica między wartością zewnętrzną a wartością początkową

Natknąłem się na pojęcie inlier w metodzie LOF (Local Outlier Factor), znam pojęcie wartości odstających (cóż w zasadzie lier - instancje, które nie zachowują się jak reszta instancji). Co oznaczają „Inliers” w kontekście wykrywania anomalii? i jak to się ma do (innych niż) wartości odstających?

10 residuals outliers anomaly-detection

2

Jak interpretować i wykonywać prognozowanie za pomocą pakietu tsoutliers i auto.arima

Mam dane miesięczne od 1993 do 2015 roku i chciałbym przeprowadzić prognozę tych danych. Użyłem pakietu tsoutliers do wykrycia wartości odstających, ale nie wiem, jak dalej prognozować z moim zestawem danych. To jest mój kod: product.outlier<-tso(product,types=c("AO","LS","TC")) plot(product.outlier) To jest mój wynik z pakietu tsoutliers ARIMA(0,1,0)(0,0,1)[12] Coefficients: sma1 LS46 LS51 LS61 …

9 r time-series forecasting arima outliers

2

Testy historyczne lub weryfikacja krzyżowa, gdy proces budowania modelu był interaktywny

Mam kilka modeli predykcyjnych, których wydajność chciałbym przetestować ponownie (tj. Zabrać mój zestaw danych, „przewinąć” go do poprzedniego momentu i zobaczyć, jak ten model działałby prospektywnie). Problem polega na tym, że niektóre z moich modeli zostały zbudowane w procesie interaktywnym. Na przykład, zgodnie z zaleceniami Strategii modelowania regresji Franka Harrella …

9 cross-validation modeling outliers splines overfitting

2

Skrócona średnia vs. mediana

Mam zestaw danych ze wszystkimi połączeniami z pogotowiem i czasem reakcji oddziału pogotowia ratunkowego. Przyznali, że są pewne błędy w czasach odpowiedzi, ponieważ są przypadki, w których nie rozpoczęli nagrywania (więc wartość wynosi 0) lub gdzie nie zatrzymali zegara (więc wartość może być bardzo wysoka). Chcę dowiedzieć się, jaka jest …

9 mean outliers median trimmed-mean

6

Jak przygotować / zbudować funkcje do wykrywania anomalii (dane bezpieczeństwa sieci)

Moim celem jest analiza dzienników sieciowych (np. Apache, syslog, audyt bezpieczeństwa Active Directory itd.) Przy użyciu wykrywania klastrów / anomalii do celów wykrywania włamań. Z dzienników mam wiele pól tekstowych, takich jak adres IP, nazwa użytkownika, nazwa hosta, port docelowy, port źródłowy itd. (Łącznie 15-20 pól). Nie wiem, czy w …

9 feature-selection outliers unsupervised-learning feature-construction

1

Wybór wartości k dla analizy wykrywania lokalnego współczynnika odstającego (LOF)

Mam zestaw danych trójwymiarowych i staram się korzystać z analizy lokalnego współczynnika odstającego, aby zidentyfikować najbardziej unikalne lub dziwne wartości. Jak decyduje się, jaką wartość k zastosować w analizie LOF? Rozumiem, co określa wartość k, więc nie jestem zaskoczony, że widzę nieco inne wyniki przy użyciu różnych wartości k, ale …

9 data-mining outliers

2

Usuwanie wartości odstających z danych - maksymalna liczba wartości odstających, które można usunąć?

Mam kilka wartości odstających w moich danych i chciałem je wykluczyć, aby zobaczyć, czy to zmieni wyniki. Twoim zdaniem, do jakiej maksymalnej liczby wartości odstających należy się ograniczyć? Dzięki!

9 outliers

1

Wartość odcięcia odległości Cooka

Czytałem o odległości kucharza, aby zidentyfikować wartości odstające, które mają duży wpływ na moją regresję. W oryginalnym badaniu Cooka powiedział, że wskaźnik odcięcia 1 powinien być porównywalny do zidentyfikowania czynników wpływających. Wykorzystują jednak różne inne badania4n4n\frac{4}{n} lub 4n−k−14n−k−1\frac{4}{n-k-1} jako punkt odcięcia. W moim badaniu żadna z moich reszt nie ma …

9 outliers cooks-distance

4

Jak dopasować model do szeregu czasowego zawierającego wartości odstające

Dopasowałem model ARIMA (5,1,2), używając auto.arima()funkcji w R i patrząc na porządek, możemy powiedzieć, że nie jest to najlepszy model do prognozowania. Jeśli w seriach danych występują wartości odstające, jaka jest metoda dopasowania modelu do takich danych?

9 r time-series forecasting outliers arima

Pytania otagowane jako outliers