Wartość odstająca to obserwacja, która wydaje się być niezwykła lub źle opisana w stosunku do prostej charakterystyki zestawu danych. Niepokojącą możliwością jest to, że dane te pochodzą z innej populacji niż ta, która ma być badana.
Próbuję znaleźć sposób korygowania wartości odstających, gdy tylko znajdę je / wykryję w danych szeregów czasowych. Niektóre metody, takie jak nnetar w R, dają pewne błędy dla szeregów czasowych z dużymi / dużymi wartościami odstającymi. Udało mi się już poprawić brakujące wartości, ale wartości odstające wciąż niszczą moje prognozy ...
Kontekst: Opracowuję system analizujący dane kliniczne w celu odfiltrowania nieprawdopodobnych danych, które mogą być literówkami. Co do tej pory zrobiłem: Aby oszacować wiarygodność, do tej pory próbowałem znormalizować dane, a następnie obliczyć wartość wiarygodności dla punktu p na podstawie jego odległości do znanych punktów danych w zestawie D (= zestaw …
Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1). Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych. Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie …
To pytanie opisuje podstawową różnicę między histogramem jednolitym i niejednorodnym. I to pytanie omawia ogólną zasadę wybierania liczby pojemników jednolitego histogramu, który optymalizuje (w pewnym sensie) stopień, w jakim histogram reprezentuje rozkład, z którego zostały pobrane próbki danych. Nie mogę znaleźć takiego samego rodzaju „optymalności” dyskusji na temat histogramów jednolitych …
Po pierwsze, powinienem stwierdzić, że szukałem odpowiedzi na tej stronie. Albo nie znalazłem pytania, które odpowiedziałoby na moje pytanie, albo mój poziom wiedzy jest tak niski, że nie zdawałem sobie sprawy, że już przeczytałem odpowiedź. Studiuję do egzaminu AP Statistics. Muszę nauczyć się regresji liniowej, a jednym z tematów są …
Chcę przetwarzać automatycznie segmentowane obrazy mikroskopowe w celu wykrycia wadliwych obrazów i / lub wadliwych segmentacji w ramach wysokowydajnego potoku obrazowania. Istnieje wiele parametrów, które można obliczyć dla każdego surowego obrazu i segmentacji, i które stają się „ekstremalne”, gdy obraz jest wadliwy. Na przykład bąbelek na obrazie spowoduje anomalie, takie …
Natknąłem się na pojęcie inlier w metodzie LOF (Local Outlier Factor), znam pojęcie wartości odstających (cóż w zasadzie lier - instancje, które nie zachowują się jak reszta instancji). Co oznaczają „Inliers” w kontekście wykrywania anomalii? i jak to się ma do (innych niż) wartości odstających?
Mam dane miesięczne od 1993 do 2015 roku i chciałbym przeprowadzić prognozę tych danych. Użyłem pakietu tsoutliers do wykrycia wartości odstających, ale nie wiem, jak dalej prognozować z moim zestawem danych. To jest mój kod: product.outlier<-tso(product,types=c("AO","LS","TC")) plot(product.outlier) To jest mój wynik z pakietu tsoutliers ARIMA(0,1,0)(0,0,1)[12] Coefficients: sma1 LS46 LS51 LS61 …
Mam kilka modeli predykcyjnych, których wydajność chciałbym przetestować ponownie (tj. Zabrać mój zestaw danych, „przewinąć” go do poprzedniego momentu i zobaczyć, jak ten model działałby prospektywnie). Problem polega na tym, że niektóre z moich modeli zostały zbudowane w procesie interaktywnym. Na przykład, zgodnie z zaleceniami Strategii modelowania regresji Franka Harrella …
Mam zestaw danych ze wszystkimi połączeniami z pogotowiem i czasem reakcji oddziału pogotowia ratunkowego. Przyznali, że są pewne błędy w czasach odpowiedzi, ponieważ są przypadki, w których nie rozpoczęli nagrywania (więc wartość wynosi 0) lub gdzie nie zatrzymali zegara (więc wartość może być bardzo wysoka). Chcę dowiedzieć się, jaka jest …
Moim celem jest analiza dzienników sieciowych (np. Apache, syslog, audyt bezpieczeństwa Active Directory itd.) Przy użyciu wykrywania klastrów / anomalii do celów wykrywania włamań. Z dzienników mam wiele pól tekstowych, takich jak adres IP, nazwa użytkownika, nazwa hosta, port docelowy, port źródłowy itd. (Łącznie 15-20 pól). Nie wiem, czy w …
Mam zestaw danych trójwymiarowych i staram się korzystać z analizy lokalnego współczynnika odstającego, aby zidentyfikować najbardziej unikalne lub dziwne wartości. Jak decyduje się, jaką wartość k zastosować w analizie LOF? Rozumiem, co określa wartość k, więc nie jestem zaskoczony, że widzę nieco inne wyniki przy użyciu różnych wartości k, ale …
Mam kilka wartości odstających w moich danych i chciałem je wykluczyć, aby zobaczyć, czy to zmieni wyniki. Twoim zdaniem, do jakiej maksymalnej liczby wartości odstających należy się ograniczyć? Dzięki!
Czytałem o odległości kucharza, aby zidentyfikować wartości odstające, które mają duży wpływ na moją regresję. W oryginalnym badaniu Cooka powiedział, że wskaźnik odcięcia 1 powinien być porównywalny do zidentyfikowania czynników wpływających. Wykorzystują jednak różne inne badania4n4n\frac{4}{n} lub 4n−k−14n−k−1\frac{4}{n-k-1} jako punkt odcięcia. W moim badaniu żadna z moich reszt nie ma …
Dopasowałem model ARIMA (5,1,2), używając auto.arima()funkcji w R i patrząc na porządek, możemy powiedzieć, że nie jest to najlepszy model do prognozowania. Jeśli w seriach danych występują wartości odstające, jaka jest metoda dopasowania modelu do takich danych?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.