Wartość odstająca to obserwacja, która wydaje się być niezwykła lub źle opisana w stosunku do prostej charakterystyki zestawu danych. Niepokojącą możliwością jest to, że dane te pochodzą z innej populacji niż ta, która ma być badana.
Mam dość przewidywalne dzienne szeregi czasowe z tygodniową sezonowością. Jestem w stanie wymyślić prognozy, które wydają się dość dokładne (potwierdzone przez krzyżową weryfikację), gdy nie ma wakacji. Jednak gdy są święta, mam następujące problemy: W mojej prognozie dostaję niezerowe liczby świąt, mimo że wszystkie historyczne święta mają wartość 0. To …
Znalazłem wiele artykułów, w których stwierdzono, że metody ulepszania są wrażliwe na wartości odstające, ale żaden artykuł nie wyjaśnia, dlaczego. Z mojego doświadczenia wynika, że wartości odstające są złe dla dowolnego algorytmu uczenia maszynowego, ale dlaczego metody wspomagające są wyróżniane jako szczególnie wrażliwe? Jak uszeregować następujące algorytmy pod względem wrażliwości …
Pracuję nad statystykami dla kompilacji oprogramowania. Mam dane dla każdego kompilacji na pass / fail i upływający czas i generujemy ~ 200 z nich / tydzień. Wskaźnik skuteczności można łatwo agregować, mogę powiedzieć, że 45% minęło w danym tygodniu. Ale chciałbym również zsumować upływający czas i chcę się upewnić, że …
Próbuję wykryć anomalne wartości w szeregu czasowym danych klimatycznych z pewnymi brakującymi obserwacjami. Przeszukując sieć znalazłem wiele dostępnych podejść. Spośród nich rozkład stl wydaje się atrakcyjny w sensie usunięcia trendów i składników sezonowych i przestudiowania reszty. Czytając STL: sezonowy-Trend rozkładu procedury opartej na Lessów , stlwydaje się być elastyczni w …
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
Muszę uzyskać jak najdokładniejszą wartość jasności głównie stabilnego źródła światła, biorąc pod uwagę dwanaście wartości jasności próbki. Czujnik jest niedoskonały, a światło może czasami „migotać” jaśniej lub ciemniej, co można zignorować, stąd moja potrzeba wykrycia wartości odstających (myślę?). Przeczytałem tutaj o różnych podejściach i nie mogę się zdecydować, które wybrać. …
Próbuję zautomatyzować wykrywanie wartości odstających w szeregach czasowych i użyłem modyfikacji rozwiązania zaproponowanego przez Roba Hyndmana tutaj . Powiedzmy, że mierzę codzienne wizyty na stronie z różnych krajów. W niektórych krajach, w których codzienne wizyty to kilka setek lub tysięcy, moja metoda wydaje się działać rozsądnie. Jednak w przypadkach, gdy …
Używam zwykłego estymatora kurtozy, , ale zauważam, że nawet małe „odstające” w moim rozkładzie empirycznym , tj. małe szczyty daleko od centrum, wpływają na to ogromnie. Czy istnieje estymator kurtozy, który jest bardziej niezawodny?K^=μ^4σ^4K^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}
Mam losową regresję logistyczną przechwytującą (z powodu powtarzających się pomiarów) i chciałbym przeprowadzić diagnostykę, szczególnie dotyczącą wartości odstających i wpływowych obserwacji. Spojrzałem na pozostałości, aby zobaczyć, czy istnieją spostrzeżenia, które się wyróżniają. Ale chciałbym też spojrzeć na coś w rodzaju odległości Cooka lub DFFITS. Hosmer i Lemeshow (2000) twierdzą, że …
Piszę skrypt analizujący czasy uruchamiania procesów. Nie jestem pewien ich dystrybucji, ale chcę wiedzieć, czy proces działa „za długo”. Do tej pory korzystałem z 3 standardowych odchyleń czasów ostatniego uruchomienia (n> 30), ale powiedziano mi, że nie zapewnia to niczego użytecznego, jeśli dane nie są normalne (co nie wydaje się …
Jaki jest najlepszy sposób automatycznego wybierania funkcji do wykrywania anomalii? Zazwyczaj traktuję Wykrywanie Anomalii jako algorytm, w którym cechy są wybierane przez ludzkich ekspertów: liczy się zakres wyjściowy (jak w „nienormalnym wejściu - nienormalnym wyjściu”), więc nawet przy wielu funkcjach można uzyskać znacznie mniejszy podzbiór, łącząc funkcje. Zakładając jednak, że …
Muszę napisać program, aby znaleźć średni punkt GPS z populacji punktów. W praktyce dzieje się tak: Każdego miesiąca osoba rejestruje punkt GPS tego samego zasobu statycznego. Ze względu na charakter GPS punkty te różnią się nieznacznie każdego miesiąca. Czasami osoba popełnia błąd i zapisuje niewłaściwy assest w zupełnie innym miejscu. …
Można zastosować regresję do wykrycia naszych poziomów. Rozumiem, że istnieją sposoby na ulepszenie modelu regresji poprzez usunięcie wartości odstających. Ale głównym celem tutaj nie jest dopasowanie modelu regresji, ale znalezienie lierów za pomocą regresji
Prowadzę badania w dziedzinie odpowiedzi funkcjonalnej roztoczy. Chciałbym zrobić regresję, aby oszacować parametry (szybkość ataku i czas obsługi) funkcji Rogers typu II. Mam zestaw danych z pomiarami. Jak mogę najlepiej określić wartości odstające? Do mojej regresji używam następującego skryptu w R (regresja nieliniowa): (zestaw danych to prosty 2-kolumnowy plik tekstowy …
Jak tytuł mówi, czy ktoś wie o dobrej, aktualnej książce, która ogólnie obejmuje wstępne przetwarzanie danych, a szczególnie techniki wykrywania wartości odstających? Książka nie musi skupiać się wyłącznie na tym, ale powinna wyczerpująco omawiać wyżej wymienione tematy - nie byłbym zadowolony z czegoś, co stanowi punkt wyjścia i cytuje listę …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.