Wartość odstająca to obserwacja, która wydaje się być niezwykła lub źle opisana w stosunku do prostej charakterystyki zestawu danych. Niepokojącą możliwością jest to, że dane te pochodzą z innej populacji niż ta, która ma być badana.
Obserwuję moje pytanie tutaj , zastanawiam się, czy istnieją silne poglądy za czy przeciw wykorzystaniu odchylenia standardowego do wykrycia przekroczeń (np dowolny DATAPOINT że jest więcej niż 2 Odchylenie standardowe jest poboczna). Wiem, że zależy to od kontekstu badania, na przykład punkt danych, 48 kg, z pewnością będzie wartością odstającą …
W tej SE jest wiele postów na temat solidnych podejść do analizy głównych składników (PCA), ale nie mogę znaleźć ani jednego dobrego wyjaśnienia, dlaczego PCA jest wrażliwe na wartości odstające.
Pochodząc z pola widzenia komputerowego, często stosowałem metodę RANSAC (Random Sample Consensus) do dopasowywania modeli do danych z wieloma wartościami odstającymi. Jednak nigdy nie widziałem, aby używali go statystycy i zawsze miałem wrażenie, że nie była uważana za metodę „statystycznie solidną”. Dlaczego to jest takie? Ma charakter losowy, co utrudnia …
Zacząłem pracować nad samouczkami w zakresie eksploracji danych statystycznych autorstwa Andrew Moore'a (wysoce zalecane dla każdego, kto pierwszy wejdzie w tę dziedzinę). Zacząłem od przeczytania tego niezwykle interesującego pliku PDF zatytułowanego „Wprowadzenie do algorytmów wykrywania anomalii opartych na szeregach czasowych”, w którym Moore śledzi wiele technik stosowanych w tworzeniu algorytmu …
Zgodnie z klasyczną definicją wartości odstającej jako punktu danych poza IQR 1,5 * z górnego lub dolnego kwartylu, zakłada się rozkład nieskośny. W przypadku rozkładów skośnych (wykładnicza, Poissona, geometryczna itp.) Czy najlepszym sposobem na wykrycie wartości odstającej jest analiza transformacji oryginalnej funkcji? Na przykład rozkłady luźno rządzone rozkładem wykładniczym można …
W analizie regresji liniowej analizujemy wartości odstające, badamy wielokoliniowość, testujemy heteroscedastyczność. Pytanie brzmi: czy istnieje jakikolwiek nakaz ich zastosowania? Mam na myśli, czy najpierw musimy przeanalizować wartości odstające, a następnie zbadać wielokoliniowość? Czy odwrotnie? Czy jest na to jakaś zasada?
Jeśli mam wielowymiarową normalną próbkę iid i zdefiniuję (który jest rodzajem odległości Mahalanobisa [kwadrat] od punktu próbki do wektora przy użyciu macierzy do ważenia), jaki jest rozkład (odległość Mahalanobisa do średnia próbki przy użyciu przykładowej macierzy kowariancji )?d 2 i ( b , A ) = ( X i - …
Przeprowadzam analizy wielu regresji i nie jestem pewien, czy wartości odstające w moich danych powinny zostać usunięte. Dane, które mnie niepokoją, pojawiają się jako „koła” na wykresach pudełkowych SPSS, jednak nie ma gwiazdek (co sprawia, że uważam, że nie są „takie złe”). Sprawy, o które się martwię, pojawiają się w …
Mam coś, co naiwnie uważałem za dość prosty problem, który polega na wykrywaniu wartości odstających dla wielu różnych zestawów danych zliczania. W szczególności chcę ustalić, czy jedna lub więcej wartości w serii danych zliczania jest wyższa lub niższa niż oczekiwano w stosunku do reszty zliczeń w rozkładzie. Czynnikiem zakłócającym jest …
Jak decydować o skośności, patrząc na wykres pudełkowy zbudowany z tych danych: 340, 300, 520, 340, 320, 290, 260, 330 Jedna z książek mówi: „Jeśli dolny kwartyl znajduje się dalej od mediany niż górny kwartyl, wówczas rozkład jest ujemnie wypaczony”. Kilka innych źródeł powiedziało mniej więcej to samo. Zbudowałem boxplot …
Przeprowadziliśmy test podziału nowej funkcji produktu i chcemy sprawdzić, czy wzrost przychodów jest znaczący. Nasze obserwacje zdecydowanie nie są normalnie rozpowszechniane (większość naszych użytkowników nie wydaje, a wśród tych, którzy to robią, jest mocno wypaczona w kierunku wielu małych wydawców i kilku bardzo dużych wydawców). Zdecydowaliśmy się na użycie ładowania …
tl; dr Jaki jest zalecany sposób postępowania z discretedanymi podczas wykrywania nieprawidłowości? Jaki jest zalecany sposób postępowania categoricaldanymi podczas wykrywania nieprawidłowości? Ta odpowiedź sugeruje użycie dyskretnych danych tylko do filtrowania wyników. Być może zastąpisz wartość kategorii procentową szansą obserwacji? Wprowadzenie To jest mój pierwszy post tutaj, więc proszę, jeśli coś …
Standardowa definicja wartości odstającej dla wykresu Box i Whisker to punkty spoza zakresu , gdzie I Q R = Q 3 - Q 1 i Q 1 to pierwszy kwartyl i Q 3 to trzeci kwartyl danych.{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 Jaka jest podstawa tej definicji? Przy dużej liczbie punktów nawet idealnie normalny …
Załóżmy, że normalnie rozpowszechniłem dane. Dla każdego elementu danych chcę sprawdzić, ile SD jest oddalonych od średniej. Dane mogą zawierać wartości odstające (prawdopodobnie tylko jeden, ale mogą być również dwa lub trzy) lub nie, ale ta wartość odstająca jest zasadniczo tym, czego szukam. Czy sensowne jest tymczasowe wykluczenie elementu, na …
Mógłbym skorzystać z pewnych wskazówek dotyczących prezentacji niektórych danych. Ten pierwszy wykres stanowi porównanie kontroli przypadku dla cytokiny IL-10. Ręcznie ustawiłem oś y, aby zawierała 99% danych. Ustawiłem to ręcznie, ponieważ grupa przypadków ma skrajnie odstające wartości. Moi współpracownicy wahają się przed usunięciem wartości odstających z naszego zestawu danych. Nie …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.