Wartość odstająca to obserwacja, która wydaje się być niezwykła lub źle opisana w stosunku do prostej charakterystyki zestawu danych. Niepokojącą możliwością jest to, że dane te pochodzą z innej populacji niż ta, która ma być badana.
Wzrost liczby zachorowań i zgonów występuje podczas epidemii (nagły wzrost liczby) z powodu krążenia wirusów (jak wirus Zachodniego Nilu w USA w 2002 r.) Lub zmniejszającej się odporności ludzi lub zanieczyszczenia żywności lub wody lub wzrostu liczby komary. Epidemie te będą występować jako wartości odstające, które mogą wystąpić co 1–5 …
Solidna metoda PCA (opracowana przez Candes i in. 2009 lub jeszcze lepiej Netrepalli i in. 2014 ) jest popularną metodą wykrywania zmiennych odstających na wielu odmianach , ale odległość Mahalanobisa można również zastosować do detekcji wartości odstających, biorąc pod uwagę solidną, regularną ocenę macierzy kowariancji . Jestem ciekawy (nie) zalet …
Mam miesięczne dane szeregów czasowych i chciałbym robić prognozy z wykrywaniem wartości odstających. Oto przykład mojego zestawu danych: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 7.91 …
Szukam pewnych niezawodnych technik usuwania wartości odstających i błędów (bez względu na przyczynę) z danych finansowych szeregów czasowych (tj. Tickdata). Dane finansowe szeregów czasowych od tyknięcia do tyka są bardzo nieporządne. Zawiera ogromne przerwy (czasowe), gdy giełda jest zamknięta, i wykonuje ogromne skoki, gdy giełda ponownie się otwiera. Gdy giełda …
Mam model predykcyjny przetestowany czterema metodami, jak widać na poniższym rysunku. Atrybut prognozowany przez model mieści się w zakresie 0–8. Możesz zauważyć, że istnieje jedna górna granica i trzy dolne granice wskazane przez wszystkie metody. Zastanawiam się, czy właściwe jest usunięcie tych wystąpień z danych? Czy jest to rodzaj oszustwa …
Z Wikipedii Obserwacje wpływowe to te obserwacje, które mają stosunkowo duży wpływ na przewidywania modelu regresji. Z Wikipedii Punkty dźwigni to ewentualne obserwacje dokonane przy ekstremalnych lub odległych wartościach zmiennych niezależnych, tak że brak obserwacji sąsiednich oznacza, że dopasowany model regresji przejdzie blisko tej konkretnej obserwacji. Dlaczego poniższe porównanie z …
Powszechnym podejściem do szacowania parametrów rozkładu normalnego jest użycie średniej i odchylenia standardowego / wariancji próbki. Jeśli jednak występują pewne wartości odstające, mediana i odchylenie mediany od mediany powinny być znacznie bardziej niezawodne, prawda? Na niektórych zbiorów danych Próbowałem, rozkład normalny szacowany przez N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|) wydaje się produkować …
Mam kilka (około 1000) oszacowań i wszystkie one mają być oszacowaniami długoterminowej elastyczności. Nieco ponad połowa z nich jest szacowana za pomocą metody A, a reszta za pomocą metody B. Gdzieś czytam coś w stylu „Myślę, że metoda B ocenia coś zupełnie innego niż metoda A, ponieważ szacunki są znacznie …
Próbuję zrozumieć wynik, który widzę na poniższym wykresie. Zwykle używam Excela i otrzymuję linię regresji liniowej, ale w poniższym przypadku używam R i otrzymuję regresję wielomianową z poleceniem: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Więc moje pytania sprowadzają się do tego: Co to jest szary obszar (strzałka nr 1) wokół …
Zastanawiam się, czy istnieje prosty sposób wykrywania wartości odstających. W przypadku jednego z moich projektów, który był w zasadzie korelacją między liczbą osób biorących udział w aktywności fizycznej w ciągu tygodnia a liczbą posiłków poza domem (fast food) w ciągu tygodnia, narysowałem wykres rozrzutu i dosłownie usunąłem punkty danych, które …
W Kahneman i Deaton (2010) autorzy piszą:††^\dagger Ta regresja wyjaśnia 37% wariancji, z pierwiastkowym średnim błędem kwadratowym (RMSE) wynoszącym 0,67852. Aby wyeliminować wartości odstające i nieprawdopodobne dochody, porzuciliśmy obserwacje, w których wartość bezwzględna różnicy między przychodem z dziennika a jego prognozą przekroczyła 2,5-krotność RMSE. Czy to powszechna praktyka? Jaka jest …
Mam zestaw danych z założeniem, że najbliżsi sąsiedzi są najlepszymi predyktorami. Po prostu idealny przykład wizualizacji gradientu dwukierunkowego Załóżmy, że mamy przypadek, w którym brakuje kilku wartości, możemy łatwo przewidzieć na podstawie sąsiadów i trendu. Odpowiadająca macierz danych w R (przykładowy manekin do treningu): miss.mat <- matrix (c(5:11, 6:10, NA,12, …
Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …
Próbuję oddzielić dwie grupy wartości od jednego zestawu danych. Mogę założyć, że jedna z populacji jest normalnie rozmieszczona i ma co najmniej połowę wielkości próbki. Wartości drugiego są zarówno niższe, jak i wyższe niż wartości pierwszego (rozkład jest nieznany). Staram się znaleźć górne i dolne granice, które obejmowałyby normalnie rozłożoną …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.