Pytania otagowane jako outliers

Wartość odstająca to obserwacja, która wydaje się być niezwykła lub źle opisana w stosunku do prostej charakterystyki zestawu danych. Niepokojącą możliwością jest to, że dane te pochodzą z innej populacji niż ta, która ma być badana.


1
Solidny PCA w porównaniu z solidną odległością Mahalanobisa do wykrywania wartości odstających
Solidna metoda PCA (opracowana przez Candes i in. 2009 lub jeszcze lepiej Netrepalli i in. 2014 ) jest popularną metodą wykrywania zmiennych odstających na wielu odmianach , ale odległość Mahalanobisa można również zastosować do detekcji wartości odstających, biorąc pod uwagę solidną, regularną ocenę macierzy kowariancji . Jestem ciekawy (nie) zalet …


3
Niezawodne wykrywanie wartości odstających w okresach finansowych
Szukam pewnych niezawodnych technik usuwania wartości odstających i błędów (bez względu na przyczynę) z danych finansowych szeregów czasowych (tj. Tickdata). Dane finansowe szeregów czasowych od tyknięcia do tyka są bardzo nieporządne. Zawiera ogromne przerwy (czasowe), gdy giełda jest zamknięta, i wykonuje ogromne skoki, gdy giełda ponownie się otwiera. Gdy giełda …

5
Czy oszustwo polega na usuwaniu wartości odstających na podstawie wykresu średniego błędu bezwzględnego w celu ulepszenia modelu regresji
Mam model predykcyjny przetestowany czterema metodami, jak widać na poniższym rysunku. Atrybut prognozowany przez model mieści się w zakresie 0–8. Możesz zauważyć, że istnieje jedna górna granica i trzy dolne granice wskazane przez wszystkie metody. Zastanawiam się, czy właściwe jest usunięcie tych wystąpień z danych? Czy jest to rodzaj oszustwa …

2
Dokładne znaczenie i porównanie między wpływowym punktem, wysokim punktem dźwigni i wartością odstającą?
Z Wikipedii Obserwacje wpływowe to te obserwacje, które mają stosunkowo duży wpływ na przewidywania modelu regresji. Z Wikipedii Punkty dźwigni to ewentualne obserwacje dokonane przy ekstremalnych lub odległych wartościach zmiennych niezależnych, tak że brak obserwacji sąsiednich oznacza, że ​​dopasowany model regresji przejdzie blisko tej konkretnej obserwacji. Dlaczego poniższe porównanie z …

2
Oszacowanie parametrów rozkładu normalnego: mediana zamiast średniej?
Powszechnym podejściem do szacowania parametrów rozkładu normalnego jest użycie średniej i odchylenia standardowego / wariancji próbki. Jeśli jednak występują pewne wartości odstające, mediana i odchylenie mediany od mediany powinny być znacznie bardziej niezawodne, prawda? Na niektórych zbiorów danych Próbowałem, rozkład normalny szacowany przez N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|) wydaje się produkować …

3
Tor zderzeniowy w solidnym szacowaniu średniej
Mam kilka (około 1000) oszacowań i wszystkie one mają być oszacowaniami długoterminowej elastyczności. Nieco ponad połowa z nich jest szacowana za pomocą metody A, a reszta za pomocą metody B. Gdzieś czytam coś w stylu „Myślę, że metoda B ocenia coś zupełnie innego niż metoda A, ponieważ szacunki są znacznie …

3
Zrozumienie pasma ufności z regresji wielomianowej
Próbuję zrozumieć wynik, który widzę na poniższym wykresie. Zwykle używam Excela i otrzymuję linię regresji liniowej, ale w poniższym przypadku używam R i otrzymuję regresję wielomianową z poleceniem: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Więc moje pytania sprowadzają się do tego: Co to jest szary obszar (strzałka nr 1) wokół …

5
Czy istnieje prosty sposób wykrywania wartości odstających?
Zastanawiam się, czy istnieje prosty sposób wykrywania wartości odstających. W przypadku jednego z moich projektów, który był w zasadzie korelacją między liczbą osób biorących udział w aktywności fizycznej w ciągu tygodnia a liczbą posiłków poza domem (fast food) w ciągu tygodnia, narysowałem wykres rozrzutu i dosłownie usunąłem punkty danych, które …

1
Usuwanie wartości odstających na podstawie „2,5-krotności RMSE”
W Kahneman i Deaton (2010) autorzy piszą:††^\dagger Ta regresja wyjaśnia 37% wariancji, z pierwiastkowym średnim błędem kwadratowym (RMSE) wynoszącym 0,67852. Aby wyeliminować wartości odstające i nieprawdopodobne dochody, porzuciliśmy obserwacje, w których wartość bezwzględna różnicy między przychodem z dziennika a jego prognozą przekroczyła 2,5-krotność RMSE. Czy to powszechna praktyka? Jaka jest …


2
wykorzystując informacje o sąsiadach do przypisywania danych lub znajdowania danych niepowiązanych (w R)
Mam zestaw danych z założeniem, że najbliżsi sąsiedzi są najlepszymi predyktorami. Po prostu idealny przykład wizualizacji gradientu dwukierunkowego Załóżmy, że mamy przypadek, w którym brakuje kilku wartości, możemy łatwo przewidzieć na podstawie sąsiadów i trendu. Odpowiadająca macierz danych w R (przykładowy manekin do treningu): miss.mat <- matrix (c(5:11, 6:10, NA,12, …

1
LARS vs zejście współrzędnych dla lasso
Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …

4
Oddzielenie dwóch populacji od próbki
Próbuję oddzielić dwie grupy wartości od jednego zestawu danych. Mogę założyć, że jedna z populacji jest normalnie rozmieszczona i ma co najmniej połowę wielkości próbki. Wartości drugiego są zarówno niższe, jak i wyższe niż wartości pierwszego (rozkład jest nieznany). Staram się znaleźć górne i dolne granice, które obejmowałyby normalnie rozłożoną …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.