Pytania otagowane jako outliers

Wartość odstająca to obserwacja, która wydaje się być niezwykła lub źle opisana w stosunku do prostej charakterystyki zestawu danych. Niepokojącą możliwością jest to, że dane te pochodzą z innej populacji niż ta, która ma być badana.

13
Jaki jest najlepszy sposób identyfikowania wartości odstających w danych wielowymiarowych?
Załóżmy, że mam duży zestaw danych wielowymiarowych z co najmniej trzema zmiennymi. Jak znaleźć wartości odstające? Pary rozproszone wykresy nie będą działać, ponieważ możliwe jest istnienie wartości odstającej w 3 wymiarach, która nie jest wartością odstającą w żadnej z dwuwymiarowych podprzestrzeni. Nie myślę o problemie z regresją, ale o prawdziwych …

6
Niezbędne testy sprawdzające dane
W swojej roli zawodowej często pracuję z zestawami danych innych osób, nie-eksperci dostarczają mi dane kliniczne i pomagam im je podsumować i przeprowadzić testy statystyczne. Problem, który mam, polega na tym, że zestawy danych, które przynoszę, są prawie zawsze pełne literówek, niespójności i wszelkiego rodzaju innych problemów. Interesuje mnie to, …

1
Interpretowanie plot.lm ()
Miałem pytanie dotyczące interpretacji wykresów generowanych przez wykres (lm) w R. Zastanawiałem się, czy moglibyście mi powiedzieć, jak interpretować wykresy położenia skali i wykresy rezydualne dźwigni? Wszelkie uwagi będą mile widziane. Zakłada podstawową wiedzę na temat statystyki, regresji i ekonometrii.

14
Prosty algorytm do wykrywania wartości odstających online ogólnych szeregów czasowych
Pracuję z dużą ilością szeregów czasowych. Te szeregi czasowe są w zasadzie pomiarami sieci przychodzącymi co 10 minut, a niektóre z nich są okresowe (tj. Przepustowość), a inne nie (tj. Wielkość ruchu routingu). Chciałbym prosty algorytm do przeprowadzania online „wykrywania wartości odstających”. Zasadniczo chcę zachować w pamięci (lub na dysku) …

14
Dlaczego solidne (i odporne) statystyki nie zastąpiły klasycznych technik?
Przy rozwiązywaniu problemów biznesowych z wykorzystaniem danych często zdarza się, że co najmniej jedno kluczowe założenie, że klasyczne statystyki poniżej szpilek są nieprawidłowe. Przez większość czasu nikt nie zadaje sobie trudu, aby sprawdzić te założenia, więc tak naprawdę nigdy nie wiadomo. Na przykład, że tak wiele typowych wskaźników internetowych jest …

3
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


8
Wygeneruj zmienną losową ze zdefiniowaną korelacją z istniejącą zmienną (zmiennymi)
Dla badań symulacyjnych mam do generowania zmiennych losowych, które wykazują prefined (populacji) korelację do istniejącej zmiennej .YYY I spojrzał w Ropakowaniach copula, a CDVinektóre mogą powodować przypadkowe wielowymiarowych rozkładów danej struktury zależności. Nie można jednak naprawić jednej z powstałych zmiennych do istniejącej zmiennej. Wszelkie pomysły i linki do istniejących funkcji …

4
Szybka regresja liniowa odporna na wartości odstające
Mam do czynienia z danymi liniowymi z wartościami odstającymi, z których niektóre są o 5 standardowych odchyleń od szacowanej linii regresji. Szukam techniki regresji liniowej, która zmniejsza wpływ tych punktów. Jak dotąd oszacowałem linię regresji ze wszystkimi danymi, a następnie odrzuciłem punkt danych z bardzo dużymi kwadratowymi resztkami (powiedzmy 10%) …

8
Rygorystyczna definicja wartości odstającej?
Ludzie często mówią o radzeniu sobie z wartościami odstającymi w statystykach. Niepokoi mnie to, że o ile mogę stwierdzić, definicja wartości odstającej jest całkowicie subiektywna. Na przykład, jeśli prawdziwy rozkład jakiejś zmiennej losowej jest bardzo gruboogonowy lub bimodalny, każda standardowa wizualizacja lub statystyka podsumowująca do wykrywania wartości odstających niepoprawnie usunie …

1
Wykrywanie wartości odstających w szeregach czasowych (LS / AO / TC) przy użyciu pakietu tsoutliers w R. Jak reprezentować wartości odstające w formacie równania?
Komentarz: Po pierwsze chciałbym powiedzieć wielkie dziękuję do autora nowego tsoutliers pakietu, który implementuje Chen i Liu wykrywania szeregi czasowe poboczna, które zostało opublikowane w Journal of American Statistical Association w 1993 roku w oprogramowanie open source .RRR Pakiet wykrywa 5 różnych typów wartości odstających iteracyjnie w danych szeregów czasowych: …

8
Czy można usunąć wartości odstające z danych?
Szukałem sposobu na usunięcie wartości odstających z zestawu danych i znalazłem to pytanie . Jednak w niektórych komentarzach i odpowiedziach na to pytanie ludzie wspomnieli, że usunięcie wartości odstających z danych jest złą praktyką. W moim zestawie danych mam kilka wartości odstających, które najprawdopodobniej są spowodowane błędami pomiaru. Nawet jeśli …
33 outliers 


1
Wykrywanie anomalii linków w sieci czasowej
Natknąłem się na ten artykuł, który wykorzystuje wykrywanie anomalii linków do przewidywania trendów, i uważam, że jest to niezwykle intrygujące: artykuł „Odkrywanie pojawiających się tematów w strumieniach społecznościowych poprzez wykrywanie anomalii linków” . Chciałbym powielić go na innym zestawie danych, ale nie znam wystarczająco metod, aby wiedzieć, jak z nich …

8
Zamieniając wartości odstające na średnie
To pytanie zadał mój przyjaciel, który nie jest obeznany z Internetem. Nie mam statystyk i szukałem w Internecie tego pytania. Pytanie brzmi: czy możliwe jest zastąpienie wartości odstających wartością średnią? jeśli to możliwe, czy są jakieś odniesienia do książek / czasopisma, na których można sporządzić kopię tego oświadczenia?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.