Statystyki i duże zbiory danych robust

1

Mam dwie grupy badanych, A i B, każda o wielkości około 400 i około 300 predyktorów. Moim celem jest zbudowanie modelu predykcyjnego dla zmiennej odpowiedzi binarnej. Mój klient chce zobaczyć wynik zastosowania modelu zbudowanego z A na B. (W swojej książce „Strategie modelowania regresji” @FrankHarrell wspomina, że lepiej jest połączyć …

17 pca logistic predictive-models robust

4

Solidny test t dla średniej

Próbuję przetestować zerową wartość , względem lokalnej alternatywy E [ X ] > 0 , dla zmiennej losowej X , z zastrzeżeniem łagodnego do średniego pochylenia i kurtozy zmiennej losowej. Zgodnie z sugestiami Wilcoxa w „Wstęp do solidnego szacowania i testowania hipotez” spojrzałem na testy oparte na skróconej średniej, medianie, …

17 hypothesis-testing t-test finance robust

1

Solidny PCA w porównaniu z solidną odległością Mahalanobisa do wykrywania wartości odstających

Solidna metoda PCA (opracowana przez Candes i in. 2009 lub jeszcze lepiej Netrepalli i in. 2014 ) jest popularną metodą wykrywania zmiennych odstających na wielu odmianach , ale odległość Mahalanobisa można również zastosować do detekcji wartości odstających, biorąc pod uwagę solidną, regularną ocenę macierzy kowariancji . Jestem ciekawy (nie) zalet …

17 pca outliers covariance-matrix robust anomaly-detection

3

Dopasowanie rozkładu t w R: parametr skalowania

Jak dopasować parametry rozkładu t, tj. Parametry odpowiadające „średniej” i „odchyleniu standardowemu” rozkładu normalnego. Zakładam, że są one nazywane „średnimi” i „skalowaniem / stopniami swobody” dla rozkładu t? Poniższy kod często powoduje błędy „nieudana optymalizacja”. library(MASS) fitdistr(x, "t") Czy najpierw muszę skalować x, czy przeliczać na prawdopodobieństwa? Jak najlepiej to …

17 r distributions maximum-likelihood fitting robust

1

Definicja i zbieżność iteracyjnie ważonych najmniejszych kwadratów

Używałem iteracyjnie ponownie ważonych najmniejszych kwadratów (IRLS), aby zminimalizować funkcje następującej formy, J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) gdzie jest liczbą wystąpień , jest dokładnym oszacowaniem, którego chcę, a jest odpowiednią solidną funkcją kary. Powiedzmy, że jest wypukły (choć niekoniecznie ściśle) i na razie różnicowalny. Dobrym przykładem …

16 estimation least-squares robust irls

2

Oszacowanie parametrów rozkładu normalnego: mediana zamiast średniej?

Powszechnym podejściem do szacowania parametrów rozkładu normalnego jest użycie średniej i odchylenia standardowego / wariancji próbki. Jeśli jednak występują pewne wartości odstające, mediana i odchylenie mediany od mediany powinny być znacznie bardziej niezawodne, prawda? Na niektórych zbiorów danych Próbowałem, rozkład normalny szacowany przez N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|) wydaje się produkować …

15 normal-distribution estimation outliers robust unbiased-estimator

1

Dlaczego szacunki współczynnika regresji rlm () różnią się od lm () w R?

Korzystam z rlm w pakiecie R MASS do regresji wielowymiarowego modelu liniowego. Działa dobrze dla wielu próbek, ale otrzymuję quasi-zerowe współczynniki dla konkretnego modelu: Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit) Residuals: Min 1Q Median 3Q …

15 r multiple-regression robust

3

Tor zderzeniowy w solidnym szacowaniu średniej

Mam kilka (około 1000) oszacowań i wszystkie one mają być oszacowaniami długoterminowej elastyczności. Nieco ponad połowa z nich jest szacowana za pomocą metody A, a reszta za pomocą metody B. Gdzieś czytam coś w stylu „Myślę, że metoda B ocenia coś zupełnie innego niż metoda A, ponieważ szacunki są znacznie …

15 mean outliers robust references

2

Co to jest solidny test statystyczny? Co to jest potężny test statystyczny?

Niektóre testy statystyczne są solidne, a niektóre nie. Co dokładnie oznacza solidność? Zaskakujące, że nie mogłem znaleźć takiego pytania na tej stronie. Co więcej, czasami solidność i moc testu są omawiane razem. I intuicyjnie nie mogłem rozróżnić tych dwóch pojęć. Co to jest potężny test? Czym różni się od solidnego …

14 statistical-significance power robust

3

Czy modele CART mogą być solidne?

Mój kolega z mojego biura powiedział mi dzisiaj: „Modele drzew nie są dobre, ponieważ przyłapują ich ekstremalne obserwacje”. Wyszukiwanie tutaj zaowocowało tym wątkiem, który zasadniczo obsługuje roszczenie. Co prowadzi mnie do pytania - w jakiej sytuacji model CART może być solidny i jak to pokazano?

14 regression classification robust cart

3

Jak obliczyć estymator skali Qn Rousseeuw'a i Crouxa (1993) dla dużych próbek?

Niech więc dla bardzo krótkiej próbki, takiej jak , można ją obliczyć od znalezienia statycznego tego rzędu różnicy par: { 1 , 3 , 6 , 2 , 7 , 5 } kQn= Cn. { | Xja- Xjot| ; ja<j }( k )Qn=Cn.{|Xi−Xj|;i<j}(k)Q_n = C_n.\{|X_i-X_j|;i < j\}_{(k)}{ 1 , 3 …

13 data-transformation scales robust optimal-scaling

4

Dobra forma do usuwania wartości odstających?

Pracuję nad statystykami dla kompilacji oprogramowania. Mam dane dla każdego kompilacji na pass / fail i upływający czas i generujemy ~ 200 z nich / tydzień. Wskaźnik skuteczności można łatwo agregować, mogę powiedzieć, że 45% minęło w danym tygodniu. Ale chciałbym również zsumować upływający czas i chcę się upewnić, że …

12 outliers robust average

1

Dlaczego nie solidna regresja za każdym razem?

Przykłady tej strony pokazują, że na regresję wyraźnie wpływają wartości odstające i można temu zaradzić za pomocą technik solidnej regresji: http://www.alastairsanderson.com/R/tutorials/robust-regression-in-R/ . Wierzę, że lmrob i ltsReg to inne solidne techniki regresji. Dlaczego nie należy za każdym razem wykonywać solidnej regresji (np. Rlm lub rq) zamiast prostej regresji (lm)? Czy …

12 regression multiple-regression robust

1

Solidne oszacowanie kurtozy?

Używam zwykłego estymatora kurtozy, , ale zauważam, że nawet małe „odstające” w moim rozkładzie empirycznym , tj. małe szczyty daleko od centrum, wpływają na to ogromnie. Czy istnieje estymator kurtozy, który jest bardziej niezawodny?K^=μ^4σ^4K^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}

11 outliers robust moments kurtosis

2

Solidne, wielowymiarowe dopasowanie Gaussa w R.

Muszę dopasować uogólniony rozkład Gaussa do 7-słabej chmury punktów zawierającej dość znaczną liczbę wartości odstających o dużej dźwigni. Czy znasz jakiś dobry pakiet R dla tej pracy?

11 r distributions normal-distribution robust

Pytania otagowane jako robust