Mam dwie grupy badanych, A i B, każda o wielkości około 400 i około 300 predyktorów. Moim celem jest zbudowanie modelu predykcyjnego dla zmiennej odpowiedzi binarnej. Mój klient chce zobaczyć wynik zastosowania modelu zbudowanego z A na B. (W swojej książce „Strategie modelowania regresji” @FrankHarrell wspomina, że lepiej jest połączyć …
Próbuję przetestować zerową wartość , względem lokalnej alternatywy E [ X ] > 0 , dla zmiennej losowej X , z zastrzeżeniem łagodnego do średniego pochylenia i kurtozy zmiennej losowej. Zgodnie z sugestiami Wilcoxa w „Wstęp do solidnego szacowania i testowania hipotez” spojrzałem na testy oparte na skróconej średniej, medianie, …
Solidna metoda PCA (opracowana przez Candes i in. 2009 lub jeszcze lepiej Netrepalli i in. 2014 ) jest popularną metodą wykrywania zmiennych odstających na wielu odmianach , ale odległość Mahalanobisa można również zastosować do detekcji wartości odstających, biorąc pod uwagę solidną, regularną ocenę macierzy kowariancji . Jestem ciekawy (nie) zalet …
Jak dopasować parametry rozkładu t, tj. Parametry odpowiadające „średniej” i „odchyleniu standardowemu” rozkładu normalnego. Zakładam, że są one nazywane „średnimi” i „skalowaniem / stopniami swobody” dla rozkładu t? Poniższy kod często powoduje błędy „nieudana optymalizacja”. library(MASS) fitdistr(x, "t") Czy najpierw muszę skalować x, czy przeliczać na prawdopodobieństwa? Jak najlepiej to …
Używałem iteracyjnie ponownie ważonych najmniejszych kwadratów (IRLS), aby zminimalizować funkcje następującej formy, J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) gdzie jest liczbą wystąpień , jest dokładnym oszacowaniem, którego chcę, a jest odpowiednią solidną funkcją kary. Powiedzmy, że jest wypukły (choć niekoniecznie ściśle) i na razie różnicowalny. Dobrym przykładem …
Powszechnym podejściem do szacowania parametrów rozkładu normalnego jest użycie średniej i odchylenia standardowego / wariancji próbki. Jeśli jednak występują pewne wartości odstające, mediana i odchylenie mediany od mediany powinny być znacznie bardziej niezawodne, prawda? Na niektórych zbiorów danych Próbowałem, rozkład normalny szacowany przez N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|) wydaje się produkować …
Korzystam z rlm w pakiecie R MASS do regresji wielowymiarowego modelu liniowego. Działa dobrze dla wielu próbek, ale otrzymuję quasi-zerowe współczynniki dla konkretnego modelu: Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit) Residuals: Min 1Q Median 3Q …
Mam kilka (około 1000) oszacowań i wszystkie one mają być oszacowaniami długoterminowej elastyczności. Nieco ponad połowa z nich jest szacowana za pomocą metody A, a reszta za pomocą metody B. Gdzieś czytam coś w stylu „Myślę, że metoda B ocenia coś zupełnie innego niż metoda A, ponieważ szacunki są znacznie …
Niektóre testy statystyczne są solidne, a niektóre nie. Co dokładnie oznacza solidność? Zaskakujące, że nie mogłem znaleźć takiego pytania na tej stronie. Co więcej, czasami solidność i moc testu są omawiane razem. I intuicyjnie nie mogłem rozróżnić tych dwóch pojęć. Co to jest potężny test? Czym różni się od solidnego …
Mój kolega z mojego biura powiedział mi dzisiaj: „Modele drzew nie są dobre, ponieważ przyłapują ich ekstremalne obserwacje”. Wyszukiwanie tutaj zaowocowało tym wątkiem, który zasadniczo obsługuje roszczenie. Co prowadzi mnie do pytania - w jakiej sytuacji model CART może być solidny i jak to pokazano?
Niech więc dla bardzo krótkiej próbki, takiej jak , można ją obliczyć od znalezienia statycznego tego rzędu różnicy par: { 1 , 3 , 6 , 2 , 7 , 5 } kQn= Cn. { | Xja- Xjot| ; ja<j }( k )Qn=Cn.{|Xi−Xj|;i<j}(k)Q_n = C_n.\{|X_i-X_j|;i < j\}_{(k)}{ 1 , 3 …
Pracuję nad statystykami dla kompilacji oprogramowania. Mam dane dla każdego kompilacji na pass / fail i upływający czas i generujemy ~ 200 z nich / tydzień. Wskaźnik skuteczności można łatwo agregować, mogę powiedzieć, że 45% minęło w danym tygodniu. Ale chciałbym również zsumować upływający czas i chcę się upewnić, że …
Przykłady tej strony pokazują, że na regresję wyraźnie wpływają wartości odstające i można temu zaradzić za pomocą technik solidnej regresji: http://www.alastairsanderson.com/R/tutorials/robust-regression-in-R/ . Wierzę, że lmrob i ltsReg to inne solidne techniki regresji. Dlaczego nie należy za każdym razem wykonywać solidnej regresji (np. Rlm lub rq) zamiast prostej regresji (lm)? Czy …
Używam zwykłego estymatora kurtozy, , ale zauważam, że nawet małe „odstające” w moim rozkładzie empirycznym , tj. małe szczyty daleko od centrum, wpływają na to ogromnie. Czy istnieje estymator kurtozy, który jest bardziej niezawodny?K^=μ^4σ^4K^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}
Muszę dopasować uogólniony rozkład Gaussa do 7-słabej chmury punktów zawierającej dość znaczną liczbę wartości odstających o dużej dźwigni. Czy znasz jakiś dobry pakiet R dla tej pracy?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.