Używam quantreg pakiet do modelu regresji używając 99. percentyla moich wartości w zbiorze danych. W oparciu o porady z poprzedniego pytania dotyczącego przepełnienia stosu użyłem następującej struktury kodu.
mod <- rq(y ~ log(x), data=df, tau=.99)
pDF <- data.frame(x = seq(1,10000, length=1000) )
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )
które pokazuję na wykresie na moich danych. Narysowałem to za pomocą ggplot2, z wartością alfa punktów. Myślę, że ogon mojej dystrybucji nie jest wystarczająco uwzględniany w mojej analizie. Być może wynika to z faktu, że istnieją pojedyncze punkty, które są ignorowane przez pomiar typu percentyla.
Sugerował to jeden z komentarzy
Winieta pakietu zawiera sekcje dotyczące nieliniowej regresji kwantyli, a także modele z wygładzającymi splajnami itp.
Na podstawie mojego poprzedniego pytania założyłem związek logarytmiczny, ale nie jestem pewien, czy to prawda. Pomyślałem, że uda mi się wyodrębnić wszystkie punkty w przedziale 99 percentyla, a następnie zbadać je osobno, ale nie jestem pewien, jak to zrobić, czy jest to dobre podejście. Byłbym wdzięczny za wszelkie porady, jak poprawić identyfikację tego związku.