Czy istnieje sposób na uzyskanie wyniku ufności (możemy nazwać to również wartością ufności lub prawdopodobieństwa) dla każdej przewidywanej wartości, gdy stosuje się algorytmy takie jak Losowe Lasy lub Ekstremalne Zwiększanie Gradientu (XGBoost)? Powiedzmy, że ten wynik pewności wynosiłby od 0 do 1 i pokazuje, jak jestem pewny co do konkretnej prognozy .
Z tego, co znalazłem w Internecie na temat zaufania, zwykle mierzy się to w odstępach czasu. Oto przykład obliczonych przedziałów ufności z confpred
funkcją z lava
biblioteki:
library(lava)
set.seed(123)
n <- 200
x <- seq(0,6,length.out=n)
delta <- 3
ss <- exp(-1+1.5*cos((x-delta)))
ee <- rnorm(n,sd=ss)
y <- (x-delta)+3*cos(x+4.5-delta)+ee
d <- data.frame(y=y,x=x)
newd <- data.frame(x=seq(0,6,length.out=50))
cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T,
col=Col("blue"), border=F))
}
Dane wyjściowe kodu dają tylko przedziały ufności:
Istnieje również biblioteka conformal
, ale ja również jest używana do przedziałów ufności w regresji: „konformalność pozwala na obliczenie błędów prognoz w ramach predykcyjnych konformacji: (i) wartości p. Dla klasyfikacji, oraz (ii) przedziały ufności dla regresji. „
Czy istnieje sposób:
Aby uzyskać wartości ufności dla każdej prognozy w przypadku problemów z regresją?
Jeśli nie ma sposobu, czy warto zastosować dla każdej obserwacji jako wynik pewności:
odległość między górną i dolną granicą przedziału ufności (jak w powyższym przykładzie wyjściowym). Tak więc w tym przypadku im szerszy przedział ufności, tym większa jest niepewność (ale nie uwzględnia to, gdzie w tym przedziale jest rzeczywista wartość)
randomForestCI
paczki Stephana Wagera i powiązanego papieru z Susan Athey. Należy pamiętać, że zapewnia tylko elementy CI ”, ale można z niego zrobić przedział predykcji, obliczając resztkową wariancję.