Rozumiem, że jednym z powodów, dla których regresja logistyczna jest często używana do przewidywania współczynników klikalności w sieci, jest fakt, że produkuje ona dobrze skalibrowane modele. Czy istnieje na to dobre matematyczne wytłumaczenie?
Rozumiem, że jednym z powodów, dla których regresja logistyczna jest często używana do przewidywania współczynników klikalności w sieci, jest fakt, że produkuje ona dobrze skalibrowane modele. Czy istnieje na to dobre matematyczne wytłumaczenie?
Odpowiedzi:
Tak.
Przewidywany wektor prawdopodobieństwa z regresji logistycznej spełnia równanie macierzowe
Gdzie jest macierzą obliczeniową, jest wektorem odpowiedzi. Można to postrzegać jako zbiór równań liniowych, wynikający z każdej kolumny macierzy wzór .y X
Specjalizując się w kolumnie przechwytywania (która jest rzędem w transponowanej macierzy), powiązane równanie liniowe to
więc ogólne średnie przewidywane prawdopodobieństwo jest równe średniej odpowiedzi.
Mówiąc bardziej ogólnie, dla kolumny cech binarnych powiązane równanie liniowe to
więc suma (a zatem średnia) przewidywanych prawdopodobieństw równa się sumie odpowiedzi, nawet gdy specjalizuje się w tych rekordach, dla których .
Myślę, że mogę udzielić ci łatwego do zrozumienia wyjaśnienia w następujący sposób:
Wiemy , że jego funkcję utraty można wyrazić jako następującą funkcję:
Gdziem
reprezentuje liczbę wszystkie próbki szkoleniowe,etykieta i-tej próbki, przewidywane prawdopodobieństwo i-tej próbki: . (zwróć uwagę na odchylenietutaj)
Ponieważ celem szkolenia jest minimalizacja funkcji straty, pozwól nam ocenić jego pochodną cząstkową względem każdego parametru (szczegółowe wyprowadzenie można znaleźć tutaj ):
Oznacza to, że jeśli model jest w pełni przeszkolony, przewidywane prawdopodobieństwa, które otrzymujemy dla zestawu szkoleniowego, rozkładają się tak, że dla każdej cechy suma ważonych (wszystkich) wartości tej cechy jest równa sumie wartości tej cechy pozytywnych próbek.
Widać oczywiście, że regresja logistyczna jest dobrze skalibrowana.
Odniesienie: Modele logarytmiczno-liniowe i warunkowe pola losowe Charlesa Elkana