Intuicyjne wyjaśnienie utraty logów


10

W kilku konkurencjach kaggle punktacja opierała się na „loglossie”. Dotyczy to błędu klasyfikacji.

Oto odpowiedź techniczna, ale szukam intuicyjnej odpowiedzi. Naprawdę podobały mi się odpowiedzi na to pytanie dotyczące odległości Mahalanobisa, ale PCA to nie logloss.

Mogę wykorzystać wartość, którą przedstawia moje oprogramowanie klasyfikacyjne, ale tak naprawdę jej nie rozumiem. Dlaczego używamy go zamiast prawdziwych / fałszywie dodatnich / ujemnych stóp? Czy możesz mi pomóc, abym mógł to wyjaśnić mojej babci lub nowicjuszowi w terenie?

Podoba mi się i zgadzam się z cytatem:

tak naprawdę czegoś nie rozumiesz, chyba że możesz wyjaśnić to swojej babci
- Albertowi Einsteinowi

Próbowałem samodzielnie odpowiedzieć na to pytanie przed opublikowaniem tutaj.

Linki, które nie były intuicyjne lub naprawdę pomocne, obejmują:

Są to informacje i dokładne. Są przeznaczone dla odbiorców technicznych. Nie rysują prostego obrazu ani nie dają prostych i dostępnych przykładów. Nie są napisane dla mojej babci.


nie podałeś linku do swojej odpowiedzi technicznej
bdeonovic,


@ EhsanM.Kermani - Nie znalazłem takich intuicyjnych jak te dla Mahalanobisa, o których wspominałem.
EngrStudent 20.04.16

1
wpis na stronie internetowej kaggle daje ładny zwięzłe wyjaśnienie logloss
bdeonovic

Odpowiedzi:


8

Logloss jest logarytmem iloczynu wszystkich prawdopodobieństw. Załóżmy, że Alice przewidziała:

  • z prawdopodobieństwem 0,2 John zabije Jacka
  • z prawdopodobieństwem 0,001 Mary wyjdzie za Jana
  • z prawdopodobieństwem 0,01 Bill jest mordercą.

Okazało się, że Mary nie poślubiła Johna, Bill nie jest mordercą, ale John zabił Jacka. Iloczyn prawdopodobieństwa, według Alice, wynosi 0,2 * 0,999 * 0,99 = 0,197802

Bob przewidział:

  • z prawdopodobieństwem 0,5 John zabije Jacka
  • z prawdopodobieństwem 0,5 Mary poślubi Johna
  • z prawdopodobieństwem 0,5 Bill jest mordercą.

Produkt ma wartość 0,5 * 0,5 * 0,5 = 0,125.

Alice jest lepszym predyktorem niż Bob.


dlaczego działa „iloczyn wszystkich prawdopodobieństw”? To brzmi jak krewny maksymalizacji oczekiwań.
EngrStudent 20.04.16

3
Potrzebujesz formalnego dowodu? Jest to zawarte w „odpowiedzi technicznej” wymienionej w temacie. Czy potrzebujesz nieformalnego powodu „babci”? Mówisz: załóżmy, że ten facet dał prawidłowe prognozy. Jakie jest prawdopodobieństwo, że wszystko stanie się tak, jak naprawdę się wydarzyło? Jest to iloczyn prawdopodobieństwa.
user31264,

„iloczyn prawdopodobieństwa” nie jest „babcią”. log iloczynu prawdopodobieństw jest sumą logarytmów prawdopodobieństw, które wykorzystują do maksymalizacji oczekiwań i nazywają „oczekiwaniem”. Myślę, że jest również zakodowany w dywergencji KL. ... Myślę, że w babci-talk możesz powiedzieć „najbardziej prawdopodobne” = najwyższe ogólne prawdopodobieństwo wielu zdarzeń. Istnieją dwa „najwyższe”: 1) zmaksymalizować połączone prawdopodobieństwo lub 2) zminimalizować ujemne połączone prawdopodobieństwo. Większość maszyn uczenie się lubi „opadanie gradientu” lub minimalizowanie zła. Utrata logarytmiczna to ujemne prawdopodobieństwo skalowane według wielkości próbki i jest minimalizowane.
EngrStudent

Tutaj link mówi „exp (-loss) to średnie prawdopodobieństwo poprawnej prognozy”.
EngrStudent

Podobał mi się tutaj biskup . Jest to równanie 4.108 i jest funkcją błędu entropii krzyżowej.
EngrStudent,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.