Moim zdaniem rozbieżność KL od rozkładu próbki do rozkładu rzeczywistego jest po prostu różnicą między entropią krzyżową a entropią.
Dlaczego używamy entropii krzyżowej jako funkcji kosztów w wielu modelach uczenia maszynowego, a dywergencji Kullbacka-Leiblera w t-sne? Czy jest jakaś różnica w szybkości uczenia się?