Przede wszystkim zdałem sobie sprawę, że jeśli muszę wykonać przewidywania binarne, muszę utworzyć co najmniej dwie klasy, wykonując kodowanie „na gorąco”. Czy to jest poprawne? Czy jednak binarna entropia krzyżowa dotyczy tylko predykcji z tylko jedną klasą? Gdybym miał zastosować kategoryczną utratę entropii krzyżowej, która zwykle występuje w większości bibliotek (takich jak TensorFlow), czy byłaby znacząca różnica?
W rzeczywistości, jakie są dokładnie różnice między kategoryczną a binarną entropią krzyżową? Nigdy nie widziałem implementacji binarnej entropii krzyżowej w TensorFlow, więc pomyślałem, że kategoryczna działa równie dobrze.