Czy są jakieś dobre powody, aby preferować wartości binarne (0/1) zamiast dyskretnych lub ciągłych wartości znormalizowanych , np. (1; 3), jako dane wejściowe dla sieci sprzężenia zwrotnego dla wszystkich węzłów wejściowych (z propagacją wsteczną lub bez)?
Oczywiście mówię tylko o danych wejściowych, które można przekształcić w dowolną formę; np. jeśli masz zmienną, która może przyjmować kilka wartości, albo podaj je bezpośrednio jako wartość jednego węzła wejściowego, albo utwórz węzeł binarny dla każdej wartości dyskretnej. Zakłada się, że zakres możliwych wartości byłby taki sam dla wszystkich węzłów wejściowych. Zobacz zdjęcia, aby zobaczyć przykład obu możliwości.
Podczas badań na ten temat nie mogłem znaleźć żadnych zimnych, twardych faktów na ten temat; wydaje mi się, że mniej więcej zawsze będzie to „próba i błąd”. Oczywiście, węzły binarne dla każdej dyskretnej wartości wejściowej oznaczają więcej węzłów warstwy wejściowej (a tym samym więcej ukrytych węzłów warstwy), ale czy rzeczywiście dałoby to lepszą klasyfikację wyjściową niż posiadanie takich samych wartości w jednym węźle, z dobrze dopasowaną funkcją progową w ukryta warstwa?
Czy zgadzasz się, że to tylko „spróbuj i zobacz”, czy masz inne zdanie na ten temat?