Załóżmy, że chcę nauczyć się klasyfikatora, który przyjmuje wektor liczb jako dane wejściowe i podaje etykietę klasy jako dane wyjściowe. Moje dane treningowe składają się z dużej liczby par przepływów międzygałęziowych.
Jednak kiedy przechodzę do testowania niektórych nowych danych, dane te są zwykle tylko częściowo kompletne. Na przykład, jeśli wektor wejściowy ma długość 100, tylko 30 elementów może otrzymać wartości, a pozostałe są „nieznane”.
Jako przykład tego zastanów się nad rozpoznawaniem obrazu, gdy wiadomo, że część obrazu jest zasłonięta. Lub rozważ klasyfikację w sensie ogólnym, gdy wiadomo, że część danych jest uszkodzona. We wszystkich przypadkach wiem dokładnie, które elementy w wektorze danych są nieznanymi częściami.
Zastanawiam się, jak mogę nauczyć się klasyfikatora, który działałby dla tego rodzaju danych? Mógłbym po prostu ustawić „nieznane” elementy na liczbę losową, ale biorąc pod uwagę, że często jest więcej nieznanych elementów niż znane, nie brzmi to jak dobre rozwiązanie. Mogę też losowo zmieniać elementy danych treningowych na „nieznane” i trenować z nimi zamiast z kompletnymi danymi, ale może to wymagać wyczerpującego próbkowania wszystkich kombinacji znanych i nieznanych elementów.
W szczególności myślę o sieciach neuronowych, ale jestem otwarty na inne klasyfikatory.
Jakieś pomysły? Dzięki!