Biorąc pod uwagę sekwencję danych wejściowych, muszę ustalić, czy sekwencja ta ma pewną pożądaną właściwość. Właściwość może być tylko prawdą lub fałszem, tzn. Istnieją tylko dwie możliwe klasy, do których może należeć sekwencja.
Dokładny związek między sekwencją a właściwością jest niejasny, ale uważam, że jest bardzo spójny i powinien podlegać klasyfikacji statystycznej. Mam wiele przypadków trenowania klasyfikatora, chociaż może to być nieco głośne, w tym sensie, że istnieje niewielkie prawdopodobieństwo, że sekwencja zostanie przypisana niewłaściwej klasie w tym zestawie treningowym.
Przykładowe dane treningowe:
Sequence 1: (7 5 21 3 3) -> true
Sequence 2: (21 7 5 1) -> true
Sequence 3: (12 21 7 5 11 1) -> false
Sequence 4: (21 5 7 1) -> false
...
Z grubsza, właściwość jest określona przez zestaw wartości w sekwencji (np. Obecność „11” oznacza, że właściwość prawie na pewno będzie fałszywa), a także kolejność wartości (np. „21 7 5 „znacznie zwiększa szansę, że właściwość jest prawdziwa).
Po treningu powinienem być w stanie nadać klasyfikatorowi wcześniej niewidoczną sekwencję, na przykład (1 21 7 5 3)
, i powinien dać pewność, że właściwość jest prawdziwa. Czy istnieje dobrze znany algorytm szkolenia klasyfikatora z tego rodzaju wejściami / wyjściami?
Rozważyłem naiwny klasyfikator bayesowski (który tak naprawdę nie da się dostosować do faktu, że kolejność ma znaczenie, przynajmniej nie bez poważnego złamania założenia, że dane wejściowe są niezależne). Zbadałem również podejście ukrytego modelu Markowa, które wydaje się nie mieć zastosowania, ponieważ dostępne jest tylko jedno wyjście, zamiast jednego wyjścia na wejście. Co mnie ominęło?