Kontekst: Opracowuję system analizujący dane kliniczne w celu odfiltrowania nieprawdopodobnych danych, które mogą być literówkami.
Co do tej pory zrobiłem:
Aby oszacować wiarygodność, do tej pory próbowałem znormalizować dane, a następnie obliczyć wartość wiarygodności dla punktu p na podstawie jego odległości do znanych punktów danych w zestawie D (= zestaw treningowy):
Dzięki tej kwantyfikacji mogę następnie wybrać próg, który oddziela wiarygodne dane od nieprawdopodobnych danych. Używam python / numpy.
Moje problemy:
- Ten algorytm nie wykrywa niezależnych wymiarów. Idealnie byłoby, gdybym umieścił w algorytmie wszystko, co wiem o rekordzie, i sam przekonałbym się, że wymiar X nie wpływa na wiarygodność zapisu.
- Algorytm tak naprawdę nie działa w przypadku wartości dyskretnych, takich jak wartości logiczne lub wybrane dane wejściowe. Można je odwzorować na ciągłe wartości, ale sprzeczne z intuicją jest to, że Select 1 jest bliżej Select 2 niż Select 3.
Pytanie:
Jakiego rodzaju algorytmów powinienem szukać w tym zadaniu? Wydaje się, że istnieje mnóstwo opcji, w tym podejście oparte na najbliższym sąsiedztwie, oparte na klastrowaniu i statystyczne. Mam też problemy ze znalezieniem artykułów, które zajmują się wykrywaniem anomalii tej złożoności.
Wszelkie porady są mile widziane.
[Edytuj] Przykład:
Załóżmy, że dane zawierały wysokość osoby, wagę osoby i znacznik czasu - więc są to dane 3D. Waga i wzrost są skorelowane, ale znacznik czasu jest całkowicie niezależny. Jeśli wezmę pod uwagę odległości euklidesowe, musiałbym wybrać mały próg, aby pasował do większości moich danych dotyczących weryfikacji krzyżowej. Idealnie byłoby, gdyby algorytm po prostu zignorował wymiar znacznika czasu, ponieważ ustalenie, czy rekord jest wiarygodny, nie ma znaczenia, ponieważ znacznik czasu nie jest w żaden sposób powiązany z innymi wymiarami. Każdy znacznik czasu jest prawdopodobny.
Z drugiej strony można wymyślić przykłady, w których znacznik czasu ma znaczenie. Na przykład może być tak, że wartość Y dla cechy X jest wiarygodna, gdy jest mierzona przed określoną datą, ale nie po określonej dacie.