Pracuję nad projektem Machine Learning z danymi, które są już (w dużym stopniu) stronnicze w wyniku selekcji danych.
Załóżmy, że masz zestaw zakodowanych reguł. Jak zbudować model uczenia maszynowego, aby go zastąpić, skoro wszystkie dane, których może użyć, to dane, które zostały już odfiltrowane według tych reguł?
Aby to wyjaśnić, wydaje mi się, że najlepszym przykładem jest ocena ryzyka kredytowego : zadaniem jest odfiltrowanie wszystkich klientów, którzy prawdopodobnie nie dokonają płatności.
- Teraz jedyne (oznaczone) dane, które masz, pochodzą od klientów, którzy zostali zaakceptowani przez zestaw reguł, ponieważ dopiero po zaakceptowaniu zobaczysz, czy ktoś płaci, czy nie (oczywiście). Nie wiesz, jak dobry jest zestaw reguł i jak bardzo wpłyną one na dystrybucję płatną na niepłaconą. Ponadto masz nieznakowane dane od klientów, które zostały odrzucone, ponownie z powodu zestawu reguł. Więc nie wiesz, co by się stało z tymi klientami, gdyby zostali zaakceptowani.
Np. Jedną z zasad może być: „Jeśli wiek klienta <18 lat, to nie akceptuj”
Klasyfikator nie ma sposobu, aby dowiedzieć się, jak obsługiwać klientów filtrowanych według tych reguł. Jak klasyfikator powinien się tutaj uczyć wzorców?
Zignorowanie tego problemu doprowadziłoby do narażenia modelu na dane, z którymi nigdy wcześniej się nie spotkał. Zasadniczo chcę oszacować wartość f (x), gdy x jest poza [a, b] tutaj.