Myślę, że jednym z podstawowych założeń uczenia maszynowego lub szacowania parametrów jest to, że niewidoczne dane pochodzą z tego samego rozkładu, co zestaw szkoleniowy. Jednak w niektórych praktycznych przypadkach rozkład zestawu testowego będzie prawie różny od zestawu szkoleniowego.
Powiedz o wielkoskalowym problemie wielu klasyfikacji, który próbuje sklasyfikować opisy produktów do około 17 000 klas. Zestaw treningowy będzie miał mocno wypaczone priorytety klas, tak że niektóre klasy mogą mieć wiele przykładów treningu, ale niektóre mogą mieć tylko kilka. Załóżmy, że otrzymaliśmy od klienta zestaw testowy z nieznanymi etykietami klas. Staramy się klasyfikować każdy produkt w zestawie testowym do jednej z 17 000 klas, używając klasyfikatora wyszkolonego na zestawie szkoleniowym. Zestaw testowy prawdopodobnie miałby wypaczone rozkłady klas, ale prawdopodobnie bardzo różni się od zestawu szkoleniowego, ponieważ mogą być one powiązane z różnymi obszarami biznesowymi. Jeśli dwie rozkłady klas są bardzo różne, wyszkolony klasyfikator może nie działać dobrze w zestawie testowym. Wydaje się to szczególnie oczywiste w przypadku klasyfikatora Naive Bayes.
Czy istnieje jakiś zasadny sposób radzenia sobie z różnicą między zestawem szkoleniowym a konkretnym danym zestawem testowym dla klasyfikatorów probabilistycznych? Słyszałem o tym, że „transdukcyjny SVM” działa podobnie w SVM. Czy istnieją podobne techniki uczenia się klasyfikatora, który najlepiej sprawdza się w danym zestawie testów? Następnie możemy ponownie przeszkolić klasyfikator dla różnych danych zestawów testowych, co jest dozwolone w tym praktycznym scenariuszu.