Użyj współczynnika korelacji Pearsona jako celu optymalizacji w uczeniu maszynowym


12

W uczeniu maszynowym (w przypadku problemów z regresją) często widzę błąd średniej kwadratowej (MSE) lub średni błąd bezwzględny (MAE) jako funkcję błędu w celu zminimalizowania (plus termin regularyzacji). Zastanawiam się, czy istnieją sytuacje, w których zastosowanie współczynnika korelacji byłoby bardziej odpowiednie? jeżeli taka sytuacja istnieje, to:

  1. W jakich sytuacjach współczynnik korelacji jest lepszą miarą w porównaniu z MSE / MAE?
  2. Czy w takich sytuacjach MSE / MAE jest nadal dobrą funkcją kosztu zastępczego?
  3. Czy bezpośrednie maksymalizowanie współczynnika korelacji jest możliwe? Czy jest to stabilna funkcja celu do użycia?

Nie mogłem znaleźć przypadków, w których współczynnik korelacji jest wykorzystywany bezpośrednio jako funkcja celu w optymalizacji. Byłbym wdzięczny, gdyby ludzie mogli wskazać mi informacje w tej dziedzinie.

Odpowiedzi:


7

Maksymalizacja korelacji jest użyteczna, gdy sygnał wyjściowy jest bardzo głośny. Innymi słowy, związek między wejściami i wyjściami jest bardzo słaby. W takim przypadku minimalizacja MSE spowoduje, że wynik będzie bliski zeru, tak że błąd predykcji będzie taki sam, jak wariancja wyniku treningu.

Bezpośrednie użycie korelacji jako funkcji celu jest możliwe w przypadku podejścia z gradientem (po prostu zmień ją na minimalizującą korelację ujemną). Nie wiem jednak, jak to zoptymalizować za pomocą podejścia SGD, ponieważ funkcja kosztu i gradient obejmuje wyniki wszystkich próbek szkoleniowych.

Innym sposobem na maksymalizację korelacji jest zminimalizowanie MSE z ograniczeniem wariancji wyjściowej do tej samej wartości, co treningowa wariancja wyjściowa. Jednak ograniczenie dotyczy również wszystkich danych wyjściowych, dlatego nie ma (moim zdaniem) sposobu na skorzystanie z optymalizatora SGD.

EDYCJA: W przypadku, gdy górna warstwa sieci neuronowej jest liniową warstwą wyjściową, możemy zminimalizować MSE, a następnie dostosować wagi i odchylenie w warstwie liniowej, aby zmaksymalizować korelację. Dostosowanie można wykonać podobnie do CCA ( https://en.wikipedia.org/wiki/Canonical_analysis ).


1

W naszych badaniach wykorzystujemy korelację Pearsona i działa ona dobrze. W naszym przypadku jest dość stabilny. Ponieważ jest to niezmienna miara translacji i skali, jest przydatna tylko wtedy, gdy chcesz przewidzieć kształt, a nie dokładne wartości. Dlatego przydaje się, jeśli nie wiesz, czy twój cel znajduje się w przestrzeni rozwiązania twojego modelu, a interesuje Cię tylko kształt. Wręcz przeciwnie, MSE zmniejsza uśrednioną odległość między prognozą a celami, więc stara się jak najlepiej dopasować dane. Prawdopodobnie jest to powód, dla którego MSE jest szerzej stosowany, ponieważ zazwyczaj jesteś zainteresowany przewidywaniem dokładnych wartości. Jeśli zminimalizujesz MSE, korelacja wzrośnie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.