Miałem podobne pytania, czytając artykuły z innych archiwów. I zadałem wiele pytań z tym związanych, takich jak to w społeczności Education Data Mining: Po co
stosować kwadratową stratę prawdopodobieństw zamiast straty logistycznej?
Tutaj przedstawię wiele osobistych opinii.
Uważam, że funkcja utraty nie ma większego znaczenia w wielu praktycznych przypadkach. Niektórzy badacze mogą dowiedzieć się więcej o kwadratowej stracie i zbudować jej system, nadal działa i rozwiązuje rzeczywiste problemy. Badacze mogą nigdy nie wiedzieć o utracie logistyki lub utracie zawiasów i chcą tego spróbować. Co więcej, mogą nie być zainteresowani znalezieniem optymalnego modelu matematycznego, ale chcą rozwiązać rzeczywiste problemy, których nikt wcześniej nie próbował rozwiązać.
To kolejny przykład: jeśli sprawdzisz tę odpowiedź na moje pytanie, wszystkie są trochę podobne. Jakie są skutki wyboru różnych funkcji strat w klasyfikacji do przybliżonej straty 0-1
Więcej przemyśleń: badania nad uczeniem maszynowym mogą poświęcić dużo czasu na wybór modelu i optymalizację modelu. Wynika to z faktu, że badacz uczenia maszynowego może nie być w stanie zgromadzić większej ilości danych / uzyskać więcej miar. A zadaniem naukowca zajmującego się uczeniem maszynowym jest poprawa matematyki, a nie lepsze rozwiązywanie konkretnego problemu w świecie rzeczywistym.
Z drugiej strony, w prawdziwym świecie, jeśli dane są lepsze, bije wszystko. Zatem wybór sieci neuronowej lub losowego lasu może nie mieć większego znaczenia. Wszystkie te modele są podobne do osób, które chcą wykorzystywać uczenie maszynowe jako narzędzie do rozwiązywania rzeczywistych problemów. Osoba niezainteresowana opracowywaniem matematyki lub narzędzi może poświęcić więcej czasu na wykorzystanie wiedzy na temat konkretnych dziedzin w celu ulepszenia systemu.
Jak wspomniałem w komentarzu. A jeśli ktoś jest niechlujny z matematyki, nadal jest w stanie zbudować coś, co działa.