Czy w przypadku modelowania predykcyjnego musimy zajmować się pojęciami statystycznymi, takimi jak efekty losowe i nie- niezależność obserwacji (powtarzane pomiary)? Na przykład....
Mam dane z 5 kampanii mailowych (które miały miejsce w ciągu roku) z różnymi atrybutami i flagą do zakupu. Idealnie byłoby użyć wszystkich tych danych łącznie, aby zbudować model zakupu, biorąc pod uwagę atrybuty klienta w czasie kampanii. Powodem jest to, że zdarzenie zakupu jest rzadkie i chciałbym wykorzystać jak najwięcej informacji. Istnieje prawdopodobieństwo, że dany klient może uczestniczyć w dowolnym miejscu od 1 do 5 kampanii - co oznacza, że nie ma niezależności między rejestrami.
Czy ma to znaczenie przy użyciu:
1) Metoda uczenia maszynowego (np. Drzewo, MLP, SVM)
2) Podejście statystyczne (regresja logistyczna)?
**ADD:**
Myślałem o modelowaniu predykcyjnym, jeśli model działa, użyj go. Dlatego nigdy tak naprawdę nie brałem pod uwagę znaczenia założeń. Zastanawiam się nad tym, co opisałem powyżej.
Weź algorytmy uczenia maszynowego, takie jak MLP and SVM
. Są one z powodzeniem wykorzystywane do modelowania zdarzenia binarnego, takiego jak mój przykład powyżej, ale także danych szeregów czasowych, które są wyraźnie skorelowane. Jednak wiele używa funkcji utraty, które są prawdopodobieństwami i wyprowadzane przy założeniu, że błędy są ididowane. Na przykład drzewa wzmocnione gradientem w R gbm
używają funkcji utraty dewiacji pochodzących z dwumianu ( Strona 10 ).