Mam bazę danych z mojej aplikacji na Facebooku i staram się używać uczenia maszynowego do szacowania wieku użytkowników na podstawie tego, co lubią na Facebooku.
Istnieją trzy kluczowe cechy mojej bazy danych:
rozkład wieku w moim zestawie szkoleniowym (łącznie 12 tys. użytkowników) jest przekrzywiony w stosunku do młodszych użytkowników (tj. mam 1157 użytkowników w wieku 27 lat i 23 użytkowników w wieku 65 lat);
wiele witryn ma nie więcej niż 5 polubień (odfiltrowałem strony FB z mniej niż 5 polubieniami).
jest o wiele więcej funkcji niż próbek.
Moje pytania brzmią zatem: jaką strategię zaproponowałbyś w celu przygotowania danych do dalszej analizy? Czy powinienem wykonać redukcję wymiarów? Którą metodę ML najlepiej zastosować w tym przypadku?
Używam głównie Pythona, więc wskazówki dotyczące Pythona byłyby bardzo mile widziane.