Mam problem z dużymi danymi z dużym zestawem danych (weźmy na przykład 50 milionów wierszy i 200 kolumn). Zestaw danych składa się z około 100 kolumn numerycznych i 100 kolumn kategorycznych oraz kolumny odpowiedzi reprezentującej problem klasy binarnej. Liczność każdej z kolumn jakościowych jest mniejsza niż 50.
Chcę z góry wiedzieć, czy powinienem wybrać metody głębokiego uczenia się, czy też metody oparte na drzewach (na przykład zwiększanie gradientu, adaboost lub losowe lasy). Czy są jakieś eksploracyjne analizy danych lub jakieś inne techniki, które mogą pomóc mi zdecydować się na jedną metodę zamiast drugiej?