Rozważam użycie bibliotek Python do przeprowadzania eksperymentów z uczeniem maszynowym. Do tej pory polegałem na WEKA, ale ogólnie byłem dość niezadowolony. Wynika to przede wszystkim z tego, że uważam, że WEKA nie jest tak dobrze wspierana (bardzo niewiele przykładów, dokumentacja jest rzadka, a wsparcie społeczności jest mniej niż pożądane z mojego doświadczenia) i znalazłem się w trudnych sytuacjach bez nadchodzącej pomocy. Innym powodem, dla którego rozważam ten ruch, jest to, że naprawdę lubię Python (jestem nowy w Pythonie) i nie chcę wracać do programowania w Javie.
Moje pytanie brzmi: co więcej
- wszechstronny
- skalowalny (100 000 funkcji, 10 000 przykładów) i
- dobrze obsługiwane biblioteki do robienia ML w Pythonie?
Szczególnie interesuje mnie klasyfikacja tekstu, dlatego chciałbym skorzystać z biblioteki, która ma dobry zbiór klasyfikatorów, metody wyboru funkcji (pozyskiwanie informacji, Chi-Sqaured itp.) Oraz możliwości wstępnego przetwarzania tekstu (pobieranie, usuwanie słów kluczowych , tf-idf itp.).
Na podstawie wcześniejszych wątków e-mail, tu i gdzie indziej, przyglądałem się PyML, scikits-learn i Orange. Jak wyglądały doświadczenia ludzi w odniesieniu do powyższych 3 wskaźników, o których wspomniałem?
Jakieś inne sugestie?