Próbuję przyspieszyć z R. W końcu chcę używać bibliotek R do klasyfikacji tekstu. Zastanawiałem się tylko, jakie są ludzkie doświadczenia w odniesieniu do skalowalności języka R, jeśli chodzi o klasyfikację tekstu.
Prawdopodobnie napotkam dane o dużych wymiarach (~ 300 tys. Wymiarów). Patrzę na wykorzystanie SVM i Random Forest w szczególności jako algorytmów klasyfikacji.
Czy biblioteki R byłyby skalowane do rozmiaru mojego problemu?
Dzięki.
EDYCJA 1: Żeby wyjaśnić, mój zestaw danych prawdopodobnie będzie miał 1000-3000 wierszy (być może nieco więcej) i 10 klas.
EDYCJA 2: Ponieważ jestem bardzo nowy w R, poproszę plakaty, aby były bardziej szczegółowe, tam gdzie to możliwe. Na przykład, jeśli sugerujesz przepływ pracy / potok, pamiętaj, aby w miarę możliwości wspomnieć biblioteki R zaangażowane w każdy krok. Niektóre dodatkowe wskaźniki (do przykładów, przykładowego kodu itp.) Byłyby wisienką na torcie.
EDYCJA 3: Po pierwsze, dziękuję wszystkim za komentarze. Po drugie przepraszam, być może powinienem był podać więcej informacji na temat problemu. Jestem nowy w R, ale nie tyle w klasyfikacji tekstu. Zrobiłem już wstępne przetwarzanie (usuwanie, usuwanie słów kluczowych, konwersję tf-idf itp.) Na niektórych częściach moich danych za pomocą pakietu tm , aby poszukać rzeczy. tm działał tak wolno nawet na około 200 dokumentach, że zaniepokoiłem się skalowalnością. Potem zacząłem grać w FSelector i nawet to było bardzo wolne. I w tym momencie dokonałem OP.
EDYCJA 4: Właśnie przyszło mi do głowy, że mam 10 klas i około 300 dokumentów szkoleniowych na klasę, i faktycznie buduję matrycę termXdoc z całego zestawu szkoleniowego, co skutkuje bardzo dużą wymiarowością. Ale co powiesz na sprowadzenie każdego problemu z klasyfikacją „jeden na dwa” do serii problemów z klasyfikacją binarną? To drastycznie zmniejszyłoby liczbę dokumentów szkoleniowych (a zatem i wymiarowość) na każdym etapie k-1, prawda? Czy to podejście jest dobre? Jak wypada pod względem dokładności w porównaniu do zwykłej implementacji wielu klas?