Użyj liblinear na dużych danych do analizy semantycznej

17

Używam Libsvm do trenowania danych i przewidywania klasyfikacji problemu analizy semantycznej . Ma jednak problem z wydajnością danych na dużą skalę, ponieważ analiza semantyczna dotyczy problemu n-wymiarowego .

W ubiegłym roku Liblinear został wydany i może rozwiązać wąskie gardło wydajności. Ale to kosztowało zbyt dużo pamięci . Czy MapReduce to jedyny sposób rozwiązania problemu analizy semantycznej dużych zbiorów danych? A może istnieją inne metody, które mogą poprawić wąskie gardło pamięci w Liblinear ?

machine-learning bigdata libsvm

— Maskonur GDI
źródło

11

Zauważ, że istnieje wczesna wersja LIBLINEAR przeniesiona do Apache Spark . Zobacz komentarze na liście mailowej, aby uzyskać wczesne szczegóły oraz stronę projektu .

— Sean Owen
źródło

Dziękuję za odpowiedź. Wygląda inaczej niż SVM. Zbadam to. :)

— Maskonur GDI

4

Przypomnienie, że nie zachęcamy do łączenia się poza witryną z odpowiedzią, ponieważ łatwo się psuje, powodując, że przydatne zasoby społecznościowe zamieniają się w ślepy zaułek. Zawsze najlepiej jest umieścić odpowiedź bezpośrednio w swoim poście.

— Ana

1

Zgadzam się z tym. W tym momencie i tak ledwo istnieje jako więcej niż to łącze. Dodam link do projektu bazowego.

— Sean Owen

10

Możesz sprawdzić ślubny wabbit . Jest dość popularny w nauczaniu na dużą skalę i obejmuje równoległe przepisy.

Z ich strony internetowej:

VW to esencja szybkości w uczeniu maszynowym, z łatwością ucząca się na podstawie zbiorów danych terafeature. Poprzez uczenie równoległe może przekroczyć przepustowość dowolnego interfejsu sieciowego jednej maszyny podczas uczenia liniowego, co jest pierwszym spośród algorytmów uczenia się.

— Marc Claesen
źródło

1

Open source i trochę wiki. Wygląda dobrze. Dzięki za Twoją sugestię. :)

— Maskonur GDI