Użyj liblinear na dużych danych do analizy semantycznej


17

Używam Libsvm do trenowania danych i przewidywania klasyfikacji problemu analizy semantycznej . Ma jednak problem z wydajnością danych na dużą skalę, ponieważ analiza semantyczna dotyczy problemu n-wymiarowego .

W ubiegłym roku Liblinear został wydany i może rozwiązać wąskie gardło wydajności. Ale to kosztowało zbyt dużo pamięci . Czy MapReduce to jedyny sposób rozwiązania problemu analizy semantycznej dużych zbiorów danych? A może istnieją inne metody, które mogą poprawić wąskie gardło pamięci w Liblinear ?

Odpowiedzi:


11

Zauważ, że istnieje wczesna wersja LIBLINEAR przeniesiona do Apache Spark . Zobacz komentarze na liście mailowej, aby uzyskać wczesne szczegóły oraz stronę projektu .


Dziękuję za odpowiedź. Wygląda inaczej niż SVM. Zbadam to. :)
Maskonur GDI

4
Przypomnienie, że nie zachęcamy do łączenia się poza witryną z odpowiedzią, ponieważ łatwo się psuje, powodując, że przydatne zasoby społecznościowe zamieniają się w ślepy zaułek. Zawsze najlepiej jest umieścić odpowiedź bezpośrednio w swoim poście.
Ana

1
Zgadzam się z tym. W tym momencie i tak ledwo istnieje jako więcej niż to łącze. Dodam link do projektu bazowego.
Sean Owen

10

Możesz sprawdzić ślubny wabbit . Jest dość popularny w nauczaniu na dużą skalę i obejmuje równoległe przepisy.

Z ich strony internetowej:

VW to esencja szybkości w uczeniu maszynowym, z łatwością ucząca się na podstawie zbiorów danych terafeature. Poprzez uczenie równoległe może przekroczyć przepustowość dowolnego interfejsu sieciowego jednej maszyny podczas uczenia liniowego, co jest pierwszym spośród algorytmów uczenia się.


1
Open source i trochę wiki. Wygląda dobrze. Dzięki za Twoją sugestię. :)
Maskonur GDI
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.