Zauważ, że robię wszystko w R.
Problem wygląda następująco:
Zasadniczo mam listę CV (CV). Niektórzy kandydaci będą mieli wcześniej doświadczenie zawodowe, a niektórzy nie. Celem jest tutaj: na podstawie tekstu w życiorysach chcę podzielić je na różne sektory pracy. Zwłaszcza w tych przypadkach, w których kandydaci nie mają doświadczenia / są studentami i chcę dokonać prognozy, aby sklasyfikować sektory pracy, do których kandydat najprawdopodobniej będzie należeć po ukończeniu studiów.
Pytanie 1: Znam algorytmy uczenia maszynowego. Jednak nigdy wcześniej nie robiłem NLP. Natknąłem się na alokację Latent Dirichlet w Internecie. Nie jestem jednak pewien, czy jest to najlepsze podejście do rozwiązania mojego problemu.
Mój oryginalny pomysł: uczyń to nadzorowanym problemem uczenia się . Załóżmy, że mamy już dużą ilość oznaczonych danych, co oznacza, że poprawnie oznaczyliśmy sektory pracy dla listy kandydatów. Szkolimy model przy użyciu algorytmów ML (tj. Najbliższego sąsiada ...) i wprowadzamy te nieoznakowane dane , które są kandydatami, którzy nie mają doświadczenia zawodowego / są studentami, i próbujemy przewidzieć, do którego sektora pracy będą należeć.
Zaktualizuj pytanie 2: czy dobrym pomysłem byłoby utworzenie pliku tekstowego poprzez wyodrębnienie wszystkiego z CV i wydrukowanie tych danych w pliku tekstowym, aby każde CV było powiązane z plikiem tekstowym, który zawiera nieustrukturyzowane ciągi, a następnie zastosował techniki eksploracji tekstu w plikach tekstowych i sprawił, że dane zostały ustrukturyzowane, a nawet w celu stworzenia matrycy częstotliwości terminów używanych z plików tekstowych? Na przykład plik tekstowy może wyglądać mniej więcej tak:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
To właśnie miałem na myśli przez „nieustrukturyzowany”, tj. Zwinięcie wszystkiego w ciąg jednego wiersza.
Czy to podejście jest złe? Popraw mnie, jeśli uważasz, że moje podejście jest złe.
Pytanie 3: Trudna część: jak zidentyfikować i wyodrębnić słowa kluczowe ? Korzystasz z tm
pakietu w R? na jakim algorytmie opiera się tm
pakiet? Czy powinienem używać algorytmów NLP? Jeśli tak, na jakie algorytmy powinienem spojrzeć? Wskaż mi też kilka dobrych zasobów, na które warto spojrzeć.
Wszelkie pomysły byłyby świetne.