Nie jestem pewien, czy to pytanie jest w pełni odpowiednie tutaj, jeśli nie, proszę usunąć.
Jestem studentką ekonomii. W przypadku projektu badającego problemy z zakresu ubezpieczeń społecznych mam dostęp do dużej liczby administracyjnych spraw (> 200 tys.), Które dotyczą oceny kwalifikowalności. Raporty te można ewentualnie powiązać z indywidualnymi informacjami administracyjnymi. Chcę wyodrębnić informacje z tych raportów, które można wykorzystać w analizie ilościowej, a najlepiej więcej niż proste wyszukiwania słów kluczowych / wyrażeń regularnych za pomocą grep
/ awk
itp.
Jak przydatne jest do tego przetwarzanie języka naturalnego? Jakie są inne przydatne metody eksploracji tekstu? Z tego, co rozumiem, jest to duże pole i najprawdopodobniej niektóre raporty musiałyby zostać przekształcone, aby mogły zostać wykorzystane jako korpus. Czy warto poświęcić trochę czasu na zapoznanie się z literaturą i metodami? Czy może to być pomocne i czy wcześniej coś podobnego zostało zrobione? Czy warto, jeśli chodzi o nagrody, tj. Czy mogę wydobyć potencjalnie przydatne informacje za pomocą NLP do empirycznego studium ekonomii?
Możliwe są fundusze na zatrudnienie kogoś do przeczytania i przygotowania niektórych raportów. Jest to większy projekt i istnieje możliwość ubiegania się o większe fundusze. Mogę podać więcej szczegółów na ten temat, jeśli jest to absolutnie konieczne. Jedną z potencjalnych komplikacji jest to, że językiem jest niemiecki, a nie angielski.
Jeśli chodzi o kwalifikacje, jestem głównie przeszkolony w ekonometrii i mam trochę wiedzy na temat statystyki obliczeniowej na poziomie Hastie i in. książka. Znam Python, R., Stata i prawdopodobnie prawdopodobnie szybko poznam Matlaba. Biorąc pod uwagę biblioteki, zakładam, że Python jest do tego najlepszym narzędziem. Brak szkolenia w zakresie metod jakościowych, jeśli jest to istotne, ale znam kilka osób, z którymi mógłbym się skontaktować.
Cieszę się z wszelkich informacji na ten temat, tj. Czy jest to potencjalnie przydatne, jeśli tak, to gdzie zacząć czytanie i na jakich narzędziach się skupić.