Mam wiele ciągów adresów:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Chcę parsować je na ich komponenty:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Ale oczywiście dane są brudne: pochodzą z wielu krajów w wielu językach, napisane na różne sposoby, zawierają błędy ortograficzne, brakuje fragmentów, mają dodatkowe śmieci itp.
Obecnie naszym podejściem jest stosowanie reguł w połączeniu z dopasowywaniem rozmytych gazeterów, ale chcielibyśmy poznać techniki uczenia maszynowego. Oznaczyliśmy dane szkoleniowe do nadzorowanego uczenia się. Pytanie brzmi: jaki to problem uczenia maszynowego? Tak naprawdę nie wydaje się być skupieniem, klasyfikacją ani regresją ...
Najbliższe, co mogę wymyślić, to sklasyfikowanie każdego tokena, ale wtedy naprawdę chcesz sklasyfikować je wszystkie jednocześnie, spełniając ograniczenia, takie jak „powinien istnieć co najwyżej jeden kraj;” i tak naprawdę istnieje wiele sposobów na tokenizację łańcucha, a ty chcesz wypróbować każdy z nich i wybrać najlepszy ... Wiem, że istnieje coś takiego jak analizowanie statystyczne, ale nic o tym nie wiem.
Więc: jakie techniki uczenia maszynowego mogę badać w celu analizowania adresów?