Mam tysiące list ciągów, a każda lista zawiera około 10 ciągów. Większość ciągów na danej liście jest bardzo podobnych, chociaż niektóre ciągi są (rzadko) całkowicie niezwiązane z innymi, a niektóre ciągi zawierają nietrafne słowa. Można je uznać za hałaśliwe odmiany łańcucha kanonicznego. Szukam algorytmu lub biblioteki, która przekonwertuje każdą listę na ten ciąg kanoniczny.
Oto jedna z takich list.
- Star Wars: Episode IV Nowa nadzieja | StarWars.com
- Star Wars Episode IV - A New Hope (1977)
- Star Wars: Episode IV - A New Hope - Rotten Tomatoes
- Oglądaj Star Wars: Episode IV - Nowa nadzieja online za darmo
- Star Wars (1977) - Greatest Films
- [REC] 4 plakat obiecuje śmierć przez silnik zaburtowy - SciFiNow
W przypadku tej listy ^Star Wars:? Episode IV (- )?A New Hope$
dopuszczalny byłby dowolny ciąg pasujący do wyrażenia regularnego .
Przyjrzałem się kursowi Andrew Ng na temat uczenia maszynowego na Coursera, ale nie udało mi się znaleźć podobnego problemu.