„A” odnosi się do „B” i „C”. Jak pokazać, że „B” i „C” mogą w tym kontekście również być powiązane?
Przykład:
Oto kilka nagłówków na temat ostatniej gry na Broadwayu:
- Glengarry Glen Ross Davida Mameta, z udziałem Al Pacino, otwiera się na Broadwayu
- Al Pacino w „Glengarry Glen Ross”: Co myśleli krytycy?
- Al Pacino otrzymuje słabe recenzje za zakręt na Broadwayu
- Przegląd teatru: Glengarry Glen Ross ciężko sprzedaje swoje gwiazdy
- Glengarry Glen Ross; Hej, kto zabił światła Kliega?
Problem:
Uruchomienie dopasowania ciągu rozmytego dla tych rekordów ustanowi niektóre relacje, ale nie inne, nawet jeśli czytelnik może je wybrać z kontekstu w znacznie większych zestawach danych.
Jak znaleźć związek, który sugeruje, że # 3 jest powiązany z # 4? Oba można łatwo podłączyć do nr 1, ale nie do siebie.
Czy istnieje nazwa (Googlable) dla tego rodzaju danych lub struktury? Jakiego algorytmu szukam?
Cel:
Biorąc pod uwagę 1000 nagłówków, system, który automatycznie sugeruje, że te 5 pozycji prawdopodobnie dotyczy tego samego.
Szczerze mówiąc, minęło już tak dużo czasu, odkąd zaprogramowałem, że nie potrafię poprawnie wyrazić tego problemu. (Nie wiem, czego nie wiem, jeśli to ma sens).
To jest osobisty projekt i piszę go w języku Python. Z góry dziękuję za wszelką pomoc, porady i wskazówki!