Interesuje mnie łączenie rekordów w 2 zestawach danych według imienia, nazwiska i roku urodzenia. Czy może to być wykonalne za pomocą algorytmu EM, a jeśli tak, to w jaki sposób?
Rozważ następujący zapis w 1. jako przykład: Carl McCarthy, 1967. Przeszukam wszystkie rekordy w 2. zbiorze danych i przypiszę odległość jaro-winkler między 1. imieniem a Carlem oraz odległość jaro-winkler między nazwiskiem a McCarthy. Odległość ta jest probabilistyczna, podobnie jak odległość między latami urodzenia. Łączymy te 3 prawdopodobieństwa (pomnożymy? Średnią?) W 1.
Teraz jest część reguły decyzyjnej. Pozwól nam uszeregować wszystkie prawdopodobieństwa od najwyższego do najniższego. Najpierw chcemy P (pierwsze trafienie jest zgodne)> = próg. Po drugie, chcemy również P (pierwsze trafienie jest zgodne) / P (drugie trafienie jest zgodne)> = próg, jeśli istnieje P (drugie trafienie jest zgodne). Po trzecie, chcemy, aby pierwsze trafienie w tym drugim zestawie danych było zgodne dla nie więcej niż 1 osoby w 1. zestawie danych z Carlem McCarthym, 1967.
Jak można ustalić te progi?
Wolę podejścia w Stata i / lub Perlu.
Zobacz na przykład:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Mimo to nadal nie w pełni śledzę, dlaczego i jak oraz jakie są dane wejściowe i wyjściowe, a także założenia i stopień ich ograniczenia).