Istnieje kilka podejść, które działałyby lepiej w niektórych językach niż w innych. Na przykład soundex (i inny opis, który lubię ) został zaprojektowany do angielskiej wymowy nazw. Z Soundex Michael
staje się M240. Ma to kilka kroków:
- Pierwsza litera jest izolowana. (
M
i ichael
)
- Wszystkie samogłoski są usuwane z reszty (
M
i chl
)
- Spółgłoski są zastępowane
- Zero pad lewej strony.
Grupowanie spółgłoskowo konwersji opierają się na ich podobieństwo fonetyczne - B
, F
, P
i V
całej mapy do 1
.
Z czasem pojawiają się na to zmiany . Jest to szczególnie przydatne w genealogii, w której pisownia nazwy może się zmieniać z czasem, ale wymowa pozostaje podobna.
Istnieją również podejścia, takie jak ocena meczów, która została opracowana przez linie lotnicze dla nazw (zamiast amerykańskiej genealogii).
Kodowanie metody oceny dopasowania (MRA) to:
- Usuń wszystkie samogłoski niepowodujące (
Michael
staje się Mchl
i Anthony
staje Anthny
)
- Usuń drugą stałą z podwójnych
- Jeśli ciąg jest dłuższy niż 6 znaków, zmniejsz pozostały ciąg do 6 znaków, biorąc pierwsze trzy i ostatnie trzy.
Pełną specyfikację tego można znaleźć na archive.org - zauważ, że nie jest „mały” (wydrukowany formularz ma 214 strony).
Do porównania mają próg dopasowanie w oparciu o ile tekst jest.
Istnieją również inne algorytmy fonetyczne .
Zachęcam więc do zrobienia soundexu w takiej postaci, w jakiej jest, lub zmodyfikowania soundexu na podstawie spółgłosek rumuńskich i polskich spółgłosek .
Pamiętaj, że z soundex, spółgłoski są pogrupowane (w języku polskim, m
, n
,ɲ
są wszystkie spółgłoski nosowe być grupowane, a ty najprawdopodobniej grupa wargowej, stomatologiczne i pęcherzykowe spółgłoski wybuchowe - one być bezdźwięczne dźwięczne lub razem - udzielone, nie wiem znam polski, więc nie wiem, czy mówię tylko rzeczy, które nie są prawdą).
Następnie po prostu ukryj wszystkie nazwy w bazie danych do dwóch różnych systemów soundex i dowiedz się, jakie nazwy mają najniższy zestaw kolizji w różnych językach. To daje różne nazwy. Więc Smith
to nie pojawia się jako Smyth
.
To jednak rozwiązuje jedynie „imię, które może kolidować z innymi nazwami i być źle słyszane”. Nie odnosi się do drugiego sposobu, w jaki „imię zostało poprawnie usłyszane, zapisane niepoprawnie” i dlatego należy skupić uwagę na zwyczajowych nazwach.
Na przykład Michael
była bardzo popularną nazwą w Stanach Zjednoczonych od początku 1950 r. Do końca 1970 r. Była bardzo popularna . Jednak z jakiegoś powodu nazwa Micheal
była popularna w latach 50. XX wieku (osiągnęła 83. najpopularniejszą nazwę u szczytu). I jestem pewien, że ludzie o imionach Micheal
ciągle mają błędnie zapisane nazwiska.
Dlatego powinieneś skupić się na nazwach, w których istnieje jedna nazwa, która dominuje popularność nazwy dla danej wymowy. Zerkając na innego konsumenta danych dla nazw na rok, można zobaczyć, że nazwy zaczynające się Jam ... dla chłopca są bałagan z Jamaal
, Jamal
, Jamar
i innych. Nawiasem mówiąc, te nazwy mają nieco inne soundexes dla Amerykanina ( J540
, J540
iJ560
- w imieniu l
i r
są w różnych grupach, chociaż są one ściśle związane z fonetyki). Jednak dla kogoś z, powiedzmy Japonii, w regionie fonetycznym jest tylko jeden dźwiękl
ir
wymawia się w amerykańskim angielskim. Może to również stanowić wyzwanie dla wiodących spółgłosek wykorzystujących soundex, o których należy wiedzieć (kiedyś pracowałem z Japonką, która nazywała siebie Risa (z „R”), a nie Lisa jako romanizacja jej japońskiego imienia).
Zauważysz, że moje przykłady dotyczą Stanów Zjednoczonych. Te dane są łatwo dostępne. Najwyraźniej są pewne rzeczy dla Polski i Węgier , i tylko wskazówki na temat węgierskiej nazwy ... Podejrzewam, że pomocne może być wyszukiwanie w języku innym niż angielski.
Biorąc pod uwagę soundex dla nazwy, kilka kolizji i faktyczna pisownia jest w zestawie kolizji. Najlepiej jest to nazwa zwyczajowa. Patrząc na tę węgierską listę, pisanie z nią Krisztián
prawdopodobnie spowodowałoby błędy ortograficzne, a Zoltán
rzadziej - (22 najpopularniejsze imię dziecka w 2011 roku na Węgrzech!). To powiedziawszy, nie możesz się pomylić Michael
.