Jakie są minimalne kryteria dopasowania zalecane do niezawodnego dopasowania pacjenta na podstawie danych demograficznych?


30

Czy podczas dopasowywania pacjentów na podstawie danych demograficznych istnieją jakieś zalecenia dotyczące tego, jakie pola powinny być dopasowane, aby pacjent był „tym samym pacjentem”?

Wiem, że algorytmy będą różne dla różnych implementacji. Jestem ciekawy, czy istnieją jakieś najlepsze praktyki lub zalecenia dotyczące tego procesu.

First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip

itp?


4
Prawdopodobnie odpowiedź na to pytanie może się również zmienić w zależności od konkretnego kraju, a nawet względów etnicznych i kulturowych. Na przykład nazwisko osoby może nie być dobrym identyfikatorem pacjenta dla australijskich aborygenów (lub powinna mieć niższą „wagę” w ich przypadku), ponieważ mogą one z czasem zmieniać nazwisko. Australijscy aborygeni, którzy noszą to samo imię co zmarły, porzucają go, ponieważ uważają, że bardzo źle jest nosić takie samo imię zmarłego. Coś podobnego dzieje się w innych kulturach, w których imię zmarłych to tabu. link

4
Lub inny przykład z dotychczas niepublikowanego badania: u imigrantów z Filipin do USA dziesięć najczęstszych nazwisk stanowi około 6% wszystkich osób. W wietnamskich imigrantach stanowią oni ~ 60%. Imiona są znacznie lepszym identyfikatorem u Filipińczyków niż Wietnamczyków. Na pewno opublikuję to badanie, gdy będzie dostępne.

Wystarczy wyjaśnić: czy głównym celem jest dopasowanie dwóch zestawów rekordów?

Próbując dopasować rekordy, należy rozróżnić siłę dopasowania („Bob” jest bardzo podobny do „Bob”) i liczbę możliwych dopasowań (jest wiele Bobs). Jeśli dwa rekordy mają tę samą nazwę i nie ma innych rekordów o tej nazwie , prawdopodobnie jest to ta sama osoba, nawet jeśli adresy się różnią. Zakładając, że masz duży korpus, oczywiście.
Jon of All Trades

Odpowiedzi:


20

Jest ten wspaniały esej (po hiszpańsku, przepraszam) napisany przez Pablo Pazosa, inżyniera CS z Urugwaju, który pracuje nad IT Healthcare od 2006 roku i wniósł duży wkład w tę dziedzinę, w którym opisuje algorytm do tego.

Możesz uruchomić artykuł za pośrednictwem tłumacza, ale jego podstawową informacją jest to, że podstawowe informacje pozwalające ustalić tożsamość osoby to jej imię i nazwisko (zarówno ojca, jak i matki), płeć i data urodzenia. Co ciekawe, w szczególności wyklucza numery identyfikacyjne takie jak SSN z algorytmów dopasowywania tożsamości, ponieważ „jakikolwiek identyfikator NIE jest częścią jego tożsamości” (myślę jednak, że ten punkt może być dyskusyjny). Ponadto wyklucza atrybuty takie jak adres, numery telefonów itp., Ponieważ nie są one tak naprawdę powiązane z tożsamością kogoś, nie są powiązane z „kim naprawdę jest”.

Ponadto przypisuje różne „wagi” do każdego z poprzednich atrybutów, jak poniżej:

  • Imię: 17,5%
  • Drugie imię: 17,5%
  • Nazwisko (ojciec): 17,5%
  • Nazwisko (matka): 17,5%
  • Płeć: 10%
  • DOB: 20%

Z dopasowaniami znalezionymi w każdym z tych atrybutów opisuje on metodologię uzyskania złożonego „indeksu zgodności zgodności”, z którym możliwe jest porównanie między rekordami. Możliwe są również „częściowe” dopasowania atrybutów nazwy za pomocą algorytmów takich jak odległość Levenshteina .

Dobra lektura, IMO. Przepraszam, to po hiszpańsku, ale mam nadzieję, że udało mi się przekazać jego główne pomysły.


2
to świetnie, dzięki. +1 za wskazanie odległości, ponieważ literówki są dość powszechne, szczególnie w społecznościach o dużej różnorodności kulturowej, jak to często bywa w Ameryce Północnej. To powiedziawszy, większość przypadków, w których muszę wykonywać, odpowiada zakresowi możliwych wartości jest dość ograniczona. Tak więc w takich przypadkach wystarczy dowolne wiarygodne kryterium (takie jak numery ubezpieczenia zdrowotnego), które zwróci pojedyncze trafienie w bazie danych, jeśli zwróconych zostanie wiele wpisów, zwykle pytam użytkownika (jeśli jest dostępny) lub filtruję według dodatkowego kryterium.

(... cd.) Należy jednak pamiętać, że przypadki te dotyczą również lokalnej instalacji EMR w klinice lub szpitalu lub RIS w oddziale radio9logy. W takich przypadkach klient albo jest zarejestrowany w klinice, albo w szpitalu, albo nie. W przypadku MPI jest to jednak zupełnie nowa gra w piłkę.

13

Nie ma jednego magicznego algorytmu dopasowywania pacjentów i wątpię, by kiedykolwiek istniał.

Na początek istnieją regionalne wariancje. Jak zauważył MMattoli, to, co działa dobrze w miejskim szpitalu w USA, prawdopodobnie nie będzie dobrze pasować w wiejskiej australijskiej klinice leczącej Aborygenów.

Ponadto poszczególne strony mają różne poglądy na temat odporności na uszkodzenia. Gdybyś pasował tylko wtedy, gdy byłeś absolutnie pewien , dostałbyś dużo pominiętych meczów. Powoduje to zduplikowanie danych pacjenta, co stwarza zupełnie inny zestaw problemów. Większość stron zechce się osiedlić z całą pewnością , ale na ile to wystarczające? Zapytaj 10 osób, a otrzymasz 12 odpowiedzi.

Dlatego też „najlepszy” algorytm będzie konfigurowalny, aby Twoi klienci mogli go dostosować do swoich potrzeb.

Rozważając dopasowanie, różne pola oferują różne stopnie pewności.

Identyfikatory właściwe dla opieki zdrowotnej dają największą pewność, ponieważ ich jedynym celem jest jednoznaczna identyfikacja osoby w systemie opieki zdrowotnej. Szpitale zwykle starają się, aby się nie powielały.

Przykłady:

  • National Health ID (np. Brytyjski numer NHS)
  • Przypisany do szpitala numer dokumentacji medycznej.

Inne identyfikatory pacjentów mogą również zapewniać wysoką pewność, w zależności od systemu. Na przykład dowód wojskowy jest prawdopodobnie bardzo istotny w szpitalu wojskowym.

Przykłady:

  • Dowód wojskowy
  • ID ubezpieczenia
  • Numer ubezpieczenia społecznego (w Stanach Zjednoczonych numer ubezpieczenia społecznego zasadniczo nie jest uważany za dopasowanie o wysokim poziomie zaufania ze względu na powszechne oszustwa ubezpieczeniowe).

W przypadku braku niepowtarzalnych identyfikatorów należy skorzystać z informacji demograficznych. Nie zaleca się dopasowywania na jednym polu, ale im więcej pól demograficznych, tym bardziej pewne dopasowanie.

Rzeczy o osobie, która często się nie zmienia, dobrze pasują:

  • Imię
  • Płeć
  • Data urodzenia

Ale w meczu można wziąć pod uwagę jeszcze bardziej plastyczne informacje, aby zwiększyć pewność siebie:

  • Adres
  • Numer telefonu
  • Adres e-mail

3
SSN ma również pewne bardzo restrykcyjne ograniczenia, na przykład w Kanadzie prosić o nie, nawet jeśli nie jesteś pracodawcą lub bankiem (być może też nie jestem prawnikiem). Inne miejsca, takie jak Chiny, używają go do prawie wszystkiego, nawet do kupowania biletów kolejowych podczas wakacji o dużym natężeniu ruchu.

Zmiany nazwisk są powszechne, jeśli jesteś kobietą. Dwie osoby często mają to samo imię, a nawet mieszkają w tym samym miejscu (na przykład ojciec z synem nazwanym jego imieniem).
HLGEM

@HLGEM: Całkowicie poprawne, dlatego do dopasowania nie należy używać pojedynczego pola demograficznego. Ale kiedy ludzie muszą się do tego uciekać, bardziej statyczne pola (które jednak się czasami zmieniają) są bardziej niezawodne niż alternatywa. Ale to nie czyni ich dobrymi.
Lynn

7

Warto również sprawdzić poprzednie nazwiska, ponieważ często się zmieniają.


+1 „często” to mało powiedziane. :) Z pewnością może tak być w przypadku pacjentów, którzy nie są identyfikowalni lub nienazwani, noworodków, źle zidentyfikowanych i tak dalej. Nazwy są trudniejsze, ale bardziej znaczące, w środowisku z wieloma transakcjami.

4

Oprócz oczywistych kombinacji trzech poniższych podanych w pytaniu

First Name
Last Name
Date of Birth
City
State
ZIP/Pin Code

Pomyślałbym o dodaniu phone number (Home and/or Cell)do listy. Obecnie jest to dość powszechne i każdy będzie miał unikalny numer, a nawet jeśli czasami ludzie zmienią swoje numery telefonów, starsze numery są zapamiętywane przez większość ludzi, więc mogą się przydać.

Odkryliśmy, że adres często cierpi z powodu wielu pisowni i wielu sposobów renderowania, szczególnie w krajach takich jak Indie, gdzie ludzie używają lokalnego języka, a oprogramowanie do zarządzania pacjentami „wciąż” używa angielskiego.


3

Płeć w zapisach wydaje się często pochodzić od imienia. Widziałem zwiększoną wariancję płci dla obcokrajowców, kiedy nie możemy wyprowadzić płci z imienia i nazwiska.

W Niemczech istnieją dalsze warianty z nazwami zawierającymi „Umlaute”, takie jak „äöü”, które czasami zastępuje się „ae oe ue”.


1

Moja myśl jest w kolejności jak poniżej 1). SSN, nazwisko i pierwsze 5 znaków imienia 2). SSN, data urodzenia i pierwsze 5 znaków imienia 3). SSN, data urodzenia i nazwisko 4). SSN, płeć, data urodzenia 5). Nazwisko, pierwsze 5 znaków imienia, miasto i kod pocztowy


1

To naprawdę trudny problem w USA. Imiona nie są unikalne i często zmieniają się w ciągu życia danej osoby lub są przedstawiane w różny sposób (na przykład Rob kontra Robert), więc nigdy nie można ich używać do identyfikacji pacjenta, chyba że w połączeniu z pewnymi bardziej wiarygodnymi informacjami. Numer ubezpieczenia zdrowotnego i dostawca zmieniają się znacznie częściej i mogą być takie same dla wielu członków rodziny. SSN jest podobno wyjątkowy, ale wokół niego występują oszustwa. To samo z numerem kadzidła kierowcy, który oczywiście nie każdy będzie miał.

Osobiście zaczynałbym od numeru polisy ubezpieczeniowej oraz kombinacji daty urodzenia i nazwiska, a następnie połączenia SSN i ​​daty urodzenia i kombinacji nazwisk. Sprawdzałbym adres i telefon, aby dać mi dodatkową pewność, że pasują, ale nie mają zbyt dużej wagi, jeśli nie pasują. Dodatkowo użyłbym grupy krwi jako czynnika wykluczającego, jeśli jest ona znana (i wszyscy wiemy, że wampiry szpitalne będą pobierać próbki krwi), ponieważ to się nie zmienia. Dopasowywanie nazw musiałoby być dopasowaniem rozmytym ze względu na problem z nazwiskami. Inne rzeczy powinny na ogół szukać dokładnego dopasowania pierwszego zamazanego dopasowania, jeśli pewność nazwy jest naprawdę wysoka (może to być literówka wpisująca numer SSN).

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.