Czy ktoś wie o dobrym oprogramowaniu do anonimizacji danych? A może pakiet dla R, który anonimizuje dane? Oczywiście nie oczekując niemożliwej do anonimizacji anonimizacji - po prostu chcę to utrudnić.
Czy ktoś wie o dobrym oprogramowaniu do anonimizacji danych? A może pakiet dla R, który anonimizuje dane? Oczywiście nie oczekując niemożliwej do anonimizacji anonimizacji - po prostu chcę to utrudnić.
Odpowiedzi:
Cornell Anonimizacja Tookit jest open source. Ich strona badawcza zawiera linki do powiązanych publikacji.
Ostrzeżenie: strzeż się, że anonimizacja danych może być bardzo trudna w sposób uniemożliwiający ponowną identyfikację (de-anonimizację), bez utraty dużej części wartości danych. To nie jest sytuacja, w której możesz po prostu rzucić na to oprogramowanie bez zastanowienia. Ochrona anonimowości ludzi wymaga starannego przemyślenia. Zobacz, na przykład, ten dokument, aby dokładniej wyjaśnić, dlaczego nie jest to trywialne.
Przykładem przestrogi jest wyzwanie Netflix, w którym pozornie anonimowy zestaw danych został faktycznie powiązany z tożsamością użytkowników Netflix - lub wydaniem anonimowych rekordów wyszukiwania AOL, z których wielu (odkryli badacze) nadal można powiązać jednostki poprzez bardziej wyrafinowane analizy. Innym przykładem jest Massachusetts, gdzie komisja ds. Ubezpieczeń zdrowotnych opublikowała dane dotyczące wszystkich pracowników państwowych, po ich anonimizacji poprzez usunięcie nazwisk, adresów, numerów SSN itp. Jednak specjalista ds. Prywatności stwierdził, że nadal można było ponownie zidentyfikować osoby, a jako demonstracja pokazał, jak zidentyfikować dokumentację medyczną gubernatora. Później wykazała na przykład, że większość ludzi można jednoznacznie zidentyfikować na podstawie kodu pocztowego (lub spisu ludności), daty urodzenia i płci. Były to historie ludzi pilnie anonimizujących dane; myśleli, że wykonali dobrą anonimizację i po prostu nie zdawali sobie sprawy, jak trudny jest ten problem. Te przestrogi powinny cię zatrzymać.
Z tych powodów zniechęcam cię do próby anonimizacji własnego zestawu danych, jeśli nie masz wcześniejszego doświadczenia w tej dziedzinie.
Ważne: techniki potrzebne do anonimizacji danych prawdopodobnie będą bardzo zależeć od rodzaju danych i domeny aplikacji, w której pracujesz. Niestety nie podałeś tych informacji. W rezultacie udzielenie dobrych porad na temat anonimizacji zestawu danych jest prawie niemożliwe.
Wyobrażam sobie, że może być kuszące, aby uznać tę odpowiedź za nieprzydatną, ponieważ zamiast mówić „bądź szczęśliwy, nie martw się, po prostu rzuć ten magiczny program na swoje dane i nie musisz myśleć”, mówię „ czekaj, to trudniejsze niż się wydaje na pierwszy rzut oka, bądź ostrożny ". Zdaję sobie sprawę, że ta wiadomość może nie być zbyt popularna, ale myślę, że jest to wiadomość, którą ludzie muszą usłyszeć.
Jednym z podejść byłoby użycie filtrów Blooma. Sprawdź witrynę projektu SAFELINK pod kątem programów w Javie i Pythonie. Papierowa metoda wyjaśniania jest tutaj .
Istnieje również interesujące podejście do anonimizacji ciągów w kontekście łączenia rekordów za pomocą n-gramów opracowanych przez ANU Data Mining Group . Artykuł z opisem i przykładowym kodem Python jest dostępny tutaj .