Istnieją podstawowe rzeczy, które możesz zrobić z dowolnym zestawem danych:
- Sprawdź poprawność (tolerancja długości łańcucha, typ danych, maski formatowania, wymagana obecność pola itp.)
- Poprawność zakresu (czy to pozornie poprawne dane mieszczą się w oczekiwanych zakresach wartości)
- Wstępne przetwarzanie (jeśli spróbuję przeanalizować te dane, czy mogę wykonać podstawy bez popełniania błędów)
- Wstępne raportowanie (uruchom raport dla zestawu danych i upewnij się, że pomyślnie przejdzie test rozsądku)
- Definiowanie wartości null vs. pusta vs. zero vs. False dla dowolnej kolumny danych
- Identyfikowanie danych, które są nie na miejscu (wartości liczbowe znacznie się różnią od innych wartości w zestawie danych, wartości ciągów, które wyglądają, jakby mogły być źle napisane itp.)
- Eliminowanie lub poprawianie oczywiście błędnych danych
Zrozumienie danych służących do identyfikacji błędów to zupełnie inna gra w piłkę i jest bardzo ważna.
Na przykład, możesz mieć regułę, która mówi, że numer seryjny musi być obecny w danym zestawie danych, a ten numer seryjny musi być alfanumeryczny z maksymalną długością łańcucha 255 i minimalną długością łańcucha 5.
Patrząc na dane, możesz zauważyć, że jedna konkretna wartość numeru seryjnego brzmi: "PLEASE ENTER SERIAL"
Jest to całkowicie poprawne, ale błędne.
To dość oczywiste, ale powiedzmy, że przetwarzasz dane giełdowe i miałeś przedział cenowy dla 1000 akcji, który był poniżej dolara. Wiele osób nie wiedziałoby, że tak niska cena akcji jest nieważna na niektórych giełdach i doskonale obowiązuje na innych. Potrzebujesz wiedzy o swoich danych, aby zrozumieć, czy to, co widzisz, jest problematyczne, czy nie.
W prawdziwym świecie nie zawsze masz luksus zrozumienia swoich danych.
Unikam problemów, wykorzystując ludzi wokół mnie. W przypadku małych zestawów danych mogę poprosić kogoś o sprawdzenie danych w całości. W przypadku dużych, bardziej odpowiednie jest pobranie zestawu losowych próbek i poproszenie kogoś o sprawdzenie poprawności danych.
Ponadto konieczne jest kwestionowanie źródła danych i tego, na ile można zaufać temu źródłu danych. Często mam wiele sprzecznych źródeł danych i tworzymy reguły określające „źródło prawdy”. Czasami jeden zestaw danych zawiera świetne dane w danym aspekcie, ale inne zestawy danych są silniejsze w innych obszarach.
Ręcznie wprowadzane dane są zwykle najbardziej sceptyczne, ale w niektórych przypadkach są silniejsze niż wszystko, co można uzyskać dzięki automatyzacji.