tło
Nadzoruję wprowadzanie danych z literatury podstawowej do bazy danych . Proces wprowadzania danych jest podatny na błędy, szczególnie dlatego, że użytkownicy muszą interpretować projekt eksperymentalny, wyodrębniać dane z grafiki i tabel oraz przekształcać wyniki w znormalizowane jednostki.
Dane są wprowadzane do bazy danych MySQL przez interfejs sieciowy. Dotychczas uwzględniono ponad 10 000 punktów danych z> 20 zmiennych,> 100 gatunków i> 500 cytowań. Muszę przeprowadzić kontrolę jakości nie tylko danych zmiennych, ale także danych zawartych w tabelach odnośników, takich jak gatunki powiązane z każdym punktem danych, lokalizacja badania itp.
Wprowadzanie danych jest w toku, więc QA / QC będzie musiała być uruchamiana z przerwami. Dane nie zostały jeszcze publicznie udostępnione, ale planujemy je opublikować w ciągu najbliższych kilku miesięcy.
Obecnie moja kontrola jakości składa się z trzech etapów:
- drugi użytkownik sprawdza każdy punkt danych.
- wizualnie sprawdź histogram każdej zmiennej pod kątem wartości odstających.
- użytkownicy zgłaszają wątpliwe dane po uzyskaniu fałszywych wyników.
pytania
- Czy istnieją wytyczne, których mogę użyć do opracowania solidnej procedury kontroli jakości / kontroli jakości dla tej bazy danych?
- Pierwszy krok jest najbardziej czasochłonny; czy jest coś, co mogę zrobić, aby uczynić to bardziej wydajnym?