Natknąłem się na następujący problem, który uznaję za raczej typowy.
Mam kilka dużych danych, powiedzmy, kilka milionów wierszy. Przeprowadzam na nim kilka nietrywialnych analiz, np. Zapytanie SQL składające się z kilku pod-zapytań. Otrzymuję pewien wynik, stwierdzając na przykład, że właściwość X rośnie z czasem.
Są dwie możliwe rzeczy, które mogą do tego doprowadzić:
- X rzeczywiście rośnie z czasem
- Mam błąd w mojej analizie
Jak mogę sprawdzić, czy zdarzyło się pierwsze, a nie drugie? Debuger krokowy, nawet jeśli taki istnieje, nie pomoże, ponieważ wyniki pośrednie mogą składać się z milionów linii.
Jedyne, co mogłem wymyślić, to jakoś wygenerować mały, syntetyczny zestaw danych z właściwością, którą chcę przetestować i uruchomić na nim analizę jako test jednostkowy. Czy są na to narzędzia? W szczególności, ale nie wyłącznie, SQL.