Narzędzie do generowania dużych zestawów danych danych testowych [zamknięte]


25

Wiele razy, gdy próbujemy wymyślić skuteczny projekt bazy danych, najlepszym rozwiązaniem jest zbudowanie dwóch przykładowych baz danych, wypełnienie ich danymi i uruchomienie kilku zapytań, aby sprawdzić, która z nich działa lepiej.

Czy istnieje narzędzie, które stosunkowo szybko wygeneruje (najlepiej bezpośrednio do bazy danych) duże (~ 10 000 rekordów) zestawy danych testowych? Szukam czegoś, co przynajmniej działa z MySQL.

Odpowiedzi:


12

Najlepszym narzędziem (jeśli możesz je znaleźć) jest DataFactory. (Niestety skończył się druk). Wygenerowałem z niego absolutnie zachwycające (i dość autentycznie wyglądające) zbiory danych.

Generatedata.com jest ... akceptowalna, ale nie skaluje się zbyt dobrze.

DataGenerator to coś, na co warto mieć oko.

I chociaż DTM Data Generator jest niezgrabny i kiepski zamiennikiem DataFactory, istnieje i jest sprzedawany, a ja wykorzystałem go do wygenerowania lekko akceptowalnych danych.



4

Zwykle generuję własne, używając niektórych znanych danych jako danych wejściowych - jeśli są zbyt przypadkowe, nie zawsze jest to dobry test; Potrzebuję danych, które będą dystrybuowane podobnie do mojego produktu końcowego.

Wszystkie większe bazy danych, które muszę dostroić, mają charakter naukowy - dlatego zwykle mogę wziąć inne dane jako dane wejściowe, przeskalować je i dodać jitter. (np. biorąc dane z pięciominutową kadencją z milisekundową precyzją i przekształcając je w 10-sekundową kadencję z precyzją milisekundową, ale jitter +/- 100 ms do czasów)

...

Ale jako kolejna alternatywa, jeśli nie chcesz pisać własnych, to przyjrzeć się niektórym narzędziom do analizy porównawczej - ponieważ mogą one powtarzać rzeczy w kółko na podstawie zestawu szkoleniowego, możesz ich używać do wstawiania partii rekordów (a następnie po prostu zignoruj ​​raporty o tym, jak szybko to zrobiło) ... a następnie możesz użyć tego samego narzędzia do testowania szybkości działania bazy danych po zapełnieniu.





1

Najbardziej opłacalnym sposobem jest prawdopodobnie użycie generatora danych typu open source lub komercyjnego. Kiedyś to robiłem.

Teraz, w moich złotych latach, każdą potrzebę danych testowych traktuję jako mandat do nauki innego języka skryptowego.


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.