Po pierwsze, polecam zacząć od przykładowych danych dostarczonych z oprogramowaniem. Większość dystrybucji oprogramowania zawiera przykładowe dane, których można użyć do zapoznania się z algorytmem bez zajmowania się typami danych i zapasem danych w odpowiednim formacie dla algorytmu. Nawet jeśli budujesz algorytm od zera, możesz zacząć od próbki z podobnej implementacji i porównać wydajność.
Po drugie, zaleciłbym eksperymentowanie z syntetycznymi zestawami danych, aby dowiedzieć się, jak działa algorytm, gdy wiesz, jak dane zostały wygenerowane i stosunek sygnału do szumu.
W R możesz wyświetlić listę wszystkich zestawów danych w aktualnie zainstalowanych pakietach za pomocą tego polecenia:
data(package = installed.packages()[, 1])
Pakiet R mlbench zawiera prawdziwe zestawy danych i może generować syntetyczne zestawy danych, które są przydatne do badania wydajności algorytmu.
Scikit-learn Pythona ma przykładowe dane i generuje również zestaw danych syntetycznych / zabawkowych.
SAS ma dostępny zestaw danych szkoleniowych do pobrania, a przykładowe dane SPSS są instalowane wraz z oprogramowaniem pod adresem C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples
Na koniec popatrzę na dane na wolności. Porównałbym wydajność różnych algorytmów i parametrów dostrajania w rzeczywistych zestawach danych. Zazwyczaj wymaga to dużo więcej pracy, ponieważ rzadko można znaleźć zestaw danych z typami danych i strukturami, które można upuścić bezpośrednio w swoich algorytmach.
W przypadku danych w środowisku naturalnym polecam:
Archiwum zestawu danych reddit
Lista KDnugget