Gdzie mogę znaleźć zestawy danych przydatne do testowania własnych wdrożeń uczenia maszynowego? [Zamknięte]

Obecnie próbuję samodzielnie wdrożyć niektóre algorytmy uczenia maszynowego. Wiele z nich ma tę nieprzyjemną właściwość, że jest trudna do debugowania, niektóre błędy nie powodują awarii programu, ale raczej działają niezgodnie z przeznaczeniem i wydają się, że algorytmy po prostu dają słabsze wyniki.

Chciałbym mieć sposób na zwiększenie mojego zaufania do implementacji, na przykład gdybym miał kilka małych zestawów danych, z dodatkowymi informacjami „Algorytmy X działały dla iteracji Y i miały wyniki Z dla tego zestawu danych”, co byłoby bardzo pomocne. Czy ktoś słyszał o takich zestawach danych?

dataset

— sjm.majewski
źródło

Jakie badania przeprowadziłeś, badając to pytanie? Na pierwszy rzut oka można by pomyśleć, że literatura, której używasz do znalezienia tych algorytmów, byłaby pełna przykładowych zestawów danych.

— whuber

Cóż, znam ML głównie z kursu uniwersyteckiego, Coursea, wykładów w Internecie i kilku artykułów, które przeczytałem na określone tematy. Wiem, że wszędzie jest wiele przykładowych zestawów danych, ale szukam informacji z tym, jak działały na nich różne algorytmy ML, więc mogę zweryfikować własne implementacje.

— sjm.majewski

Niedawno w ICML pojawił się dobry artykuł na temat problemu ze znormalizowanymi zbiorami danych - że powstrzymuje cię to od zbytniego myślenia o problemach w świecie rzeczywistym i bałaganie, jakie wiążą się z problemami w świecie rzeczywistym. Osobiście, kiedy zacząłem wykorzystywać rzeczywiste dane, rozkwitły moje umiejętności jako praktyka. Więc chociaż nie zniechęcę cię do używania takich rzeczy jak UCI jako odskocznia lub test, miej oko na nagrodę!

— Patrick Caldon

Powinieneś określić, jaki rodzaj uczenia maszynowego wykonujesz. Zestawy danych klasyfikacji binarnej różnią się od zbiorów danych aproksymacji funkcji (regresji).

— Douglas Zare

stackoverflow.com/questions/3272806/…

— Abhishek Gupta

Odpowiedzi:

Z repozytorium uczenia maszynowego UC Irvine :

Obecnie utrzymujemy 223 zestawy danych jako usługę dla społeczności uczącej się maszynowo. Możesz przeglądać wszystkie zestawy danych za pośrednictwem naszego interfejsu z możliwością wyszukiwania. Nasza stara strona internetowa jest nadal dostępna dla tych, którzy wolą stary format. ... Jeśli chcesz przekazać zestaw danych, zapoznaj się z naszą polityką darowizn. ... Stworzyliśmy również witrynę lustrzaną dla repozytorium.

Ponadto powszechnie wykorzystywany i badany jest następujący zestaw danych MIAS :

Podczas porównywania algorytmu zaleca się stosowanie standardowej testowej bazy danych (zestawu danych), aby naukowcy mogli bezpośrednio porównywać wyniki. Większość baz danych mammograficznych nie jest publicznie dostępna. Najłatwiej dostępnymi bazami danych, a zatem najczęściej używanymi, są baza danych Mammographic Image Analysis Society (MIAS) oraz cyfrowa baza danych dla mammografii przesiewowej (DDSM). Poza tym niewiele jest obecnie projektów rozwijających nowe bazy danych obrazów mammograficznych, a także kilka starych projektów.

— deepML
źródło

+1 Jeśli nadal znajdziesz więcej źródeł, zachęcamy do rozszerzenia tej odpowiedzi.

— whuber

Repozytorium UCI wspomniane przez Bashara jest prawdopodobnie największe, ale chciałem dodać kilka mniejszych kolekcji, z którymi się spotkałem:

Zestawy danych z biblioteki Mulan Java
Zestawy danych z Auton lab School of Computer Science na Carnegie Mellon University
Zestawy danych używane w książce Elementy statystycznego uczenia się
Kilka zestawów danych z zawodów Pucharu KDD
Zbiory danych na Wydziale Statystyki Uniwersytetu w Monachium

— wrz
źródło