Gdzie można uzyskać dobre zestawy danych / problemy testowe do testowania algorytmów / procedur?


41

Oceniając jakość oprogramowania, którego zamierzasz użyć (niezależnie od tego, czy jest to coś, co napisałeś, czy puszki w puszce) w pracy obliczeniowej, często dobrym pomysłem jest sprawdzenie, jak dobrze działa na standardowych zestawach danych lub problemach. Gdzie można uzyskać te testy do weryfikacji procedur obliczeniowych?

(Poproszę jedną stronę internetową / książkę na odpowiedź).


Zamierzałem, aby był to post społeczności Wiki i dlatego oznaczyłem go do konwersji.
JM

3
czy to pytanie nie jest zbyt szerokie, tzn. zależy od algorytmów / charakteru problemu, którego oprogramowanie używa do rozwiązania?
Andre Holzner,

Naprawdę chciałem, aby to pytanie było wiki społeczności , @Andre (jako „duża lista” zasobów); Zaznaczyłem go do konwersji, ale nie wiem, dlaczego nie został przekonwertowany.
JM

@JM przekonwertowałem to.
David Ketcheson

Odpowiedzi:



13

Metoda wytwarzanych rozwiązań jest standardem do testowania PDE i innych solverów. Większość symbolicznych systemów algebry ma możliwości generowania kodu, co jest przydatne do tworzenia produkowanych rozwiązań. SymPy i Maple mają kod funkcji, między innymi do tego celu.




8

W obliczeniowym elektromagnetyzmie istnieje słynny (lub niesławny z powodu trudności w niektórych) zestaw problemów testowych: testowanie metod analizy elektromagnetycznej (TEAM) .

Niektóre z nich naprawdę potrzebują poważnych najnowocześniejszych technik numerycznych, aby uzyskać prawidłowe wyniki symulacji zgodne z danymi eksperymentalnymi. Na przykład problem z cewką .

Kolejny zestaw problemów testowych dla równań Maxwella opracowano za pomocą obliczeń Dauge: Benchmark dla równań Maxwella dla przybliżenia bardzo osobliwych rozwiązań . Ten w słynnej (lub niesławnej) kostce Fichera:

fichera

ϕH1+ϵE=ϕ

Δu=0,where u=rαsin(αθ).

7

Jeśli interesują Cię algorytmy analizy porównawczej dotyczące struktur molekularnych, baza danych pubchem ma duży zbiór cząsteczek głównie organicznych. Może to być przydatne do porównania prognoz właściwości molekularnych uzyskanych za pomocą różnych modeli / programów. Witryna ma kilka opcji pobierania dużych partii cząsteczek, które spełniają określone wcześniej kryteria (np. Skład chemiczny).



7

Strona internetowa CUTEr aktualizuje zestaw testowy CUTE wspomniany na stronie internetowej Arnolda Neumaiera o dodatkowe problemy związane z optymalizacją i rozwiązaniami liniowymi. Ponadto zapewnia narzędzia programowe do testowania i aktualizacji algebry liniowej oraz solverów optymalizacyjnych.







3

Alan Genz zaproponował zestaw testowy funkcji w artykule Testowanie wielowymiarowych procedur integracji . Nie mogę znaleźć wersji online tego artykułu, ale odniesienia do niego można znaleźć w artykułach o bibliotece CUBA .




2

Jeśli szukasz dużych wykresów lub danych sieciowych do przetestowania. Analiza projektu Stanford Network (SNAP) ma wiele dużych zbiorów danych wykresów zazwyczaj w postaci listy anonimowej przylegania. Niektóre z ich opcji obejmują:

Dane

Właściwości danych

  • Liczba krawędzi: od około 10 do ~ 400 milionów
  • Liczba węzłów: w dowolnym miejscu od ~ 10 do ~ 100 milionów
  • Typy krawędzi: skierowane, nieukierowane, ważone, nieważone, podpisane i niepodpisane.
  • Typy sieci: ukierunkowane, nieukierowane, dwustronne, multigraficzne, czasowe, oznaczone.

Podstawowe informacje o prawdzie dostępne w zestawach danych:

Przybory


@JM nie ma problemu! Użyłem niektóre z ich zestawów danych sieci społecznościowych jakiś czas temu dla projektu, a potem natknąłem się na tę wymianę stosów i pomyślałem, że może to być pomocne.
ryan

-3

Dane są łatwe; API do uzyskania może być trudne. Polecam Quandl . Ta strona ma ponad 10 milionów publicznie dostępnych zestawów danych dostępnych za pośrednictwem jednego, łatwego w obsłudze interfejsu API REST. Wszystkie dane są zwracane w CSV lub JSON. Lub, jeśli programowanie nie jest twoim mocnym atutem, istnieją proste sposoby na przeniesienie danych do Excela. Programiści R, Python i Ruby będą w domu z rodzimymi bibliotekami.


1
Witamy w Scicomp! Nie sądzę, że o takie dane chodzi w pytaniu; do testowania algorytmów potrzebny jest nie tylko zestaw danych, ale także odpowiedni znany wynik (w zależności od problemu / algorytmu) do porównania wyników.
Christian Clason

Dzięki, @ChristianClason. Rozumiem, co masz na myśli. Np. Jeśli oprogramowanie służy do regresji liniowej, autor jest zainteresowany zestawami danych, a także zestawem sprawdzonych wyników analizy, aby sprawdzić, czy pakiet regresji liniowej działa poprawnie.
Brian Risk
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.