Powiedzmy, że prowadzę obliczenia superkomputerowe na rdzeniach 100k przez 4 godziny na http://www.nersc.gov/users/computational-systems/edison/configuration , wymieniając około 4 PB danych przez sieć i wykonując około 4 TB I / O. Wszystkie obliczenia są liczbami całkowitymi, więc wyniki są poprawne lub niepoprawne (bez pośrednich błędów numerycznych).
Zakładając, że kod jest poprawny, chciałbym oszacować prawdopodobieństwo, że obliczenia są nieprawidłowe z powodu awarii sprzętu. Jak to zrobić? Czy istnieją dobre źródła liczb wymaganych do dokonania takiego oszacowania?