Muszę się upewnić, że moja mapa witryny XML ma mniej niż śmieci (zepsute linki). Lista adresów URL znajduje się w setkach tysięcy i nawet jeśli byłoby możliwe przetestowanie ich wszystkich 1 na 1, wolałbym tego nie robić z wielu powodów:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Myślę więc, że wybranie losowego podzbioru byłoby wystarczające, problem polega na tym, że nie znam prawdopodobieństw.
Czy mogę skorzystać z prostej funkcji?
Jeśli to pomoże, możemy przypuszczać, że mamy a priori informacje o prawdopodobieństwie zerwania łącza w różnych seriach. Powiedzmy, że w różnych seriach istnieje dla każdego linku, który ma zostać uszkodzony.