Opracowujemy aplikację; zawiera bibliotekę opracowaną przez innego programistę, ta biblioteka komunikuje się z serwerem za pośrednictwem wielu połączeń sieciowych, a to wymaga współpracy wielu wątków. Kod po stronie serwera jest dość skomplikowany i nie mamy dostępu do kodu źródłowego.
Ostatnio odkryłem, że czasami występuje błąd powodujący awarię aplikacji. Mógłbym to odtworzyć raz i uzyskać ślad stosu, więc otworzyłem raport o błędzie. Sam błąd można łatwo naprawić (nieprzechwycony wyjątek sieciowy w jednym z wątków w tle, który powoduje, że CLR kończy działanie programu).
Problem polega na tym, że programista odmawia naprawy błędu, ponieważ „nie jest przekonany, że istnieje”. Niestety dla mnie szef jest po jego stronie i mówi, że tego błędu nie da się naprawić, chyba że zrobię „solidny test”, aby udowodnić istnienie błędu i przeprowadzić test jednostkowy w celu sprawdzenia, czy zniknął. Co jest w zasadzie niemożliwe z powodu natury błędu.
Jakakolwiek rada?