(pierwotnie opublikowany na serverfault )
Więc zamiast zgadywać, jaka jest przyczyna (chociaż moje pieniądze są na sterownikach NVIDIA), gdzie zaczynam szukać pewnych faktów?
Przeglądałem / var / log kilka razy, ale jest tam mnóstwo rzeczy i nie mogę (jeszcze) dostrzec ważnych bitów.
Tło: krótka wersja
Przeprowadziłem się z WinXP do Ubuntu Karmic zaraz po tym, jak stał się dostępny.
Od tego czasu miałem serię pozornie przypadkowych awarii, które objawiają się jako:
- spontaniczny restart
- całkowite zablokowanie, gdy klawiatura i mysz USB przestają reagować (aż do wyłączenia wszystkich diod LED). Również zwykle nie będę mógł ssh do skrzynki, kiedy to się stanie.
Przeprowadziłem wiele poszukiwań, a Nvidia wydaje się być główną podejrzaną, ale nie mam pojęcia, od czego zacząć szukać prawdziwej przyczyny.
Użytkownik błędu serwera zasugerował sprawdzenie pamięci RAM za pomocą MemtextX86 +. Nie znaleziono błędów. Sugerowano również monitorowanie temperatury karty graficznej, nad którą teraz patrzę.
Inne niż sugestie ktoś?
Tło: długa wersja
Czasami mogę przejść cały tydzień bez awarii, a następnie mieć 5 w ciągu 2 dni.
Zmotywowany chęcią wyeliminowania potencjalnych podejrzanych, z czasem wprowadziłem kilka zmian, ale bezskutecznie:
- Pierwotnie korzystałem z KVM do wirtualizacji, teraz używam VirtualBox OSE
- Miałem NFS działający w jądrze, ale teraz używam Samby
- Korzystałem z Compiz, ale od tego czasu to wyłączyłem
- Mam wersję 64-bitową Karmic do 32-bitowej (również z innych powodów)
- Próbowałem Ubuntu, Kubuntu i Xubuntu. Ten sam problem za każdym razem (choć ostatnio wydaje się, że częściej występuje w Gnome niż w XFCE).
- Zwróciłem sterownik Nvidia z wersji 185 z powrotem do wersji 96 (moduł jądra Linux x86 NVIDIA 96.43.13 czw 25 czerwca 18:42:21 PDT 2009). To wydaje się być zmniejszona częstotliwość błędów.
W zależności od tego, co się dzieje w tym czasie, może się to różnić. Następujące są powszechne, ale niekoniecznie były uruchamiane przy każdej awarii:
- Firefox 3.5
- VirtualBox OSE z 1 lub 2 maszynami wirtualnymi z systemem Windows XP
- Skype
- Rhythmbox lub Exaile
Mój sprzęt ma 2-3 lata:
- Core 2 Duo 6300
- 4 GB pamięci RAM
- jakaś rasa płyty głównej Intela tego rocznika
- dwugłowicowa karta graficzna Asus z chipsetem Nvdia GeForce 7300 GS
- 2 x dyski twarde SATA
- podwójne monitory (stąd polegam na zastrzeżonych sterownikach NVIDIA)
Jestem na bieżąco z aktualizacjami systemu.
Mam nadzieję, że powyższe dane mogą skłonić kogoś do zasugerowania określonego typu dziennika lub konfiguracji, który byłby wart zbadania.
Aktualizacja 1
właśnie miał wypadek, w którym głośniki oszalały. Zrobiłem trochę googlingu i wydaje się, że PulseAudio miało kilka problemów w przeszłości. Nie jestem jeszcze pewien, czy jest to istotne, ale PulseAudio będzie działał za każdym razem, gdy miałem awarię.
Aktualizacja 2
Śledzenie linku @ CarlF do Przewodnika Debian Sysadmin doprowadziło mnie do magicznego klucza sysrq, który spróbuję przy następnej awarii. Nie to da mi wiele wskazówek co do przyczyny, ale przynajmniej mam nadzieję, że będę mógł z wdziękiem się zamknąć.
Aktualizacja 3
Czujniki lm informują, że mój procesor graficzny pracuje w temperaturze prawie 70C / 158F - to interesujące. Gdybym musiał zgadywać, powiedziałbym, że to ważna wskazówka.
Aktualizacja 4
Uderzaj wnętrza systemu za pomocą airdustera wkrótce po mojej ostatniej aktualizacji - wynik netto: od tego czasu tylko jedna awaria. Nazywam to problemem termicznym.