Używam Debiana 7.2 na starym Macbooku Pro z końca 2006 roku. Mam do niego podłączone dwa dyski twarde Seagate Backup Plus o pojemności 4 TB, które mam w lustrzanej puli ZFS. Niedawno jeden z dysków zmarł i otrzymałem dysk zastępczy, który próbuję dodać jako nowe lustro. Nie mogę go jednak przywrócić do stanu resilvera, ponieważ nieuchronnie zdarza się błąd, zanim będzie mógł się zakończyć.
Problem polega na tym, że ten napęd zastępczy najwyraźniej ciągle się rozłącza i łączy ponownie w ułamku sekundy. Znalazłem następujące komunikaty drukowane w dzienniku systemowym w kółko:
Jan 19 20:08:07 thingamadealies kernel: [100555.410370] usb 1-1: USB disconnect, device number 43
Jan 19 20:08:07 thingamadealies kernel: [100555.660059] usb 1-1: new high-speed USB device number 44 using ehci_hcd
Jan 19 20:08:07 thingamadealies kernel: [100555.794444] usb 1-1: New USB device found, idVendor=0bc2, idProduct=a0a4
Jan 19 20:08:07 thingamadealies kernel: [100555.794452] usb 1-1: New USB device strings: Mfr=2, Product=3, SerialNumber=1
Jan 19 20:08:07 thingamadealies kernel: [100555.794458] usb 1-1: Product: Backup+ Desk Mac
Jan 19 20:08:07 thingamadealies kernel: [100555.794463] usb 1-1: Manufacturer: Seagate
Jan 19 20:08:07 thingamadealies kernel: [100555.794467] usb 1-1: SerialNumber: XXXXXXXX
Jan 19 20:08:07 thingamadealies kernel: [100555.795636] scsi41 : usb-storage 1-1:1.0
Jan 19 20:08:07 thingamadealies mtp-probe: checking bus 1, device 44: "/sys/devices/pci0000:00/0000:00:1d.7/usb1/1-1"
Jan 19 20:10:46 thingamadealies kernel: [100714.601169] usb 1-1: USB disconnect, device number 44
Jan 19 20:10:46 thingamadealies kernel: [100714.872081] usb 1-1: new high-speed USB device number 45 using ehci_hcd
... etc ...
Czasami dzieje się to kilka razy na minutę. Czasami wiadomości są drukowane po kilka sekund. Innym razem takie zachowanie ustaje całkowicie na kilka godzin, a nawet na dzień. Podejrzewam, ale nie mam dowodów, że może to być związane z obciążeniem dysku twardego.
Żadne inne błędy USB lub IO, ani inne istotne komunikaty nie są drukowane w syslog i nie wiem, gdzie jeszcze mogę szukać wskazówek.
Drugi dysk w ogóle nie ma tego problemu i działa świetnie, odkąd go mam.
Co próbowałem do tej pory:
- przełączanie wtyczek USB, do których podłączone są napędy, aby sprawdzić, czy na drugim napędzie występuje ten problem. Jak dotąd tak nie było, ale minęła tylko godzina lub dwie.
- Zrobiłem też dość dużo google i znalazłem innych ludzi z podobnymi problemami, ale żaden z nich nie jest taki jak mój i nie znalazłem jeszcze rozwiązania. Większość osób z tym problemem co najmniej dostaje jakiś błąd USB w syslog wraz z komunikatem „Odłącz USB”.
Każda pomoc, którą ktoś mógłby mi udzielić, byłaby bardzo mile widziana! Naprawdę nie wiem, jak debugować taki problem sprzętowy.
Aktualizacja:
Po zmianie, do których wtyczek USB podłączone są napędy, komunikat wysyłany do syslog zmienił się na:
USB 1-3: Zresetuj szybkie urządzenie USB numer 4 za pomocą ehci_hcd
Potwierdziłem, że USB 1-3 to problem z napędem. Więc coś jest nadal nie tak, ale teraz jest to nieco inna zła rzecz. Do tej pory ZFS nie miał żadnych błędów ... mam nadzieję, że tak pozostanie.
Aktualizacja 2:
Resilvering dobiegł końca! Nadal jednak pojawia się komunikat „Zresetuj szybkie urządzenie USB”. Próbowałem przełączać kable między moimi dwoma dyskami, ale nie miało to żadnego znaczenia, więc myślę, że to wyklucza problem z kablem.
Widziałem pewne dowody na to, że aktualizacja mojego jądra może to naprawić, więc spróbuję.
Aktualizacja 3:
Zaktualizowałem moje jądro do wersji 3.10, nie miało żadnego efektu. Nadal nie wiem, jak to naprawić.
usb 4-1.5: USB disconnect, device number 3
usb 4-1.5: new low-speed USB device number 4 using ehci-pci
usb 4-1.5: New USB device found, idVendor=17ef, idProduct=6019
....