purtroppo sono qui ad esporvi un problema di causa ignota. Prima di provare a tirare alcuna ipotesi ecco un riassunto dei fatti.
Circa due mesi fa inizio a lamentare un malfunzionamento al server, come se andassero in freeze gli hard disk. La cosa strana è che al riavvio (effettuato staccando la presa di corrente) gli hard disk funzionano per un poco e quindi si bloccano di nuovo. Lì per lì inizio a pensare ad un possibile rischio imminente di rottura, anche perché l'unico messaggio che il kernel ripete mi dice molto poco (il medesimo che ho visualizzato di nuovo in questi giorni):
Codice: Seleziona tutto
Sep 21 23:55:58 debian kernel: [ 114.169094] ata1.00: failed command: READ FPDMA QUEUED
Sep 21 23:55:58 debian kernel: [ 114.169173] ata1.00: cmd 60/08:10:38:f3:68/00:00:00:00:00/40 tag 2 ncq 4096 in
Sep 21 23:55:58 debian kernel: [ 114.169179] res 41/40:00:3e:f3:68/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Sep 21 23:55:58 debian kernel: [ 114.169338] ata1.00: status: { DRDY ERR }
Sep 21 23:55:58 debian kernel: [ 114.169406] ata1.00: error: { UNC }
Sep 21 23:55:58 debian kernel: [ 114.173286] ata1.00: configured for UDMA/133
Sep 21 23:55:58 debian kernel: [ 114.173309] ata1: EH complete
Sep 21 23:56:00 debian kernel: [ 116.568796] ata1.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Sep 21 23:56:00 debian kernel: [ 116.568876] ata1.00: irq_stat 0x40000008
Sep 21 23:56:00 debian kernel: [ 116.568947] ata1.00: failed command: READ FPDMA QUEUED
Sep 21 23:56:00 debian kernel: [ 116.569026] ata1.00: cmd 60/08:00:38:f3:68/00:00:00:00:00/40 tag 0 ncq 4096 in
Sep 21 23:56:00 debian kernel: [ 116.569032] res 41/40:00:3e:f3:68/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Sep 21 23:56:00 debian kernel: [ 116.569191] ata1.00: status: { DRDY ERR }
Sep 21 23:56:00 debian kernel: [ 116.569260] ata1.00: error: { UNC }
Sep 21 23:56:00 debian kernel: [ 116.572567] ata1.00: configured for UDMA/133
Sep 21 23:56:00 debian kernel: [ 116.572591] ata1: EH complete
Sep 21 23:56:03 debian kernel: [ 118.968642] ata1.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Sep 21 23:56:03 debian kernel: [ 118.968722] ata1.00: irq_stat 0x40000008
Sep 21 23:56:03 debian kernel: [ 118.968793] ata1.00: failed command: READ FPDMA QUEUED
Sep 21 23:56:03 debian kernel: [ 118.968872] ata1.00: cmd 60/08:10:38:f3:68/00:00:00:00:00/40 tag 2 ncq 4096 in
Sep 21 23:56:03 debian kernel: [ 118.968879] res 41/40:00:3e:f3:68/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Sep 21 23:56:03 debian kernel: [ 118.969037] ata1.00: status: { DRDY ERR }
Purtroppo di nuovo ieri mi si ripresenta il medesimo problema con i log sopra indicati. In questo caso procedo come segue:
- cerco di ripristinare il sistema, però il server si avvia ma dopo un po' (qualche minuto) ricompare il messaggio del kernel di cui sopra ed il sistema diventa inusabile;
- scopro che il raid non è più sincronizzato;
- sostituisco i cavi SATA e controllo l'inserimento del cavo di alimentazione;
- ripristino del RAID (e risincronizzazione tra i due)
- fsck su tutte le partizioni (infatti era presente l'omonimo errore in fase di avvio)
Per adesso il sistema sembrerebbe funzionare senza segnalare più errori, ma mi piacerebbe scoprire le cause del malfunzionamento in modo tale da non dover più affrontare i medesimi problemi. Una ulteriore cosa strana è che mai mi si è presentato un simile problema nei due anni precedenti.
Purtroppo sono a corto di ipotesi. Ad esempio sto pensando a cali di tensione, a problemi dell'alimentatore, a cavi mal collegati ma non so davvero dove sbattere la testa. Secondo voi da che parte dovrei andare a cercare?
Infine, visti gli errori del filesystem presenti sulle macchine virtuali, mi converrebbe reinstallare tutto?
Grazie.

