[RISOLTO] Errori con SATA su server.

Discussioni sulla compatibilità dell'Hardware con linux, Drivers, ...
Rispondi
Avatar utente
Risca
wiki member
wiki member
Messaggi: 2011
Iscritto il: 09/02/2009, 11:37
Località: Torino-Milano
Contatta:

[RISOLTO] Errori con SATA su server.

Messaggio da Risca »

Ciao a tutti,
purtroppo sono qui ad esporvi un problema di causa ignota. Prima di provare a tirare alcuna ipotesi ecco un riassunto dei fatti.

Circa due mesi fa inizio a lamentare un malfunzionamento al server, come se andassero in freeze gli hard disk. La cosa strana è che al riavvio (effettuato staccando la presa di corrente) gli hard disk funzionano per un poco e quindi si bloccano di nuovo. Lì per lì inizio a pensare ad un possibile rischio imminente di rottura, anche perché l'unico messaggio che il kernel ripete mi dice molto poco (il medesimo che ho visualizzato di nuovo in questi giorni):

Codice: Seleziona tutto

Sep 21 23:55:58 debian kernel: [  114.169094] ata1.00: failed command: READ FPDMA QUEUED
Sep 21 23:55:58 debian kernel: [  114.169173] ata1.00: cmd 60/08:10:38:f3:68/00:00:00:00:00/40 tag 2 ncq 4096 in
Sep 21 23:55:58 debian kernel: [  114.169179]          res 41/40:00:3e:f3:68/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Sep 21 23:55:58 debian kernel: [  114.169338] ata1.00: status: { DRDY ERR }
Sep 21 23:55:58 debian kernel: [  114.169406] ata1.00: error: { UNC }
Sep 21 23:55:58 debian kernel: [  114.173286] ata1.00: configured for UDMA/133
Sep 21 23:55:58 debian kernel: [  114.173309] ata1: EH complete
Sep 21 23:56:00 debian kernel: [  116.568796] ata1.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Sep 21 23:56:00 debian kernel: [  116.568876] ata1.00: irq_stat 0x40000008
Sep 21 23:56:00 debian kernel: [  116.568947] ata1.00: failed command: READ FPDMA QUEUED
Sep 21 23:56:00 debian kernel: [  116.569026] ata1.00: cmd 60/08:00:38:f3:68/00:00:00:00:00/40 tag 0 ncq 4096 in
Sep 21 23:56:00 debian kernel: [  116.569032]          res 41/40:00:3e:f3:68/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Sep 21 23:56:00 debian kernel: [  116.569191] ata1.00: status: { DRDY ERR }
Sep 21 23:56:00 debian kernel: [  116.569260] ata1.00: error: { UNC }
Sep 21 23:56:00 debian kernel: [  116.572567] ata1.00: configured for UDMA/133
Sep 21 23:56:00 debian kernel: [  116.572591] ata1: EH complete
Sep 21 23:56:03 debian kernel: [  118.968642] ata1.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Sep 21 23:56:03 debian kernel: [  118.968722] ata1.00: irq_stat 0x40000008
Sep 21 23:56:03 debian kernel: [  118.968793] ata1.00: failed command: READ FPDMA QUEUED
Sep 21 23:56:03 debian kernel: [  118.968872] ata1.00: cmd 60/08:10:38:f3:68/00:00:00:00:00/40 tag 2 ncq 4096 in
Sep 21 23:56:03 debian kernel: [  118.968879]          res 41/40:00:3e:f3:68/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Sep 21 23:56:03 debian kernel: [  118.969037] ata1.00: status: { DRDY ERR }
Nella paura sostituisco gli Hard Disk e vado a dormire sonni tranquilli.

Purtroppo di nuovo ieri mi si ripresenta il medesimo problema con i log sopra indicati. In questo caso procedo come segue:
  • cerco di ripristinare il sistema, però il server si avvia ma dopo un po' (qualche minuto) ricompare il messaggio del kernel di cui sopra ed il sistema diventa inusabile;
  • scopro che il raid non è più sincronizzato;
  • sostituisco i cavi SATA e controllo l'inserimento del cavo di alimentazione;
  • ripristino del RAID (e risincronizzazione tra i due)
  • fsck su tutte le partizioni (infatti era presente l'omonimo errore in fase di avvio)
L'attuale situazione è che il sistema principale (praticamente una macchina vuota senza alcun programma) sembrerebbe funzionare bene, mentre nelle macchine virtuali (gestite con OpenVZ e utilizzanti partizioni LVM a parte) gli errori sono troppi per permettere anche l'avvio dei vari servizi installati. Ad esempio in una la directory /etc/apache2/mod-enables era diventata un link al programma "w", un altra su cui invece apache si avvia il contenuto del sito è errato (anche qui deve esserci un problema di sovrascrizione tra i file).

Per adesso il sistema sembrerebbe funzionare senza segnalare più errori, ma mi piacerebbe scoprire le cause del malfunzionamento in modo tale da non dover più affrontare i medesimi problemi. Una ulteriore cosa strana è che mai mi si è presentato un simile problema nei due anni precedenti.
Purtroppo sono a corto di ipotesi. Ad esempio sto pensando a cali di tensione, a problemi dell'alimentatore, a cavi mal collegati ma non so davvero dove sbattere la testa. Secondo voi da che parte dovrei andare a cercare?

Infine, visti gli errori del filesystem presenti sulle macchine virtuali, mi converrebbe reinstallare tutto?

Grazie.
Ultima modifica di Risca il 22/09/2011, 18:15, modificato 2 volte in totale.
mm-barabba

Re: Malfunzionamento ambiguo al server.

Messaggio da mm-barabba »

L'alimentatore è di marca o era preinstallato nel case ?
spesso girano alimentatori made in china che fanno brutti scherzi.

questa prova serve per scartare una delle cento ipotesi possibili O0
Avatar utente
Risca
wiki member
wiki member
Messaggi: 2011
Iscritto il: 09/02/2009, 11:37
Località: Torino-Milano
Contatta:

Re: Malfunzionamento ambiguo al server.

Messaggio da Risca »

La scheda (con procio integrato) è la IONITX-F-E e mi è stata fornita con un alimentatore già in dotazione. L'alimentatore è made in china, marchio Wearnes Global co., modello WDS060120.
I parametri sono:
- INPUT: 100-240V 1.6A(MAX.)
- OUTPU: 12V 5A

Il server sopra indicato è dotato inoltre di due HardDisk da 500Gb Western (Green, a basso consumo), 3Gb di RAM, scheda aggiuntiva PCIe per ulteriore porta ethernet. Fino ad oggi 60W sembravano sufficienti!
mm-barabba

Re: Malfunzionamento ambiguo al server.

Messaggio da mm-barabba »

Non sono pratico, ma in giro si legge che la casa dichiara sufficenti 65w
pioi chi ha fatto 2 conti ammette che minimo sono 108w
poi c'è questo test che ne chiede di più (ma io non conosco tutto il tuo HW) http://extreme.outervision.com/PSUEngine

se riuscissi a provarne uno almeno per escludere il problema non sarebbe male.
Altrimenti le strade da seguire sono altre , ma hai tolto dalla lista una possibilità.
Avatar utente
Risca
wiki member
wiki member
Messaggi: 2011
Iscritto il: 09/02/2009, 11:37
Località: Torino-Milano
Contatta:

Re: Malfunzionamento ambiguo al server.

Messaggio da Risca »

Sul sito del produttore il pdf che illustra le caratteristiche indica a pag. 12 un consumo che varia da 19W in idle a 28W per attività più impegnative. Se si prendono per veri 30W secondo me ci si dovrebbe stare in 60W (30 per scheda e CPU, 10 per HD, 5 per PCI, 10 per 2 schede di RAM).
E anche vero che però forse potrebbe essere al limite...

Il problema è che mi è difficile fare test attendibili siccome il problema si presenta in modo estremamente sporadico. Siccome al momento ho già buttato via 70€ di HD vorrei andare cauto prima di effettuare altri acquisti. Al momento sto valutando seriamente la possibilità di un cavo SATA danneggiato, infatti gli HD sono tornati funzionanti solo dopo aver cambiato il cavo (ma forse potrebbe essere stato solo inserito male). Come è complicato aver a che fare con l'hardware!

Se trovo però un alimentatore in offerta un pensiero lo faccio. Non mi è chiaro però come un calo dell'alimentazione possa influire sulle prestazione di un harddisk in questa maniera.
Avatar utente
Risca
wiki member
wiki member
Messaggi: 2011
Iscritto il: 09/02/2009, 11:37
Località: Torino-Milano
Contatta:

Re: [RISOLTO] Errori con SATA su server.

Messaggio da Risca »

Penso che il tutto si sia risolto sistemando il cavo SATA (togli e rimetti). Infatti anche nei seguenti due link [1] [2] l'errore viene imputato in primo luogo probabilmente ad un problema di cavetteria.

Peccato che adesso dovrò lavorare un bel po' per ripristinare tutti i server virtuali precedentemente installati...

[1] http://pxnh.wordpress.com/2010/09/11/sata-of-love/
[2] http://unix.stackexchange.com/questions ... ng-anymore
Avatar utente
ferdybassi
Administrator
Administrator
Messaggi: 3363
Iscritto il: 28/12/2006, 4:22
Località: S. Angelo Lodigiano (LO)

Re: [RISOLTO] Errori con SATA su server.

Messaggio da ferdybassi »

Accidenti... Mi sono accorto solo adesso di questa discussione...
Anche io ho avuto un problema simile qualche anno fa sul server di un cliente: sembrava che si stesse spaccando tutto, ma tutti i pezzi, testati singolarmente, risultavano perfettamente funzionanti.
Alla fine sostituimmo i quattro cavetti SATA degli hard disk e tutto si rimise a funzionare come un orologio.

Ciao ciao
Avatar utente
Risca
wiki member
wiki member
Messaggi: 2011
Iscritto il: 09/02/2009, 11:37
Località: Torino-Milano
Contatta:

Re: [RISOLTO] Errori con SATA su server.

Messaggio da Risca »

Aggiorno questa discussione per confermare quanto sopra detto, non ho piu' problemi di sorta con gli Hard Disk (infatti finalmente anche il mio sito e' tornato raggiungibile).

Per onor di cronaca mi permetto di aggiungere che, oltre al problema dei cavi sata, ho avuto (ma non so se come penso solo successivo a quello dei cavi sata o persino contestuale) un problema con l'alimentazione: il cavo di collegamento degli HD all'alimentatore non era chiuso bene ad una presa e quindi a volte il contatto saltava brevemente. In questo caso vi era la buffa situazione per la quale il malfunzionamento era esattamente simultaneo ad entrambi gli HD, producendo sempre il medesimo errore. Pertanto, a chi si trovasse ad avere dei log analoghi a quelli qui postati, consiglio vivamente di controllare per prima cosa sia i cavi sata che quelli dell'alimentazione.


Un'ultima cosa che non mi e' ancora chiara e' come questo scherzo mi abbia corrotto gravemente il filesystem. Sinceramente pensavo che il journaling fosse piu' robusto nell'affrontare queste problematiche. Invece alla fine ho reinstallato tutto.


MORALE? I backups sono sacro santi!!
Rispondi