Lorsqu'une configuration RAID 5 perd régulièrement l'un de ses disques, puis qu'il arrive même qu'elle en perde deux d'un coup, outre le fait de pouvoir perdre quelques données, c'est toujours irritant de constater qu'une solution redondante se plante.

Mais lorsque la même chose se produit sur d'autres installations similaires, ça devient carrément agaçant !

En revanche, des installations similaires avec des contrôleurs Adaptec avec moins de canaux S-ATA (4 au lieu de 8) et donc moins de disques fonctionnaient parfaitement (pour l'instant)...

Il est toujours difficile de cerner le problème, et bien que le contrôleur RAID Adaptec 2820SA fût le suspect tout désigné, le support d'Adaptec assurait que ce dernier était parfaitement stable et même si j'en doutais fortement au début, j'ai éliminé cet élément des suspects pour finalement faire des recherches sur les autres composants.

Il en est ressorti que c'était finalement les disques Western Digital de type WDxxxxYS qui posaient problème !

L'article #1493 de la base de connaissances de Western Digital explique que pour les disques de type WD1600YS, WD2500YS, WD4000YS et WD5000YS, les disques peuvent disparaître par intermittence d'un set de RAID (voir ici) !!! Ceci est dû au processus interne Data Lifeguard qui augmente la durée de vie de disque. Cependant, si le disque dur découvre une erreur, il s'enferme dans une boucle sans fin et devient inaccessible pour le contrôleur. Seul un redémarrage du disque dur peut fixer le problème!

Bref, une grande ânerie que Western Digital propose de corriger en mettant à jour le firmware des disques durs. A noter que ce n'est pas un boulot qui ne prend que 2 minutes, car il faut arrêter la machine qui utilise les disques, puis connecter un par un les disques durs un contrôleur S-ATA standard (non RAID), booter sur disquette et upgrader le firmware.

Les précautions d'usage sont à respecter, à savoir un backup des données du RAID avant la mise à jour des firmwares.

Pour joindre l'utile au désagréable, on pourra peut-être profiter de cet arrêt pour mettre à jour le firmware du contrôleur RAID !