[mdadm] Проблемы с hdd, рассыпается raid.

Установлены два одинаковых диска, создано два рейда зеркала (raid1) средствами mdadm. Один из рейдов смонтирован как /home, и там еще лежат образа виртуальных машин KVM, ну и иногда одна или две виртуальные машины активны. С периодичностью в несколько дней не с того не с чего рейд разваливается. Причем харды от рейда отваливаются разные, бедов на них нет.

md0 : active raid1 sda7[1] sdb7[2](F)
      488278418 blocks super 1.2 [2/1] [_U]

Ранее уже менял материнскую плату, память, блок питания, такие сбои продолжаются. Жесткие диски тоже новые, им меньше месяца. В логе ядра при сегодняшнем сбое:

Oct 10 10:12:33 rout kernel: [257926.752043] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Oct 10 10:12:33 rout kernel: [257926.752053] ata2.00: failed command: FLUSH CACHE EXT
Oct 10 10:12:33 rout kernel: [257926.752069] ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Oct 10 10:12:33 rout kernel: [257926.752072]          res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct 10 10:12:33 rout kernel: [257926.752079] ata2.00: status: { DRDY }
Oct 10 10:12:33 rout kernel: [257926.752088] ata2: hard resetting link
Oct 10 10:12:43 rout kernel: [257936.752023] ata2: softreset failed (1st FIS failed)
Oct 10 10:12:43 rout kernel: [257936.752034] ata2: hard resetting link
Oct 10 10:12:53 rout kernel: [257946.752023] ata2: softreset failed (1st FIS failed)
Oct 10 10:12:53 rout kernel: [257946.752034] ata2: hard resetting link
Oct 10 10:13:28 rout kernel: [257981.752025] ata2: softreset failed (1st FIS failed)
Oct 10 10:13:28 rout kernel: [257981.752037] ata2: limiting SATA link speed to 1.5 Gbps
Oct 10 10:13:28 rout kernel: [257981.752044] ata2: hard resetting link
Oct 10 10:13:34 rout kernel: [257986.953043] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Oct 10 10:13:34 rout kernel: [257986.953054] ata2.00: link online but device misclassifed
Oct 10 10:13:39 rout kernel: [257991.953039] ata2.00: qc timeout (cmd 0xec)
Oct 10 10:13:39 rout kernel: [257991.953056] ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Oct 10 10:13:39 rout kernel: [257991.953062] ata2.00: revalidation failed (errno=-5)
Oct 10 10:13:39 rout kernel: [257991.953072] ata2: hard resetting link
Oct 10 10:13:49 rout kernel: [258001.953022] ata2: softreset failed (1st FIS failed)
Oct 10 10:13:49 rout kernel: [258001.953033] ata2: hard resetting link
Oct 10 10:13:59 rout kernel: [258011.953023] ata2: softreset failed (1st FIS failed)
Oct 10 10:13:59 rout kernel: [258011.953034] ata2: hard resetting link
Oct 10 10:14:34 rout kernel: [258046.953024] ata2: softreset failed (1st FIS failed)
Oct 10 10:14:34 rout kernel: [258046.953038] ata2: hard resetting link
Oct 10 10:14:39 rout kernel: [258052.154048] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Oct 10 10:14:39 rout kernel: [258052.154060] ata2.00: link online but device misclassifed
Oct 10 10:14:49 rout kernel: [258062.154038] ata2.00: qc timeout (cmd 0xec)
Oct 10 10:14:49 rout kernel: [258062.154054] ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Oct 10 10:14:49 rout kernel: [258062.154061] ata2.00: revalidation failed (errno=-5)
Oct 10 10:14:49 rout kernel: [258062.154073] ata2: hard resetting link
Oct 10 10:14:59 rout kernel: [258072.154023] ata2: softreset failed (1st FIS failed)
Oct 10 10:14:59 rout kernel: [258072.154034] ata2: hard resetting link
Oct 10 10:15:09 rout kernel: [258082.154022] ata2: softreset failed (1st FIS failed)
Oct 10 10:15:09 rout kernel: [258082.154033] ata2: hard resetting link
Oct 10 10:15:44 rout kernel: [258117.154023] ata2: softreset failed (1st FIS failed)
Oct 10 10:15:44 rout kernel: [258117.154036] ata2: hard resetting link
Oct 10 10:15:49 rout kernel: [258122.355045] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Oct 10 10:15:49 rout kernel: [258122.355056] ata2.00: link online but device misclassifed
Oct 10 10:16:19 rout kernel: [258152.355036] ata2.00: qc timeout (cmd 0xec)
Oct 10 10:16:19 rout kernel: [258152.355053] ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Oct 10 10:16:19 rout kernel: [258152.355060] ata2.00: revalidation failed (errno=-5)
Oct 10 10:16:19 rout kernel: [258152.355065] ata2.00: disabled
Oct 10 10:16:19 rout kernel: [258152.355079] ata2.00: device reported invalid CHS sector 0
Oct 10 10:16:19 rout kernel: [258152.355095] ata2: exception Emask 0x40 SAct 0x0 SErr 0x800 action 0x6 frozen t4
Oct 10 10:16:19 rout kernel: [258152.355103] ata2: SError: { HostInt }
Oct 10 10:16:19 rout kernel: [258152.355112] ata2: hard resetting link
Oct 10 10:16:29 rout kernel: [258162.355023] ata2: softreset failed (1st FIS failed)
Oct 10 10:16:29 rout kernel: [258162.355034] ata2: hard resetting link
Oct 10 10:16:39 rout kernel: [258172.355023] ata2: softreset failed (1st FIS failed)
Oct 10 10:16:39 rout kernel: [258172.355034] ata2: hard resetting link
Oct 10 10:17:14 rout kernel: [258207.355022] ata2: softreset failed (1st FIS failed)
Oct 10 10:17:14 rout kernel: [258207.355035] ata2: hard resetting link
Oct 10 10:17:19 rout kernel: [258212.556044] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Oct 10 10:17:19 rout kernel: [258212.556056] ata2.00: link online but device misclassifed
Oct 10 10:17:19 rout kernel: [258212.556087] ata2: EH complete
Oct 10 10:17:19 rout kernel: [258212.556150] sd 1:0:0:0: [sdb] Unhandled error code
Oct 10 10:17:19 rout kernel: [258212.556155] sd 1:0:0:0: [sdb]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Oct 10 10:17:19 rout kernel: [258212.556164] sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 1a ee 4b 0c 00 00 10 00
Oct 10 10:17:19 rout kernel: [258212.556180] end_request: I/O error, dev sdb, sector 451824396
Oct 10 10:17:19 rout kernel: [258212.556190] md/raid1:md0: Disk failure on sdb7, disabling device.
Oct 10 10:17:19 rout kernel: [258212.556193] md/raid1:md0: Operation continuing on 1 devices.
Oct 10 10:17:19 rout kernel: [258212.556221] sd 1:0:0:0: [sdb] Unhandled error code
Oct 10 10:17:19 rout kernel: [258212.556225] sd 1:0:0:0: [sdb]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Oct 10 10:17:19 rout kernel: [258212.556233] sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 08 1e d1 bc 00 00 10 00
Oct 10 10:17:19 rout kernel: [258212.556247] end_request: I/O error, dev sdb, sector 136237500
Oct 10 10:17:19 rout kernel: [258212.564038] sd 1:0:0:0: [sdb] Unhandled error code
Oct 10 10:17:19 rout kernel: [258212.564045] sd 1:0:0:0: [sdb]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Oct 10 10:17:19 rout kernel: [258212.564053] sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 06 4f 35 fc 00 00 10 00
Oct 10 10:17:19 rout kernel: [258212.564069] end_request: I/O error, dev sdb, sector 105854460
Oct 10 10:17:19 rout kernel: [258212.564093] sd 1:0:0:0: [sdb] Unhandled error code
Oct 10 10:17:19 rout kernel: [258212.564097] sd 1:0:0:0: [sdb]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Oct 10 10:17:19 rout kernel: [258212.564105] sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 08 1b e0 3c 00 00 10 00
Oct 10 10:17:19 rout kernel: [258212.564118] end_request: I/O error, dev sdb, sector 136044604
Oct 10 10:17:19 rout kernel: [258212.583837] RAID1 conf printout:
Oct 10 10:17:19 rout kernel: [258212.583841]  --- wd:1 rd:2
Oct 10 10:17:19 rout kernel: [258212.583843]  disk 0, wo:1, o:0, dev:sdb7
Oct 10 10:17:19 rout kernel: [258212.583845]  disk 1, wo:0, o:1, dev:sda7
Oct 10 10:17:19 rout kernel: [258212.583846] RAID1 conf printout:
Oct 10 10:17:19 rout kernel: [258212.583847]  --- wd:1 rd:2
Oct 10 10:17:19 rout kernel: [258212.583849]  disk 1, wo:0, o:1, dev:sda7


Подскажите что можно сделать, оно достало, каждый раз пересобирать рейд.

Вот вывод смарта после

Вот вывод смарта после сбоя:

smartctl -a /dev/sdb
smartctl 5.40 2010-10-16 r3189 [x86_64-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

Device: /1:0:0:0  Version:
scsiModePageOffset: response length too short, resp_len=47 offset=50 bd_len=46
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

ну а шлейфы, шлейфы меняли?

ну а шлейфы, шлейфы меняли?

Да, менял, поставил

Да, менял, поставил качественные, gigabyte с защелками. Может что-то типа несовместимости KVM и mdadm?

Какой контроллер, версия

Какой контроллер, версия ядра, драйвера?

Не грусти, товарищ! Всё хорошо, beautiful good!

Контролер:00:11.0 SATA

Контролер:

00:11.0 SATA controller: ATI Technologies Inc SB700/SB800 SATA Controller [AHCI mode]

Ядро:

sys-kernel/gentoo-sources-2.6.39-r3
sys-fs/mdadm-3.1.4

Ветка стабильная ~amd64. Процессор Sempron 140.

P.S. Говорили мне что на Интале надо домашнее хранилище делать, решил по дешевле на семпроне... Не оно причина?

Какая-то проблема в

Ошибка происходит только с sdb?
Какая-то проблема в контроллере, похоже. С определенной периодичностью система теряет связь с одним из дисков, пытается переинициализировать порт, но RAID уже развален. Единственное, что могу посоветовать - обновить BIOS.

Не грусти, товарищ! Всё хорошо, beautiful good!

Ошибка происходит по очереди

Ошибка происходит по очереди на обеих хардах. Спасибо за идею, попробую поискать последний BIOS! А теоретически может быть глюк в ядре-драйверах этого чипсета? Винты сегейты, может рискнуть их для проверки на младший sata режим перевести перемычками?

Ветка стабильная ~amd64. то

Ветка стабильная ~amd64. 

то ли я подурнел, то ли лыжи не едут, толи это взаимосиключающие условия

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

Ошибся я при написании, без

Ошибся я при написании, без ~, ветка стабильная.

За прошедшее время было

За прошедшее время было сделано несколько диагностических шагов, похоже проблема с хардами, не чего не понял. Перечислю то что не помогло:

1. Оключение AHCI - не помогло.
2. Замена шлейфов и блока питания - не помогло.
3. Замена материнской платы (и CPU) на интеловский 41 чипсет - не помогло.
4. Смена типа рейда на 0 для ускорения операций - ре помогло.
5. Подоспело обновление стабильного ядра до 3 - не помогло.

Виснут периодически харды до выключения питания. В смартах значатся ошибки таймаута. Харды оба новые, вот их смарты.

http://paste.pocoo.org/show/499402/
http://paste.pocoo.org/show/499403/

Жесть какаято! Не знаю уже чего менять и где искать проблему.

Буквально на днях, мне

Буквально на днях, мне человек жаловался что у него проблема с RAID. Тоже разваливается. Но у него под виндами. Наверное имеет смысл подозревать некачественное железо (диски).

Чем больше юзерфрендли, тем сложнее юзать.

Попробуйте задать скорость

Попробуйте задать скорость обмена дисков на SATA150. Были аналогичные проблемы с дисками WD на чипсете nForce (диски исчезали при работе, после перезагрузки вновь появлялись), включил перемычки на диске ограничивающие скорость - всё заработало.

Установил на диски перемычки

Установил на диски перемычки снизив скорость sata, не помогло. Масив продержался пару суток тестирования, и сегодня опять:

Nov  1 10:48:21 rout kernel: [95203.808057] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Nov  1 10:48:21 rout kernel: [95203.808062] ata4.00: failed command: FLUSH CACHE EXT
Nov  1 10:48:21 rout kernel: [95203.808070] ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Nov  1 10:48:21 rout kernel: [95203.808071]          res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Nov  1 10:48:21 rout kernel: [95203.808075] ata4.00: status: { DRDY }
Nov  1 10:48:26 rout kernel: [95208.857242] ata4: link is slow to respond, please be patient (ready=0)
Nov  1 10:48:31 rout kernel: [95213.855037] ata4: device not ready (errno=-16), forcing hardreset
Nov  1 10:48:31 rout kernel: [95213.855046] ata4: soft resetting link
Nov  1 10:48:36 rout kernel: [95219.055015] ata4: link is slow to respond, please be patient (ready=0)
Nov  1 10:48:41 rout kernel: [95223.900120] ata4: SRST failed (errno=-16)
Nov  1 10:48:41 rout kernel: [95223.900127] ata4: soft resetting link
Nov  1 10:48:46 rout kernel: [95229.100079] ata4: link is slow to respond, please be patient (ready=0)
Nov  1 10:48:51 rout kernel: [95233.945119] ata4: SRST failed (errno=-16)
Nov  1 10:48:51 rout kernel: [95233.945127] ata4: soft resetting link
Nov  1 10:48:56 rout kernel: [95239.145079] ata4: link is slow to respond, please be patient (ready=0)
Nov  1 10:49:26 rout kernel: [95268.980037] ata4: SRST failed (errno=-16)
Nov  1 10:49:26 rout kernel: [95268.980045] ata4: soft resetting link
Nov  1 10:49:31 rout kernel: [95274.027037] ata4: SRST failed (errno=-16)
Nov  1 10:49:31 rout kernel: [95274.027041] ata4: reset failed, giving up
Nov  1 10:49:31 rout kernel: [95274.027044] ata4.00: disabled
Nov  1 10:49:31 rout kernel: [95274.027048] ata4.00: device reported invalid CHS sector 0
Nov  1 10:49:31 rout kernel: [95274.027056] ata4: EH complete

А далее соответственно пачки ошибок уже диска sdb7. Менял уже все кроме хардов, не ужто сегейт стал делать такие диски...

.

А может быть банально не хватает мощности БП?

Да, первым делом на это

Да, первым делом на это подумал, блок сменил, сейчас там нормальный fsp.

micbal написал(а): не ужто

micbal написал(а):
не ужто сегейт стал делать такие диски...

Лет пять стараюсь не покупать это гуано, качество крайне низкое.

У вас жёсткие диски RAID

У вас жёсткие диски RAID Edition ?

Если не, то что вы хотите, видимо они не рассчитывались на такую нагрузку ...

У самого есть 4 диска Seagate нормально работают, две штуки из проблемной серии, перед эксплуатацией обновил прошивку, всё нормально тьфу, тьфу, тьфу.

Raid edition отличаются

Raid edition отличаются установленным не в 0 таймаутом на чтение и запись. У моих дисков таймауты в нуле (читает или пишет сбойный сектор до бесконечности, причина виса харда не в сбойных секторах, так как при нахождении сбойного сектора изменится запись в смарт. Raid edition тупа отрабатывает таймаут при проблемах, и виснет сообщая рейду о своих проблемах, а не долбится до бесконечности тормозя, а рейд думает что все нормально.

Угу на отказоустойчивых

Угу на отказоустойчивых системах винт скрывает, что у него проблемы с чтением и что он посыпался, лишь бы только raid контроллер этого не "западозрил", где вы этого нахватались ?

Угу на отказоустойчивых

Угу на отказоустойчивых системах винт скрывает, что у него проблемы с чтением и что он посыпался, лишь бы только raid контроллер этого не "заподозрил", где вы этого нахватались ?

У меня домашнее хранилище, я

У меня домашнее хранилище, я замечу тормоза и щёлканье, потому и таймауты на чтение и запись у хардов не активировал. А в рейд редакции они с завода в 5-7 секундах установлены. В моем случае при нулевых таймаутах винт будет долго пытаться прочитать сектор и лишь потом повиснув сообщит рейду.


SCT capabilities: 	       (0x30b7)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

smartctl -l scterc /dev/sda
smartctl 5.40 2010-10-16 r3189 [x86_64-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

Warning: device does not support SCT Error Recovery Control command

Когда smartctl обновится, могу прописать туда не нулевые таймауты, но что это изменит?

Та же проблема (харды тоже

Та же проблема (харды тоже seagate), только я начал разбираться с другого конца - с замены хардов, точнее харда. Купил один, абсолютно новый, опытным путем установил отвалившийся, заменил и думал что все хорошо... но через некоторое время рейд опять развалился :( думал, что ошибся хардом, вернул смененный вместо второго - ошибки продолжились. В dmesg при чтении/записи сыпет

ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
ata2.00: BMDMA stat 0x26
ata2.00: failed command: READ DMA EXT
ata2.00: cmd 25/00:00:ff:66:38/00:01:12:00:00/e0 tag 0 dma 131072 in
         res 51/84:af:ff:66:38/84:00:00:00:00/e0 Emask 0x30 (host bus error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { ICRC ABRT }
ata2: soft resetting link
ata2.00: configured for UDMA/100
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
ata2.00: BMDMA stat 0x26
ata2.00: failed command: READ DMA EXT
ata2.00: cmd 25/00:00:ff:89:38/00:01:12:00:00/e0 tag 0 dma 131072 in
         res 51/84:9f:ff:89:38/84:00:00:00:00/e0 Emask 0x30 (host bus error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { ICRC ABRT }
ata2: soft resetting link
ata2.00: configured for UDMA/100
ata2: EH complete

А у вас диски какой модели?

А у вас диски какой модели?

Seagate Barracuda ES.2,

Seagate Barracuda ES.2, 7200rpm 1 Тбайт... Или нужно точный номер модели? Подлезть просто там довольно сложно, чтобы прочитать... Я все больше убеждаюсь, что проблема не в хардах, т.к. поочередная замена обеих ничего не дала.

Нашел еще вот такую статью в рэдхатовской багзилле https://bugzilla.redhat.com/show_bug.cgi?id=549981, статья старая, но проблема c контроллером прям как у меня. Исправили проблему патчем к ядру, но патч под ядро старющий... Так же еще вот такую темку нашел http://forums.gentoo.org/viewtopic-p-4570091.html#4570091 - излагают, что в ICH7 (который как раз у меня) нет поддержки ACHI а у меня она в ядре собрана. Потестю, отключу, посмотрю, что выйдет.

Оно рассыпается только под

Оно рассыпается только под нагрузкой ? если да - то фича знакомая ;(

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

Снял те харды, пока на одном

Снял те харды, пока на одном харде работает:

Model Family:     Seagate Barracuda 7200.11
Device Model:     ST31500341AS
Serial Number:    9VS31KTF
LU WWN Device Id: 5 000c50 019f25687
Firmware Version: CC1H
User Capacity:    1 500 300 828 160 bytes [1,50 TB]

За месяц не разу хард не отвалился от контролера. Тестируем дальше...

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".