[mdadm] Проблемы с hdd, рассыпается raid.
micbal 10 октября, 2011 - 10:32
Установлены два одинаковых диска, создано два рейда зеркала (raid1) средствами mdadm. Один из рейдов смонтирован как /home, и там еще лежат образа виртуальных машин KVM, ну и иногда одна или две виртуальные машины активны. С периодичностью в несколько дней не с того не с чего рейд разваливается. Причем харды от рейда отваливаются разные, бедов на них нет.
md0 : active raid1 sda7[1] sdb7[2](F) 488278418 blocks super 1.2 [2/1] [_U]
Ранее уже менял материнскую плату, память, блок питания, такие сбои продолжаются. Жесткие диски тоже новые, им меньше месяца. В логе ядра при сегодняшнем сбое:
Oct 10 10:12:33 rout kernel: [257926.752043] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen Oct 10 10:12:33 rout kernel: [257926.752053] ata2.00: failed command: FLUSH CACHE EXT Oct 10 10:12:33 rout kernel: [257926.752069] ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0 Oct 10 10:12:33 rout kernel: [257926.752072] res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) Oct 10 10:12:33 rout kernel: [257926.752079] ata2.00: status: { DRDY } Oct 10 10:12:33 rout kernel: [257926.752088] ata2: hard resetting link Oct 10 10:12:43 rout kernel: [257936.752023] ata2: softreset failed (1st FIS failed) Oct 10 10:12:43 rout kernel: [257936.752034] ata2: hard resetting link Oct 10 10:12:53 rout kernel: [257946.752023] ata2: softreset failed (1st FIS failed) Oct 10 10:12:53 rout kernel: [257946.752034] ata2: hard resetting link Oct 10 10:13:28 rout kernel: [257981.752025] ata2: softreset failed (1st FIS failed) Oct 10 10:13:28 rout kernel: [257981.752037] ata2: limiting SATA link speed to 1.5 Gbps Oct 10 10:13:28 rout kernel: [257981.752044] ata2: hard resetting link Oct 10 10:13:34 rout kernel: [257986.953043] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) Oct 10 10:13:34 rout kernel: [257986.953054] ata2.00: link online but device misclassifed Oct 10 10:13:39 rout kernel: [257991.953039] ata2.00: qc timeout (cmd 0xec) Oct 10 10:13:39 rout kernel: [257991.953056] ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4) Oct 10 10:13:39 rout kernel: [257991.953062] ata2.00: revalidation failed (errno=-5) Oct 10 10:13:39 rout kernel: [257991.953072] ata2: hard resetting link Oct 10 10:13:49 rout kernel: [258001.953022] ata2: softreset failed (1st FIS failed) Oct 10 10:13:49 rout kernel: [258001.953033] ata2: hard resetting link Oct 10 10:13:59 rout kernel: [258011.953023] ata2: softreset failed (1st FIS failed) Oct 10 10:13:59 rout kernel: [258011.953034] ata2: hard resetting link Oct 10 10:14:34 rout kernel: [258046.953024] ata2: softreset failed (1st FIS failed) Oct 10 10:14:34 rout kernel: [258046.953038] ata2: hard resetting link Oct 10 10:14:39 rout kernel: [258052.154048] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) Oct 10 10:14:39 rout kernel: [258052.154060] ata2.00: link online but device misclassifed Oct 10 10:14:49 rout kernel: [258062.154038] ata2.00: qc timeout (cmd 0xec) Oct 10 10:14:49 rout kernel: [258062.154054] ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4) Oct 10 10:14:49 rout kernel: [258062.154061] ata2.00: revalidation failed (errno=-5) Oct 10 10:14:49 rout kernel: [258062.154073] ata2: hard resetting link Oct 10 10:14:59 rout kernel: [258072.154023] ata2: softreset failed (1st FIS failed) Oct 10 10:14:59 rout kernel: [258072.154034] ata2: hard resetting link Oct 10 10:15:09 rout kernel: [258082.154022] ata2: softreset failed (1st FIS failed) Oct 10 10:15:09 rout kernel: [258082.154033] ata2: hard resetting link Oct 10 10:15:44 rout kernel: [258117.154023] ata2: softreset failed (1st FIS failed) Oct 10 10:15:44 rout kernel: [258117.154036] ata2: hard resetting link Oct 10 10:15:49 rout kernel: [258122.355045] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) Oct 10 10:15:49 rout kernel: [258122.355056] ata2.00: link online but device misclassifed Oct 10 10:16:19 rout kernel: [258152.355036] ata2.00: qc timeout (cmd 0xec) Oct 10 10:16:19 rout kernel: [258152.355053] ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4) Oct 10 10:16:19 rout kernel: [258152.355060] ata2.00: revalidation failed (errno=-5) Oct 10 10:16:19 rout kernel: [258152.355065] ata2.00: disabled Oct 10 10:16:19 rout kernel: [258152.355079] ata2.00: device reported invalid CHS sector 0 Oct 10 10:16:19 rout kernel: [258152.355095] ata2: exception Emask 0x40 SAct 0x0 SErr 0x800 action 0x6 frozen t4 Oct 10 10:16:19 rout kernel: [258152.355103] ata2: SError: { HostInt } Oct 10 10:16:19 rout kernel: [258152.355112] ata2: hard resetting link Oct 10 10:16:29 rout kernel: [258162.355023] ata2: softreset failed (1st FIS failed) Oct 10 10:16:29 rout kernel: [258162.355034] ata2: hard resetting link Oct 10 10:16:39 rout kernel: [258172.355023] ata2: softreset failed (1st FIS failed) Oct 10 10:16:39 rout kernel: [258172.355034] ata2: hard resetting link Oct 10 10:17:14 rout kernel: [258207.355022] ata2: softreset failed (1st FIS failed) Oct 10 10:17:14 rout kernel: [258207.355035] ata2: hard resetting link Oct 10 10:17:19 rout kernel: [258212.556044] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) Oct 10 10:17:19 rout kernel: [258212.556056] ata2.00: link online but device misclassifed Oct 10 10:17:19 rout kernel: [258212.556087] ata2: EH complete Oct 10 10:17:19 rout kernel: [258212.556150] sd 1:0:0:0: [sdb] Unhandled error code Oct 10 10:17:19 rout kernel: [258212.556155] sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Oct 10 10:17:19 rout kernel: [258212.556164] sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 1a ee 4b 0c 00 00 10 00 Oct 10 10:17:19 rout kernel: [258212.556180] end_request: I/O error, dev sdb, sector 451824396 Oct 10 10:17:19 rout kernel: [258212.556190] md/raid1:md0: Disk failure on sdb7, disabling device. Oct 10 10:17:19 rout kernel: [258212.556193] md/raid1:md0: Operation continuing on 1 devices. Oct 10 10:17:19 rout kernel: [258212.556221] sd 1:0:0:0: [sdb] Unhandled error code Oct 10 10:17:19 rout kernel: [258212.556225] sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Oct 10 10:17:19 rout kernel: [258212.556233] sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 08 1e d1 bc 00 00 10 00 Oct 10 10:17:19 rout kernel: [258212.556247] end_request: I/O error, dev sdb, sector 136237500 Oct 10 10:17:19 rout kernel: [258212.564038] sd 1:0:0:0: [sdb] Unhandled error code Oct 10 10:17:19 rout kernel: [258212.564045] sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Oct 10 10:17:19 rout kernel: [258212.564053] sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 06 4f 35 fc 00 00 10 00 Oct 10 10:17:19 rout kernel: [258212.564069] end_request: I/O error, dev sdb, sector 105854460 Oct 10 10:17:19 rout kernel: [258212.564093] sd 1:0:0:0: [sdb] Unhandled error code Oct 10 10:17:19 rout kernel: [258212.564097] sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Oct 10 10:17:19 rout kernel: [258212.564105] sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 08 1b e0 3c 00 00 10 00 Oct 10 10:17:19 rout kernel: [258212.564118] end_request: I/O error, dev sdb, sector 136044604 Oct 10 10:17:19 rout kernel: [258212.583837] RAID1 conf printout: Oct 10 10:17:19 rout kernel: [258212.583841] --- wd:1 rd:2 Oct 10 10:17:19 rout kernel: [258212.583843] disk 0, wo:1, o:0, dev:sdb7 Oct 10 10:17:19 rout kernel: [258212.583845] disk 1, wo:0, o:1, dev:sda7 Oct 10 10:17:19 rout kernel: [258212.583846] RAID1 conf printout: Oct 10 10:17:19 rout kernel: [258212.583847] --- wd:1 rd:2 Oct 10 10:17:19 rout kernel: [258212.583849] disk 1, wo:0, o:1, dev:sda7
Подскажите что можно сделать, оно достало, каждый раз пересобирать рейд.
»
- Для комментирования войдите или зарегистрируйтесь
Вот вывод смарта после
Вот вывод смарта после сбоя:
ну а шлейфы, шлейфы меняли?
ну а шлейфы, шлейфы меняли?
Да, менял, поставил
Да, менял, поставил качественные, gigabyte с защелками. Может что-то типа несовместимости KVM и mdadm?
Какой контроллер, версия
Какой контроллер, версия ядра, драйвера?
Не грусти, товарищ! Всё хорошо, beautiful good!
Контролер:00:11.0 SATA
Контролер:
Ядро:
Ветка стабильная ~amd64. Процессор Sempron 140.
P.S. Говорили мне что на Интале надо домашнее хранилище делать, решил по дешевле на семпроне... Не оно причина?
Какая-то проблема в
Ошибка происходит только с sdb?
Какая-то проблема в контроллере, похоже. С определенной периодичностью система теряет связь с одним из дисков, пытается переинициализировать порт, но RAID уже развален. Единственное, что могу посоветовать - обновить BIOS.
Не грусти, товарищ! Всё хорошо, beautiful good!
Ошибка происходит по очереди
Ошибка происходит по очереди на обеих хардах. Спасибо за идею, попробую поискать последний BIOS! А теоретически может быть глюк в ядре-драйверах этого чипсета? Винты сегейты, может рискнуть их для проверки на младший sata режим перевести перемычками?
Ветка стабильная ~amd64. то
то ли я подурнел, то ли лыжи не едут, толи это взаимосиключающие условия
Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)
Ошибся я при написании, без
Ошибся я при написании, без ~, ветка стабильная.
За прошедшее время было
За прошедшее время было сделано несколько диагностических шагов, похоже проблема с хардами, не чего не понял. Перечислю то что не помогло:
1. Оключение AHCI - не помогло.
2. Замена шлейфов и блока питания - не помогло.
3. Замена материнской платы (и CPU) на интеловский 41 чипсет - не помогло.
4. Смена типа рейда на 0 для ускорения операций - ре помогло.
5. Подоспело обновление стабильного ядра до 3 - не помогло.
Виснут периодически харды до выключения питания. В смартах значатся ошибки таймаута. Харды оба новые, вот их смарты.
http://paste.pocoo.org/show/499402/
http://paste.pocoo.org/show/499403/
Жесть какаято! Не знаю уже чего менять и где искать проблему.
Буквально на днях, мне
Буквально на днях, мне человек жаловался что у него проблема с RAID. Тоже разваливается. Но у него под виндами. Наверное имеет смысл подозревать некачественное железо (диски).
Чем больше юзерфрендли, тем сложнее юзать.
Попробуйте задать скорость
Попробуйте задать скорость обмена дисков на SATA150. Были аналогичные проблемы с дисками WD на чипсете nForce (диски исчезали при работе, после перезагрузки вновь появлялись), включил перемычки на диске ограничивающие скорость - всё заработало.
Установил на диски перемычки
Установил на диски перемычки снизив скорость sata, не помогло. Масив продержался пару суток тестирования, и сегодня опять:
А далее соответственно пачки ошибок уже диска sdb7. Менял уже все кроме хардов, не ужто сегейт стал делать такие диски...
.
А может быть банально не хватает мощности БП?
Да, первым делом на это
Да, первым делом на это подумал, блок сменил, сейчас там нормальный fsp.
micbal написал(а): не ужто
Лет пять стараюсь не покупать это гуано, качество крайне низкое.
У вас жёсткие диски RAID
У вас жёсткие диски RAID Edition ?
Если не, то что вы хотите, видимо они не рассчитывались на такую нагрузку ...
У самого есть 4 диска Seagate нормально работают, две штуки из проблемной серии, перед эксплуатацией обновил прошивку, всё нормально тьфу, тьфу, тьфу.
Raid edition отличаются
Raid edition отличаются установленным не в 0 таймаутом на чтение и запись. У моих дисков таймауты в нуле (читает или пишет сбойный сектор до бесконечности, причина виса харда не в сбойных секторах, так как при нахождении сбойного сектора изменится запись в смарт. Raid edition тупа отрабатывает таймаут при проблемах, и виснет сообщая рейду о своих проблемах, а не долбится до бесконечности тормозя, а рейд думает что все нормально.
Угу на отказоустойчивых
Угу на отказоустойчивых системах винт скрывает, что у него проблемы с чтением и что он посыпался, лишь бы только raid контроллер этого не "западозрил", где вы этого нахватались ?
Угу на отказоустойчивых
Угу на отказоустойчивых системах винт скрывает, что у него проблемы с чтением и что он посыпался, лишь бы только raid контроллер этого не "заподозрил", где вы этого нахватались ?
У меня домашнее хранилище, я
У меня домашнее хранилище, я замечу тормоза и щёлканье, потому и таймауты на чтение и запись у хардов не активировал. А в рейд редакции они с завода в 5-7 секундах установлены. В моем случае при нулевых таймаутах винт будет долго пытаться прочитать сектор и лишь потом повиснув сообщит рейду.
Когда smartctl обновится, могу прописать туда не нулевые таймауты, но что это изменит?
Та же проблема (харды тоже
Та же проблема (харды тоже seagate), только я начал разбираться с другого конца - с замены хардов, точнее харда. Купил один, абсолютно новый, опытным путем установил отвалившийся, заменил и думал что все хорошо... но через некоторое время рейд опять развалился :( думал, что ошибся хардом, вернул смененный вместо второго - ошибки продолжились. В dmesg при чтении/записи сыпет
А у вас диски какой модели?
А у вас диски какой модели?
Seagate Barracuda ES.2,
Seagate Barracuda ES.2, 7200rpm 1 Тбайт... Или нужно точный номер модели? Подлезть просто там довольно сложно, чтобы прочитать... Я все больше убеждаюсь, что проблема не в хардах, т.к. поочередная замена обеих ничего не дала.
Нашел еще вот такую статью в рэдхатовской багзилле https://bugzilla.redhat.com/show_bug.cgi?id=549981, статья старая, но проблема c контроллером прям как у меня. Исправили проблему патчем к ядру, но патч под ядро старющий... Так же еще вот такую темку нашел http://forums.gentoo.org/viewtopic-p-4570091.html#4570091 - излагают, что в ICH7 (который как раз у меня) нет поддержки ACHI а у меня она в ядре собрана. Потестю, отключу, посмотрю, что выйдет.
Оно рассыпается только под
Оно рассыпается только под нагрузкой ? если да - то фича знакомая ;(
Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)
Снял те харды, пока на одном
Снял те харды, пока на одном харде работает:
За месяц не разу хард не отвалился от контролера. Тестируем дальше...