Проблемы с SATA HDD.

Доброго времени суток, у меня в системе два HDD - оба WD Caviar Grin, 1 - 20EADS, 2 - 15EARS, со вторым проблемы: при копировании на него информации часть записывается нормально, потом несколько секунд mc не может записать информацию, затем сообщает что система отныне "read only", если в этот момент закрыть mc и отмонтировать этот HDD (на нем только один раздел на весь винт), а потом примонтировать mount не может понять тип ФС, если указать принудительно:

#mount -t ext3 /dev/sdb1 /mnt/data2
mount: wrong fs type, bad option, bad superblock on /dev/sdb1,
       missing codepage or helper program, or other error
       В некоторых случаях полезная информация может быть
       найдена в syslog - попробуйте dmesg | tail или что-то
       в этом роде

В messages появляются записи вида:

Oct  8 17:00:11 server kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Oct  8 17:00:11 server kernel: ata2.00: failed command: WRITE DMA EXT
Oct  8 17:00:11 server kernel: ata2.00: cmd 35/00:00:7f:14:ed/00:04:6a:00:00/e0 tag 0 dma 524288 out
Oct  8 17:00:11 server kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct  8 17:00:11 server kernel: ata2.00: status: { DRDY }
Oct  8 17:00:16 server kernel: ata2: link is slow to respond, please be patient (ready=0)
Oct  8 17:00:21 server kernel: ata2: device not ready (errno=-16), forcing hardreset
Oct  8 17:00:21 server kernel: ata2: soft resetting link
Oct  8 17:00:26 server kernel: ata2: link is slow to respond, please be patient (ready=0)
Oct  8 17:00:31 server kernel: ata2: SRST failed (errno=-16)
Oct  8 17:00:31 server kernel: ata2: soft resetting link
Oct  8 17:00:36 server kernel: ata2: link is slow to respond, please be patient (ready=0)
Oct  8 17:00:41 server kernel: ata2: SRST failed (errno=-16)

а затем еще пачка других:

Oct  8 17:01:26 server kernel: sd 1:0:0:0: [sdb] Unhandled error code
Oct  8 17:01:26 server kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Oct  8 17:01:26 server kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 6a ef 41 9f 00 04 00 00
Oct  8 17:01:26 server kernel: end_request: I/O error, dev sdb, sector 1794064799
Oct  8 17:01:26 server kernel: sd 1:0:0:0: [sdb] Unhandled error code
Oct  8 17:01:26 server kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Oct  8 17:01:26 server kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 6a ef 45 9f 00 04 00 00
Oct  8 17:01:26 server kernel: end_request: I/O error, dev sdb, sector 1794065823
Oct  8 17:01:26 server kernel: sd 1:0:0:0: [sdb] Unhandled error code
Oct  8 17:01:26 server kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Oct  8 17:01:26 server kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 6a ef 49 9f 00 04 00 00
Oct  8 17:01:26 server kernel: end_request: I/O error, dev sdb, sector 1794066847

После возникновения этой ситуации утилиты для работы с диском (hdparm, fdisk, smartctl) ругаются что не могут получить доступ к диску.
До перезагрузки системы он не работает.

Покажите hdparm -iv /dev/sd?

Покажите (до сбоя)

hdparm -iv /dev/sd?

# hdparm -iv

# hdparm -iv /dev/sdb

/dev/sdb:
 multcount     = 16 (on)
 IO_support    =  1 (32-bit)
 readonly      =  0 (off)
 readahead     = 256 (on)
 geometry      = 182401/255/63, sectors = 2930277168, start = 0

 Model=WDC, FwRev=80.00A80, SerialNo=WD-WMAVU2139335
 Config={ HardSect NotMFM HdSw>15uSec SpinMotCtl Fixed DTR>5Mbs FmtGapReq }
 RawCHS=16383/16/63, TrkSize=0, SectSize=0, ECCbytes=50
 BuffType=unknown, BuffSize=unknown, MaxMultSect=16, MultSect=16
 CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=2930277168
 IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}
 PIO modes:  pio0 pio3 pio4
 DMA modes:  mdma0 mdma1 mdma2
 UDMA modes: udma0 udma1 udma2 udma3 udma4 udma5 *udma6
 AdvancedPM=no WriteCache=enabled
 Drive conforms to: Unspecified:  ATA/ATAPI-1,2,3,4,5,6,7

 * signifies the current active mode

еще на всякий случай:

server ~ # smartctl --all /dev/sdb
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD15EARS-00Z5B1
Serial Number:    WD-WMAVU2139335
Firmware Version: 80.00A80
User Capacity:    1 500 301 910 016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Sat Oct  9 15:45:14 2010 EEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (31200) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x3031) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   234   183   021    Pre-fail  Always       -       3283
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       26
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1417
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       24
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       16
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       436
194 Temperature_Celsius     0x0022   111   109   000    Old_age   Always       -       39
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

ИМХО, проблемы с железом.

ИМХО, проблемы с железом. Плохой сата шлейф, дохнет винт, может, конечно, и контроллер - всякое бывает. Исключай варианты.

Да, спасибо, это об этом я

Да, спасибо, это об этом я догадывался... Просто странно все это - год назад также умер еще 1 винт (15AEDS) - по гарантии выдали этот, был подлючен к этой же мат. плате, этим же шлейфом, по питанию - комп подключен к ИБП. или шлейф или мамка, но второй винт работает нормально, будем надеятся что шлейф.
---
С новым также, Попробую на другой материнской плате погонять его.

никогда не любил WD :)

никогда не любил WD :) каждый второй из моего опыта проблемный :) используй сигейты и проблем не будет ;)

по сути вопроса: проверь на всякий случай в каком режиме работает винт и материнка. есть SATA и SATA II. нужно, чтобы и мать и винт работали в одном режиме!

Theli написал(а): никогда не

Theli написал(а):
никогда не любил WD :) каждый второй из моего опыта проблемный :) используй сигейты и проблем не будет ;)

вам привести соотношение полетевших сигейтов у нас на предприятии по отношению к другим ? примерно 4:1 не в их пользу. лично я сигейты никогда не любил.

Theli написал(а):
по сути вопроса: проверь на всякий случай в каком режиме работает винт и материнка. есть SATA и SATA II. нужно, чтобы и мать и винт работали в одном режиме!

они обратносовместимы и ни разу не слышал о такой проблеме.

________________________
"We Will Win"

Sith написал(а): вам привести

Sith написал(а):
вам привести соотношение полетевших сигейтов у нас на предприятии по отношению к другим ? примерно 4:1 не в их пользу. лично я сигейты никогда не любил.

для нагрузок предприятия надо брать NS, а не AS, тогда лететь не будут! за всю жизнь использую только сигейты и пока умерло только 2 из-за энвидиевского рэйда... остальные живы и здоровы... самому старшему лет 8...

Sith написал(а):
они обратносовместимы и ни разу не слышал о такой проблеме.

а вот и не совсем. если контроллер SATA I, то на винте надо переключить джампер для обратной совместимости! винт тебе не контроллер, чтобы определять, кто с ним работает ;)

Большого опыта с САТА винтами

Большого опыта с САТА винтами нет, но этот джампер ни разу не по понадобился и ни разу не помог. Либо винт работает сразу, либо джампер не поможет.

А вы делали выравнивание

А вы делали выравнивание раздела, на начало дорожки, так как у WD последеней сеии и грин в частности размер сектора 4kb, а не 512 b.
Может в этом проблема?

Дело точно не в 4-х

Дело точно не в 4-х килобайтовом кластере. Там просто медленная запись из-за эмуляции кластера в 512 байт. А тут явно отказ железа или проблемы с блоком питания. Да да, питания. Недавно была похожая ситуация, в логи валились ошибки об отказе винта. Замена блока питания помогла ибо на старом кондеры высохли. Вместо 12 вольт было 11,5 с бааальщущими пульсациями.

Блока питания компьютера?

Блока питания компьютера? Тогда как объяснить то что на той же ветке разъемов (от БП) сидит еще один винт (WD20EADS) и чувствует себя при этом отлично? Это не проблема БП, запас мощности у него громадный (650 ВТ), используется наверное на 20%-40%. Боюсь проблема в винте. На счет кластера - пол года работал нормально, а потом вдруг ему размер не понравился - это не логично.
Скорее всего проблема в винте, victoria - вообще зависла на ~90%, и ошибками начала бросаться. Понесу его в сервис.

Я же не утверждаю что у вас

Я же не утверждаю что у вас именно в бп дело, я просто привел один из вариантов.

PS: Интересно что на той же ветке у меня нормально работал Seagate-овская 400ка. Может WD более чувствительны к таким вещам.

По заверениям знакомого спеца

По заверениям знакомого спеца по винтам, WD действительно гораздо чувствительнее к качеству питания, да и не только. По большей части стараюсь использовать хитачи или самсунг - никому не навязывая - это выбор мой и авторитетного для меня в данном вопросе товарища.

Что в текущем случае, вам однозначно никто не скажет. Я бы начал со шлейфа и БП.

Нащяльника, мая сервира паставиль, фрибизьдя инсталя сделаль, апачи сабраль, пыхапе патключиль, сапускаю, а ано - ажамбех пашамбе эшельбе шайтанама!

Дорогой друг!!! Купи себе

Дорогой друг!!! Купи себе нормальное железо,и не делай сам себе проблемы.Хоча я не говорю ,что WD плохое железо.А то ,что здесь написано - это говорит: переразбей fdisk-ом на разделы,а потом переформатируй ну на пример GParted -ом .Рекомендую Samsung-(имеется железо).Будь счаслив.

valik

valik написал(а): Дорогой

valik написал(а):
Дорогой друг!!! Купи себе нормальное железо,и не делай сам себе проблемы.Хоча я не говорю ,что WD плохое железо.

хорошее решение проблемы ;)

valik написал(а):
А то ,что здесь написано - это говорит: переразбей fdisk-ом на разделы,а потом переформатируй ну на пример GParted -ом .

самый полезный совет на этом форуме, добавлю ка в закладки ;)

________________________
"We Will Win"

Ушел

/me ушел форматировать свой Toshiba...

Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!

Не факт кстати что проблема с железом))

У меня недавно было точно такой же трабл с хардом, кстати тоже WD Caviar Grin)). Я тогда не стал его особо ковырять и просто отформатировал тот раздел, при записи на который была проблема.. он был форматирован в reiser. После переформатирования проблема больше не появлялась, так что возможно была повреждена файловая система.

Я несу пингвина во имя луны! *WALL*

из СЦ вернули с пометкой "Рабочий"

И что самое обидное что работать он не хочет именно с ext3 (ntfs под WinXP забивается полностью).

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".