подозрение на битые сектора

Добрый вечер, коллеги
прошу помочь идентифицировать причину проблемы.
сегодня вечером не смог залогиниться на сервер, просмотр онлайн лога показал, что система упала в read only. вроде как проблемы с записью на отдельные блоки. после ребута пока полет нормальный.
нынешний messages

настораживают записи Emask 0x10 (ATA bus error)
я уверен, что диск начинает сыпаться.
есть ли вероятность неисправности моста на материнке?

ps как правило при запуске ловлю сообщения "вставьте bootable диск и нажмите ентер" прежде чем прогрузиться. иногда фейлится на grub-е.

Битые сектора однозначное

Битые сектора однозначное идентифицируются через smart, если не уверен запусти полный тест поверхности
если smart в порядке, а проблемы с диском есть, то либо кабель, либо контроллер

прогнал smartctl -t long

прогнал smartctl -t long /dev/sda
получил

smartctl -l selftest /dev/sda
smartctl 5.42 2011-10-20 r3458 [i686-linux-3.3.8-gentoo] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      9171  

-a показывает
9 Power_On_Minutes 0x0032 225 225 000 Old_age Always - 1044h+57m
а так же
ATA error count 613 inconsistent with error log pointer 5
Error 613 occurred at disk power-on lifetime: 9168 hours (382 days + 0 hours)
...

творю непотребства и потом жалуюсь на форуме, ибо gentoo позволяет, since 2009

покажи smartctl -A /dev/sda

покажи

smartctl -A /dev/sda

# smartctl -A

# smartctl -A /dev/sda
smartctl 5.42 2011-10-20 r3458 [i686-linux-3.3.8-gentoo] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0027   223   221   063    Pre-fail  Always       -       6683
  4 Start_Stop_Count        0x0032   252   252   000    Old_age   Always       -       2254
  5 Reallocated_Sector_Ct   0x0033   253   253   063    Pre-fail  Always       -       0
  6 Read_Channel_Margin     0x0001   253   253   100    Pre-fail  Offline      -       0
  7 Seek_Error_Rate         0x000a   253   252   000    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0027   251   239   187    Pre-fail  Always       -       49287
  9 Power_On_Minutes        0x0032   225   225   000    Old_age   Always       -       1050h+33m
 10 Spin_Retry_Count        0x002b   253   252   157    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x002b   253   252   223    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   247   247   000    Old_age   Always       -       2385
192 Power-Off_Retract_Count 0x0032   251   251   000    Old_age   Always       -       2128
193 Load_Cycle_Count        0x0032   251   251   000    Old_age   Always       -       10001
194 Temperature_Celsius     0x0032   253   253   000    Old_age   Always       -       27
195 Hardware_ECC_Recovered  0x000a   253   252   000    Old_age   Always       -       26180
196 Reallocated_Event_Count 0x0008   253   253   000    Old_age   Offline      -       0
197 Current_Pending_Sector  0x0008   253   253   000    Old_age   Offline      -       0
198 Offline_Uncorrectable   0x0008   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0008   171   079   000    Old_age   Offline      -       213
200 Multi_Zone_Error_Rate   0x000a   253   252   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   252   000    Old_age   Always       -       0
202 Data_Address_Mark_Errs  0x000a   253   252   000    Old_age   Always       -       0
203 Run_Out_Cancel          0x000b   253   252   180    Pre-fail  Always       -       0
204 Soft_ECC_Correction     0x000a   253   252   000    Old_age   Always       -       0
205 Thermal_Asperity_Rate   0x000a   253   252   000    Old_age   Always       -       0
207 Spin_High_Current       0x002a   253   252   000    Old_age   Always       -       0
208 Spin_Buzz               0x002a   253   252   000    Old_age   Always       -       0
209 Offline_Seek_Performnce 0x0024   187   187   000    Old_age   Offline      -       0
 99 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
100 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
101 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0

на всякий случай с маленькой a

творю непотребства и потом жалуюсь на форуме, ибо gentoo позволяет, since 2009

битых секторов точно нет, но

битых секторов точно нет, но сбоит DMA (кстати, при сбое DMA диск практически всегда переходит в RO и вскоре умирает - сделай копии :)):

199 UDMA_CRC_Error_Count    0x0008   171   079   000    Old_age   Offline      -       213

т.е. проблемы с электроникой/кабелем/контактами...
Замени кабель (поставь 80-pins), осмотри плату (если доступна, конечно) на предмет холодной пайки, потемнений на м/с и т.п.
Посмотри историю по всем доступным логам (smartd должен быть сконфигурирован и включен в startup!)

grep smart /var/log/syslog

У тебя подозрительно низкая температура диска - наверное снимал после включения, а надо бы в рабочем режиме...

Mar 22 20:58:35 timothy-gate

Mar 22 20:58:35 timothy-gate kernel: [65557.410302] ck-collect-sess[18046]: segfault at 20 ip b76c84c3 sp bfa12050 error 4 in libglib-2.0.so.0.3000.3[b7696000+10a000]
Mar 22 20:58:35 timothy-gate kernel: [65557.425241] udev-acl.ck[18047]: segfault at 84483e8 ip b77e78d7 sp bfe706a0 error 4 in ld-2.14.1.so[b77dd000+1d000]
Mar 22 20:58:35 timothy-gate kernel: [65557.472687] cut[18051]: segfault at 84492ee ip 084492ee sp bff45fbc error 4
Mar 22 20:58:53 timothy-gate kernel: [65575.244322] tail[18057]: segfault at 844945e ip 0844945e sp bf90263c error 4
Segmentation fault

творю непотребства и потом жалуюсь на форуме, ибо gentoo позволяет, since 2009

ata1.00: model number

ata1.00: model number mismatch 'Maxtor 6E040L0' != 'Maxtor vEp4pLp ` ` ` ` ` ` ` ` ` ` ` ` `'

творю непотребства и потом жалуюсь на форуме, ибо gentoo позволяет, since 2009

Это скорее плата

Это скорее плата перегревается на нём.

Локальный оверлей растёт

плата на диске?

плата на диске?

творю непотребства и потом жалуюсь на форуме, ибо gentoo позволяет, since 2009

Было что-то подобное на

Было что-то подобное на старом ЖД при перегреве схем.

Локальный оверлей растёт

Такое может быть как при

Такое может быть как при перегреве моста (лечится радиатором на термоклее), так и битым шлейфом, который до этого 10 лет никто не трогал.

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".