сбоит XFS раздел

brothermechanic 20 июня, 2011 - 08:26

Ядро Linux и поддержка оборудования

Здравствуйте
помогите советом...

Зимой часто вырубали электричество и мои опасения подтверждаются - застучал жесткий диск.
Причем глючит именно последний (логический, 800 ГБ) раздел XFS /dev/sda6, который почти полностью забит
Устр-во Загр Начало Конец Блоки Id Система
/dev/sda1 * 63 41961779 20980858+ 83 Linux
/dev/sda2 41961780 62926604 10482412+ 82 Linux своп / Solaris
/dev/sda3 62926605 1953520064 945296730 5 Расширенный
/dev/sda5 62926668 230709464 83891398+ 83 Linux
/dev/sda6 230709528 1953520064 861405268+ 83 Linux

Лучший способ - попробовать пересоздать таблицу и наверно перейти на ext4? Как думаете?
Но это все будет тяжело осуществить... т.к. очень много там всего...(на dvd не переписать)))

ситуацию исправило
# xfs_check /dev/sda6
# xfs_repair /dev/sda6

НО, как оказалось - ненадолго

Как поступить, или крах неминуем?...

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

dobawit esce disk i

Автор SysA, дата создания 20 июня, 2011 - 09:16.

dobawit esce disk i migrirowat na LVM.

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

>>застучал жесткий

Автор wi, дата создания 20 июня, 2011 - 09:20.

>>застучал жесткий диск.

Советую обратить ваше пристальное внимание на утилиту smartctl из комплекта sys-apps/smartmontools

node1 ~ #smartctl -A /dev/sda

smartctl 5.40 2010-10-16 r3189 [x86_64-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 108 099 006 Pre-fail Always - 16977403
3 Spin_Up_Time 0x0003 098 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 512
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
.........

Особое внимание на WHEN_FAILED. Я от чего то уверен, что нормальный диск стучать не должен. Ежели вам каким то образом удалось подцепить полуразвалившийся хард - немедленно сливайте инфу.

Есть еще вариант с админским бубном и огненной водой.....

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

спасибо

Автор brothermechanic, дата создания 20 июня, 2011 - 14:26.

спасибо
выдало

# smartctl -A /dev/sdb
smartctl 5.40 2010-10-16 r3189 [x86_64-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       176370843
  3 Spin_Up_Time            0x0003   097   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1559
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   069   060   030    Pre-fail  Always       -       9744348
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1473
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       964
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   097   000    Old_age   Always       -       66148
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   061   052   045    Old_age   Always       -       39 (Min/Max 26/39)
194 Temperature_Celsius     0x0022   039   048   000    Old_age   Always       -       39 (0 12 0 0)
195 Hardware_ECC_Recovered  0x001a   035   030   000    Old_age   Always       -       176370843
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       232241766598619
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       332589503
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       242743696

Что делать?

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

Судя по выводу с диском все в

Автор wi, дата создания 20 июня, 2011 - 23:04.

Судя по выводу с диском все в порядке. Можно для пущего порядка прогнать по очереди тесты короткий
smartctl -t short /dev/..
и длинный
smartctl -t short /dev/..

Результаты -l selftest. Если тесты пройдут можно копать дальше.

Что значит "НО, как оказалось - ненадолго"

Да, и таки
df -lh дает более внятный результат

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

wi написал(а): Судя по выводу

Автор prof-alex, дата создания 21 июня, 2011 - 07:49.

wi написал(а):

Судя по выводу с диском все в порядке.

Что-то мне так не думается.

Цитата:

Raw Read Error Rate - частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска.

Seek Error Rate - частота ошибок при позиционировании блока головок. Высокое значение Raw свидетельствует о наличии проблем, которыми могут являться повреждение сервометок, чрезмерное термическое расширение дисков, механические проблемы в блоке позиционирования и др.

Т.е. диск часто вынужден перечитывать данные, и это может стать причиной "тормозов"

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

это не страшно

Автор Taelas, дата создания 21 июня, 2011 - 08:45.

некоторые диски показывают это значение, некоторые -- нет
это не критичный параметр.
вот, например, что пишет акронис по поводу ошибок smart
но, в то же время, не стоит забывать и исследования гугла

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

Нет, у тебя с виду seagate,

Автор evadim, дата создания 21 июня, 2011 - 09:50.

Нет, у тебя с виду seagate, они честно показывают количество ошибок чтения, их всегда гигантское число. Но если ты сравниш параметры №1 и №195 - они равны, то есть все ошибки чтения были аппаратно восстановлены. У других производителей как правило в №1 разница между №1 и №195 в seagate'ах

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

Мне кажется вы неверно

Автор wi, дата создания 24 июня, 2011 - 09:57.

Мне кажется вы неверно интерпертируете полученные данные. Согласно стандарта RAW_VALUE не говорит ни о чем. То же относится к значениям VALUE, WORST и TRESH. Это значения, которые вычисляет дисковый контроллер как ему вздумается. Единственное что стандартизовано, так это соотношение WORST и VALUE значению TRESH. В первом случае это говорит о том, что (WORST<=TRESH) параметр диска за всю историю использования смарта достигал критического значения. Во втором (VALUE<=TRESH)- то что ТЕКУЩЕЕ значение параметра достигло критического значения. Колонка WHEN_FAILED показывает это соотношение. Возможных значений три: - все в порядке, In_the_past (было в прошлом), FAILING_NOW - плохо прямо сейчас. Смарт не говорит когда именно диск умрет, или жив ли он сейчас. Он лишь держит два значения для каждого параметра - текущий и наихудший. Это дает некоторую информацию к размышлению о своевременной замене диска.

Некоторые параметры МОГУТ содержат данные в привычной для человека интерпретации. Но утверждать что это именно так согласно стандарта смарт нельзя. Тоесть смарт гарантирует правильность интерпретации ТОЛЬКО при сравнении ворста и валуя с трешем. В остальных случаях вы используете эти значения на свой страх и риск.

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

Телепаты в отпуске, но у меня

Автор nikma, дата создания 21 июня, 2011 - 06:36.

Телепаты в отпуске, но у меня xfs сыпался на ядре 2.6.38-r6, которое сейчас активно для x86_64. Использование r7 решило проблему.

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

продолжаемс)))

Автор brothermechanic, дата создания 21 июня, 2011 - 07:18.

wi, спасибо огромное, вечером потесчу!))) (результаты покажу)

nikma, вот вот, то же самое ядро! Как раз поставил его и возникла трабла.
Вероятно был сильный износ диска, теперь это возможно восстановить?

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

Как тебе уже сказали, у тебя

Автор nikma, дата создания 21 июня, 2011 - 11:20.

Как тебе уже сказали, у тебя вероятно seagate с которым всё в порядке. Ошибка программная в ядре. У меня на r6 не только с xfs проблемы были.
Смена ядра и xfs_check & xfs_repair долны полность решить проблемы.
А если ты про утерянные данные, то вопрос совершенно другого характера.

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".

Меню

Вход на сайт

Навигация

Активные обсуждения форума

Новые записи в блогах

Сейчас на сайте

Сбор новостей