постоянно падает fs

постоянно падает fs

добрый день. есть комп с гентой, fs ext3 (3 раздела, boot, swap, root). на компе крутится музыкальная прога, люди суют денюжку, заказывают песню. последнее время некоторые компы перестали загружаться с ошибкой Unexpected inconsistency, run fsck manually. (автоматическая проверка харда производится после 30-и монтирований, чтоль). ну не проблема, запущу вручную (обычно делал это под live cd на немонтированном устройстве, все по феншую). немного поработает, и опять та же проблема. последнее время даж fsck перестал помогать, и при загрузке уже kernel panic - not syncing: VFS: unable to mount root fs on unknown.

что меня удивляет из всей этой истории, за 3 года юзания генты на домашнем компе и ноуте НИ РАЗУ не было подобной хрени (обрушение фс). С железом сразу скажу, все ок, харды новые (знаю я вас, любителей на железо пинять :) )

кстате, раньше стояла убунта, началась эта хрень, но я погрешил на ось (довольно древняя версия была) и поставил генту, с которой у меня отродясь проблем не было. но и она не выдержала :(

есть небольшая догадка, от чего это может происходить. бывает, что прога подвисает, и люди ребутят комп. и возможно попадают на запланированную по кол-ву монтирований проверку системы. люди пьяные, ждать не хотят (а харды то 500гб - 1Тб, далеко не пустые), поэтому опять ребутят комп (во время проверки фс), в надежде быстрой загрузки. возможно опять попадают на запланированную проверку (а возможно приходим к нерабочему состоянию). Естественно, никто не признается, что они с ним делали, что довели до этого.

вопросы следующие: - может ли из за этого рушиться фс? здравый смысл подсказывает, что да

- чем чревато отключение запланированной проверки по кол-ву монтирований? вроде через tunefs это можно сделать

- может есть какие нить специальные правила/настройки для стабильной работы компа (в моем случае с фс) без вмешательства админа?

всем спасибо за ответы

smartctl --all /dev/sda и

1. smartctl --all /dev/sda и вывод сюда ;)
2. отключи кнопку Reset
3. попробуй перейти на более современную ФС типа reiserfs или ext4... для больших мультимедийных файлов вообще стоит xfs накатить... их проверка проходит ооооочень быстро ;)

Цитата:
(3 раздела, boot, swap, root)

имхо, вообще неправильное разбиение диска, т.к. нужно отделять мух от котлет и чем скурпулезнее, тем лучше ;)

1. вывод дам вечером 2. там

1. вывод дам вечером
2. там нету резета, есть только Power (в виде ключа). один раз повернул, сработало acpi правило, и пошел halt. во время проверки видимо они зажимают Power, и имеем хард ресет.
3. попробую. а большие мультимедийные файлы это какие? там тупо мп3шки по 3-5 метров, но на 300-500 гигов

насчет 3-х разделов, ну отделю я рут, таж самая байда с музыкальным разделом будет происходить. хотя канеш это правильней

vvviperrr написал(а): насчет

vvviperrr написал(а):
насчет 3-х разделов, ну отделю я рут, таж самая байда с музыкальным разделом будет происходить. хотя канеш это правильней

с музыкальным разделом проблем не будет, если ты не будешь туда-сюда лить музыку, т.к. ошибки ФС имхо возникают только при отключении питания на записи, т.к. не все буферы скидываются из памяти ;) буферы чтения можно терять до посинения ))

а кнопка повер выключается в биосе ;) вернее ей можно назначать действие... ЕМНИП!!!

попробую переразбить. а

попробую переразбить. а насчет автоматической проверки что нить посоветуешь? стоит ли ее отключать?

повер в биосе этих материнок не отрубается вроде как. во всяком случае я не нашел

vvviperrr написал(а): а

vvviperrr написал(а):
а насчет автоматической проверки что нить посоветуешь? стоит ли ее отключать?

ЕМНИП, такая проверка есть только на ext... у меня в системах только reiserfs и xfs... они проверяются fsck при каждой загрузке, если счетчик транзакций не нулевой... после отрубания питания проверка занимает секунд 30 на 4,5ТБ ;)

обещанный лог

smartctl 5.39.1 2010-01-28 r3054 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.12 family
Device Model:     ST3500410AS
Serial Number:    5VM034ES
Firmware Version: CC31
User Capacity:    500,106,780,160 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jan 13 03:19:36 2011 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 ( 609) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (  95) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x103f)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       168599381
  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       837
  5 Reallocated_Sector_Ct   0x0033   099   099   036    Pre-fail  Always       -       54
  7 Seek_Error_Rate         0x000f   075   060   030    Pre-fail  Always       -       37204711
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       3319
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       842
183 Runtime_Bad_Block       0x0000   100   100   000    Old_age   Offline      -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   072   054   045    Old_age   Always       -       28 (Lifetime Min/Max 26/28)
194 Temperature_Celsius     0x0022   028   046   000    Old_age   Always       -       28 (0 15 0 0)
195 Hardware_ECC_Recovered  0x001a   041   023   000    Old_age   Always       -       168599381
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       2
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       224957502068223
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       3791977169
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       222325072

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


1 Raw_Read_Error_Rate

1 Raw_Read_Error_Rate 0x000f 118 099 006 Pre-fail Always - 168599381
7 Seek_Error_Rate 0x000f 075 060 030 Pre-fail Always - 37204711
пора менять
и лучше все же не барракуду... мне с барракуд грустно последние два года. но вестерны порадовали. еще хитачи хороши - пять лет винт живет и хорощо себя чувсвует...
А вообще, watchdog поставить - чтоб само ребутило... упсник - чтоб через розетку не ребутили.

P.S.: Linux - это красная таблетка :-) Windows - синяя...

я не знаю, что значат эти

я не знаю, что значат эти показатели, но на моем домашнем годовалом полутерабайтнике эти цифры еще выше. и как я уже сказал, ни разу подобной хрени.
про упсник вообще смешно. это надо доказать человеку (хозяину этих автоматов), почему на его былой винде все нормально работало, а на линухе нужен упс. наслушался он о надежности и бесплатности, вот и решил перейти

и еще раз. я не уверен точно, из за чего эта байда, просто подозреваю, что они его ребутят во время плановой по монтированию проверки (пьяные люди, ждать не хотят, музыку слушать хотят). подозрение правильное? смена фс/отмена этой плановой проверки решит проблему? возникнут другие проблемы в связи с отсутствием плановой проверки? вот ключевые вопросы. ответьте пожалуйста, кто может.

и умирать они начинают примерно в одно время. на убунте поработали около недели, начали дохнуть. перевел на генты. проработали около 2-х месяцев, я уже обрадовался, что дело действительно в ней. и опять начали дохнуть, один за другим. не все конечно. что подтверждает догадку о ребуте во время плановой проверки (30 монтирований)

vvviperrr написал(а): и еще

vvviperrr написал(а):
и еще раз. я не уверен точно, из за чего эта байда, просто подозреваю, что они его ребутят во время плановой по монтированию проверки (пьяные люди, ждать не хотят, музыку слушать хотят). подозрение правильное? смена фс/отмена этой плановой проверки решит проблему? возникнут другие проблемы в связи с отсутствием плановой проверки? вот ключевые вопросы. ответьте пожалуйста, кто может.

Мне нравится твоя логика - ФС требует регулярной проверки, давайте её отключим - пусть не напоминает об этом. Допустим, у тебя болит зуб - ты берёш и пьёш обезболивающее. Вопрос - питьё обезболивающего помогает тебе вылечить зуб, или ты дождёшся воспаления, и склеиш ласты от гангрены?

я просто спрашиваю, можно ли

я просто спрашиваю, можно ли избежать этих проверок. винда ведь не делает никаких запланированных проверок. поэтому и спрашиваю, поможет ли переход на другую фс. я просто не юзал ничего кроме ext3/4

vvviperrr написал(а): винда

vvviperrr написал(а):
винда ведь не делает никаких запланированных проверок

винды, по возрасту схожие с ext3 не умели делать отложенную запись, поэтому таких проверок им делать было не нужно, зато раз в месяц (а то и два) нужно было на сутки запускать дефрагментацию...

почитай статьи о сравнении разных ФС Linux - само сразу станет все понятно... продумай как правильнее разбить диск и что как монтировать (ro,rw и т.д.), а начальнику объясни, что если линукс надежнее венды, то это в плане вирусов и отказоустойчивости ПО и это не значит, что теперь можно вилки из розетки дергать и пинать системник ногами ;)

да уже прошерстил сравнение

да уже прошерстил сравнение фс, попробую reiserfs. еще есть бредовая мысль root раздел оставить в ext3, а раздел с базой в ntfs.
спасибо за ответ

а насчет readonly root раздела, если в системе используется mysql, каталог с бд выносить на отдельный rw раздел? или как то можно указать, что root раздел монтируем с ro, но вот этот каталог и вот эти вот файлы с rw

vvviperrr написал(а): еще

vvviperrr написал(а):
еще есть бредовая мысль root раздел оставить в ext3, а раздел с базой в ntfs.
спасибо за ответ

ты эту идею очень правильно охарактеризовал, ибо ntfs нормально читаться/писаться будет только через fuse, что даст хорошую (читай "излишнюю" или "избыточную") нагрузку на проц ;)
если перейдешь на reiserfs, то получишь минимум двухкратный прирост скорости работы дисковой системы ;)

vvviperrr написал(а):
а насчет readonly root раздела, если в системе используется mysql, каталог с бд выносить на отдельный rw раздел? или как то можно указать, что root раздел монтируем с ro, но вот этот каталог и вот эти вот файлы с rw

ro - глобальный параметр, который обойти нельзя... пользуйся симлинками для файлов и переноси каталоги для записи на другие разделы ;)

сравните процент

сравните процент заполненности винтов дома и на работе. а как со скоростью на домашнем винте?
а на счет венды - она пока винт не задрочит до состояния, что сама загрузиться не сможет - для все будет ништяк. :) Замечено однажды на примере бухгалтерии - начали жаловаться, что "база пропадает". Начал разбираться - оказывается, умная гента, если прошли ошибки на запись - тупо отрубала раздел, тем самым не давая повредить данные. Винту было всего 2 месяца. угадайте, какой винт был? барракуда. прогнал xfs_recovery - через полчаса раздел восстановлен. смонтировал на чтение, вытянул данные. Отнес винт по гарантии. Продавец посопротивлялся, но все же поменял. Ибо винт не соответствует заявленным характеристикам. Поменял на хитач - и уже 1,5 года нет проблем.
и точно ли то же самое железо использовалось в венде и сейчас (например, в плане RAM)?
еще, думаю, стоит прислушаться к предложению выше (отделить мух от котлет), и монтировать разделы в RO?
и еще неточность в ваших словах - сначала вы пишете, что ресет отглючен, но чуть ниже - пьяные люди смогли-таки воспользоваться ресетом. или там ITшники пьянствуют? :)

P.S.: Linux - это красная таблетка :-) Windows - синяя...

Aladdin написал(а): и еще

Aladdin написал(а):
и еще неточность в ваших словах - сначала вы пишете, что ресет отглючен, но чуть ниже - пьяные люди смогли-таки воспользоваться ресетом. или там ITшники пьянствуют? :)

ТС же написал, что кнопка power при длительном удержании работает как reset ... собственно как и у всех по-умолчанию ;)

с ro разобрались, будем

с ro разобрались, будем пробовать.

железо тут ни при чем. был бы единичный случай (ну или 2, 3), я бы естественно проверял железо. тут же из 50-ти машин дохнут пачками по 20-30 штук (железо одинаковое, винты клонированные). и дохнут примерно в одно время (2 месяца все работали идеально, и тут пошло)

[qoute]
и еще неточность в ваших словах - сначала вы пишете, что ресет отглючен, но чуть ниже - пьяные люди смогли-таки воспользоваться ресетом. или там ITшники пьянствуют? :)
[/qoute]

я же писал. да, резета нет, есть Power ввиде ключа. скорей всего они его зажимают, что приводит к аварийному выключению. а возможно тупо из розетки дергают.

так что никаких неточностей

Для seagate это нормально,они

Для seagate это нормально,они честно показывают количество ошибок чтения которые случаются в гигантских количествах на любом диске, но если мы сравним их с 195 Hardware_ECC_Recovered - обнаружим совпадение - все ошибки были воостановлены электроникой диска. Тоесть все остальные производители указывают лиш разницу между этими двумя параметрами, ошибки позиционирования головок тоже ниочём не говорят. А вот самый опасный параметр пропущен:

5 Reallocated_Sector_Ct   0x0033   099   099   036    Pre-fail  Always       -       54

мы имеем 54 переназначенных сектора. Рекомендую запустить встроееную проверку и посмотреть на этот параметр ещё раз - если он растёт, то винт начал сыпаться и его нужно как можно скорее менять.
Вот это говорит нам о том что есть проблемы со шлейфом:

199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       2

SPAN MIN_LBA MAX_LBA

 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing

не есть хорошо - вы совсем не проверяете диски!

SysA написал(а): вы совсем не

SysA написал(а):
вы совсем не проверяете диски!

я тебя правильно понял, что ТС надо добавить smartd в автозагрузку? ))

Обязательно! И задать график

Обязательно! И задать график проверок. И указать кому сообщать о прблемах.
Дома у меня все включено в стартовые скрипты.
А на серверах я запускаю на все диски короткий тест каждую ночь, а длинный - раз в неделю.

Переразбей диск на разделы с

Переразбей диск на разделы с системой и музыкой.
Раздел с музыкой монтируй в режиме ro :)

Working on Gentoo Linux for Asus P535 and Qtopia :-)

это я понял. но раздел с

это я понял. но раздел с музыкой все равно будет проверяться по кол-ву монтирований, и они опять его будут ребутить, и я окажусь опять в той же ситуации.
Как ro от этого может спасти?

Ну тут я ниче посоветовать не

Ну тут я ниче посоветовать не могу, разве что перезагружаться когда нужно )

Working on Gentoo Linux for Asus P535 and Qtopia :-)

что значит перегружаться? как

что значит перегружаться?
как ro раздел спасет меня от того, что они будут (а они будут) ребутить комп во время проверки фс. вот в чем вопрос то :)

проверка ro раздела вобщем-то

проверка ro раздела вобщем-то бессмыслена :) ИМХО. можно '0' в fstab поставить на соотв. раздел. либо использовать все же xfs или другую ФС, которая умеет фоном чекать.

P.S.: Linux - это красная таблетка :-) Windows - синяя...

Aladdin написал(а): либо

Aladdin написал(а):
либо использовать все же xfs или другую ФС, которая умеет фоном чекать.

Кстати а какие еще фс могут в фоне чекать? и дефрагментировать? :)

Working on Gentoo Linux for Asus P535 and Qtopia :-)

Нет, потому что его проверять

Нет, потому что его проверять не надо :) или хотя бы оооооооооооочень редко!
И еще - сделай его на райзере (только на 3, а не на 4!) - тогда и проверки пройдут быстро.

ок, спс. будем пробовать :)

ок, спс. будем пробовать :)

Друзья по поводу smartctl

Друзья по поводу smartctl хочу сказать следующее, следует принять во внимание что RAW_VALUE это закодированное число на которое обращать внимания не стоит, оно используется firmware'ом hdd ус-ва.

Внимание следует обратить на вот эти значения:
VALUE текущее состояние
WORST самое плохое что было за все время работы
THRESH значение при котором работа hdd не гарантируется(К.О. пора искать гарантийный талон ;) )

То есть, если VALUE > THRESH веник будет еще очень долго жить :)

Working on Gentoo Linux for Asus P535 and Qtopia :-)

Хм

А если вот так:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   133   133   054    Pre-fail  Offline      -       139
  3 Spin_Up_Time            0x0007   112   112   024    Pre-fail  Always       -       185 (Average 181)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       1927
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   134   134   020    Pre-fail  Offline      -       28
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       2253
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       1927
192 Power-Off_Retract_Count 0x0032   099   099   000    Old_age   Always       -       1929
193 Load_Cycle_Count        0x0012   099   099   000    Old_age   Always       -       1929
194 Temperature_Celsius     0x0002   222   222   000    Old_age   Always       -       27 (Min/Max 13/44)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

Веник на свалку?

Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!

У тебя все значения Pre-fail

У тебя все значения Pre-fail равны VALUE > THRESH == TRUE :)
*Нет не на свалку

Working on Gentoo Linux for Asus P535 and Qtopia :-)

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".