постоянно падает fs
постоянно падает fs
добрый день. есть комп с гентой, fs ext3 (3 раздела, boot, swap, root). на компе крутится музыкальная прога, люди суют денюжку, заказывают песню. последнее время некоторые компы перестали загружаться с ошибкой Unexpected inconsistency, run fsck manually. (автоматическая проверка харда производится после 30-и монтирований, чтоль). ну не проблема, запущу вручную (обычно делал это под live cd на немонтированном устройстве, все по феншую). немного поработает, и опять та же проблема. последнее время даж fsck перестал помогать, и при загрузке уже kernel panic - not syncing: VFS: unable to mount root fs on unknown.
что меня удивляет из всей этой истории, за 3 года юзания генты на домашнем компе и ноуте НИ РАЗУ не было подобной хрени (обрушение фс). С железом сразу скажу, все ок, харды новые (знаю я вас, любителей на железо пинять :) )
кстате, раньше стояла убунта, началась эта хрень, но я погрешил на ось (довольно древняя версия была) и поставил генту, с которой у меня отродясь проблем не было. но и она не выдержала :(
есть небольшая догадка, от чего это может происходить. бывает, что прога подвисает, и люди ребутят комп. и возможно попадают на запланированную по кол-ву монтирований проверку системы. люди пьяные, ждать не хотят (а харды то 500гб - 1Тб, далеко не пустые), поэтому опять ребутят комп (во время проверки фс), в надежде быстрой загрузки. возможно опять попадают на запланированную проверку (а возможно приходим к нерабочему состоянию). Естественно, никто не признается, что они с ним делали, что довели до этого.
вопросы следующие: - может ли из за этого рушиться фс? здравый смысл подсказывает, что да
- чем чревато отключение запланированной проверки по кол-ву монтирований? вроде через tunefs это можно сделать
- может есть какие нить специальные правила/настройки для стабильной работы компа (в моем случае с фс) без вмешательства админа?
всем спасибо за ответы
- Для комментирования войдите или зарегистрируйтесь
smartctl --all /dev/sda и
1.
smartctl --all /dev/sda
и вывод сюда ;)2. отключи кнопку Reset
3. попробуй перейти на более современную ФС типа reiserfs или ext4... для больших мультимедийных файлов вообще стоит xfs накатить... их проверка проходит ооооочень быстро ;)
имхо, вообще неправильное разбиение диска, т.к. нужно отделять мух от котлет и чем скурпулезнее, тем лучше ;)
1. вывод дам вечером 2. там
1. вывод дам вечером
2. там нету резета, есть только Power (в виде ключа). один раз повернул, сработало acpi правило, и пошел halt. во время проверки видимо они зажимают Power, и имеем хард ресет.
3. попробую. а большие мультимедийные файлы это какие? там тупо мп3шки по 3-5 метров, но на 300-500 гигов
насчет 3-х разделов, ну отделю я рут, таж самая байда с музыкальным разделом будет происходить. хотя канеш это правильней
vvviperrr написал(а): насчет
с музыкальным разделом проблем не будет, если ты не будешь туда-сюда лить музыку, т.к. ошибки ФС имхо возникают только при отключении питания на записи, т.к. не все буферы скидываются из памяти ;) буферы чтения можно терять до посинения ))
а кнопка повер выключается в биосе ;) вернее ей можно назначать действие... ЕМНИП!!!
попробую переразбить. а
попробую переразбить. а насчет автоматической проверки что нить посоветуешь? стоит ли ее отключать?
повер в биосе этих материнок не отрубается вроде как. во всяком случае я не нашел
vvviperrr написал(а): а
ЕМНИП, такая проверка есть только на ext... у меня в системах только reiserfs и xfs... они проверяются fsck при каждой загрузке, если счетчик транзакций не нулевой... после отрубания питания проверка занимает секунд 30 на 4,5ТБ ;)
обещанный лог
1 Raw_Read_Error_Rate
1 Raw_Read_Error_Rate 0x000f 118 099 006 Pre-fail Always - 168599381
7 Seek_Error_Rate 0x000f 075 060 030 Pre-fail Always - 37204711
пора менять
и лучше все же не барракуду... мне с барракуд грустно последние два года. но вестерны порадовали. еще хитачи хороши - пять лет винт живет и хорощо себя чувсвует...
А вообще, watchdog поставить - чтоб само ребутило... упсник - чтоб через розетку не ребутили.
P.S.: Linux - это красная таблетка :-) Windows - синяя...
я не знаю, что значат эти
я не знаю, что значат эти показатели, но на моем домашнем годовалом полутерабайтнике эти цифры еще выше. и как я уже сказал, ни разу подобной хрени.
про упсник вообще смешно. это надо доказать человеку (хозяину этих автоматов), почему на его былой винде все нормально работало, а на линухе нужен упс. наслушался он о надежности и бесплатности, вот и решил перейти
и еще раз. я не уверен точно, из за чего эта байда, просто подозреваю, что они его ребутят во время плановой по монтированию проверки (пьяные люди, ждать не хотят, музыку слушать хотят). подозрение правильное? смена фс/отмена этой плановой проверки решит проблему? возникнут другие проблемы в связи с отсутствием плановой проверки? вот ключевые вопросы. ответьте пожалуйста, кто может.
и умирать они начинают примерно в одно время. на убунте поработали около недели, начали дохнуть. перевел на генты. проработали около 2-х месяцев, я уже обрадовался, что дело действительно в ней. и опять начали дохнуть, один за другим. не все конечно. что подтверждает догадку о ребуте во время плановой проверки (30 монтирований)
vvviperrr написал(а): и еще
Мне нравится твоя логика - ФС требует регулярной проверки, давайте её отключим - пусть не напоминает об этом. Допустим, у тебя болит зуб - ты берёш и пьёш обезболивающее. Вопрос - питьё обезболивающего помогает тебе вылечить зуб, или ты дождёшся воспаления, и склеиш ласты от гангрены?
я просто спрашиваю, можно ли
я просто спрашиваю, можно ли избежать этих проверок. винда ведь не делает никаких запланированных проверок. поэтому и спрашиваю, поможет ли переход на другую фс. я просто не юзал ничего кроме ext3/4
vvviperrr написал(а): винда
винды, по возрасту схожие с ext3 не умели делать отложенную запись, поэтому таких проверок им делать было не нужно, зато раз в месяц (а то и два) нужно было на сутки запускать дефрагментацию...
почитай статьи о сравнении разных ФС Linux - само сразу станет все понятно... продумай как правильнее разбить диск и что как монтировать (ro,rw и т.д.), а начальнику объясни, что если линукс надежнее венды, то это в плане вирусов и отказоустойчивости ПО и это не значит, что теперь можно вилки из розетки дергать и пинать системник ногами ;)
да уже прошерстил сравнение
да уже прошерстил сравнение фс, попробую reiserfs. еще есть бредовая мысль root раздел оставить в ext3, а раздел с базой в ntfs.
спасибо за ответ
а насчет readonly root раздела, если в системе используется mysql, каталог с бд выносить на отдельный rw раздел? или как то можно указать, что root раздел монтируем с ro, но вот этот каталог и вот эти вот файлы с rw
vvviperrr написал(а): еще
ты эту идею очень правильно охарактеризовал, ибо ntfs нормально читаться/писаться будет только через fuse, что даст хорошую (читай "излишнюю" или "избыточную") нагрузку на проц ;)
если перейдешь на reiserfs, то получишь минимум двухкратный прирост скорости работы дисковой системы ;)
ro - глобальный параметр, который обойти нельзя... пользуйся симлинками для файлов и переноси каталоги для записи на другие разделы ;)
сравните процент
сравните процент заполненности винтов дома и на работе. а как со скоростью на домашнем винте?
а на счет венды - она пока винт не задрочит до состояния, что сама загрузиться не сможет - для все будет ништяк. :) Замечено однажды на примере бухгалтерии - начали жаловаться, что "база пропадает". Начал разбираться - оказывается, умная гента, если прошли ошибки на запись - тупо отрубала раздел, тем самым не давая повредить данные. Винту было всего 2 месяца. угадайте, какой винт был? барракуда. прогнал xfs_recovery - через полчаса раздел восстановлен. смонтировал на чтение, вытянул данные. Отнес винт по гарантии. Продавец посопротивлялся, но все же поменял. Ибо винт не соответствует заявленным характеристикам. Поменял на хитач - и уже 1,5 года нет проблем.
и точно ли то же самое железо использовалось в венде и сейчас (например, в плане RAM)?
еще, думаю, стоит прислушаться к предложению выше (отделить мух от котлет), и монтировать разделы в RO?
и еще неточность в ваших словах - сначала вы пишете, что ресет отглючен, но чуть ниже - пьяные люди смогли-таки воспользоваться ресетом. или там ITшники пьянствуют? :)
P.S.: Linux - это красная таблетка :-) Windows - синяя...
Aladdin написал(а): и еще
ТС же написал, что кнопка power при длительном удержании работает как reset ... собственно как и у всех по-умолчанию ;)
с ro разобрались, будем
с ro разобрались, будем пробовать.
железо тут ни при чем. был бы единичный случай (ну или 2, 3), я бы естественно проверял железо. тут же из 50-ти машин дохнут пачками по 20-30 штук (железо одинаковое, винты клонированные). и дохнут примерно в одно время (2 месяца все работали идеально, и тут пошло)
[qoute]
и еще неточность в ваших словах - сначала вы пишете, что ресет отглючен, но чуть ниже - пьяные люди смогли-таки воспользоваться ресетом. или там ITшники пьянствуют? :)
[/qoute]
я же писал. да, резета нет, есть Power ввиде ключа. скорей всего они его зажимают, что приводит к аварийному выключению. а возможно тупо из розетки дергают.
так что никаких неточностей
Для seagate это нормально,они
Для seagate это нормально,они честно показывают количество ошибок чтения которые случаются в гигантских количествах на любом диске, но если мы сравним их с 195 Hardware_ECC_Recovered - обнаружим совпадение - все ошибки были воостановлены электроникой диска. Тоесть все остальные производители указывают лиш разницу между этими двумя параметрами, ошибки позиционирования головок тоже ниочём не говорят. А вот самый опасный параметр пропущен:
мы имеем 54 переназначенных сектора. Рекомендую запустить встроееную проверку и посмотреть на этот параметр ещё раз - если он растёт, то винт начал сыпаться и его нужно как можно скорее менять.
Вот это говорит нам о том что есть проблемы со шлейфом:
SPAN MIN_LBA MAX_LBA
не есть хорошо - вы совсем не проверяете диски!
SysA написал(а): вы совсем не
я тебя правильно понял, что ТС надо добавить smartd в автозагрузку? ))
Обязательно! И задать график
Обязательно! И задать график проверок. И указать кому сообщать о прблемах.
Дома у меня все включено в стартовые скрипты.
А на серверах я запускаю на все диски короткий тест каждую ночь, а длинный - раз в неделю.
Переразбей диск на разделы с
Переразбей диск на разделы с системой и музыкой.
Раздел с музыкой монтируй в режиме ro :)
Working on Gentoo Linux for Asus P535 and Qtopia :-)
это я понял. но раздел с
это я понял. но раздел с музыкой все равно будет проверяться по кол-ву монтирований, и они опять его будут ребутить, и я окажусь опять в той же ситуации.
Как ro от этого может спасти?
Ну тут я ниче посоветовать не
Ну тут я ниче посоветовать не могу, разве что перезагружаться когда нужно )
Working on Gentoo Linux for Asus P535 and Qtopia :-)
что значит перегружаться? как
что значит перегружаться?
как ro раздел спасет меня от того, что они будут (а они будут) ребутить комп во время проверки фс. вот в чем вопрос то :)
проверка ro раздела вобщем-то
проверка ro раздела вобщем-то бессмыслена :) ИМХО. можно '0' в fstab поставить на соотв. раздел. либо использовать все же xfs или другую ФС, которая умеет фоном чекать.
P.S.: Linux - это красная таблетка :-) Windows - синяя...
Aladdin написал(а): либо
Кстати а какие еще фс могут в фоне чекать? и дефрагментировать? :)
Working on Gentoo Linux for Asus P535 and Qtopia :-)
Нет, потому что его проверять
Нет, потому что его проверять не надо :) или хотя бы оооооооооооочень редко!
И еще - сделай его на райзере (только на 3, а не на 4!) - тогда и проверки пройдут быстро.
ок, спс. будем пробовать :)
ок, спс. будем пробовать :)
Друзья по поводу smartctl
Друзья по поводу smartctl хочу сказать следующее, следует принять во внимание что RAW_VALUE это закодированное число на которое обращать внимания не стоит, оно используется firmware'ом hdd ус-ва.
Внимание следует обратить на вот эти значения:
VALUE текущее состояние
WORST самое плохое что было за все время работы
THRESH значение при котором работа hdd не гарантируется(К.О. пора искать гарантийный талон ;) )
То есть, если VALUE > THRESH веник будет еще очень долго жить :)
Working on Gentoo Linux for Asus P535 and Qtopia :-)
Хм
А если вот так:
Веник на свалку?
Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!
У тебя все значения Pre-fail
У тебя все значения Pre-fail равны VALUE > THRESH == TRUE :)
*Нет не на свалку
Working on Gentoo Linux for Asus P535 and Qtopia :-)