Зависания системы x64[SOLVED]

Система переодически зависает вплоть до ресета... Примерно 1 из 3-4-х запусков заканчиваются оным... Не знаю с какой стороны подступиться к трабле. Похожее наблюдал и на других дистрах(opensuse 11.1)
Может какие-нить логи почитать?

Инфа:
Ядро gentoo-sources-2.6.30-r4
xorg-server-1.5.3-r6
kde-3.5.10, некоторые пакеты из 4-х
По-большей части сижу на стабильной ветке.
Что ещё написать?

проверить железо - память,

проверить железо - память, hdd, конденсаторы на плате, температуру процессора и прочее. если от дистра не зависит.

P.S.: Linux - это красная таблетка :-) Windows - синяя...

hdd, кондеи и температуру

hdd, кондеи и температуру проверял... на память не грешу, ибо тогдабы при долгой работе были бы такиеже вылеты, а тут всё в первые часы работы происходит. но всёравно проверю.

На хардвар не грешу, ибо в той осе о которой не говорят относительно спокойно было... Я по большей части думаю, что собака где-то в кедах зарыта или иксах.

убрать разгон?

убрать разгон?

и небыло... уже давно

и небыло... уже давно

снова

Пожалуйста не путайте тёплое с мягким, есть x86, есть x86_64 (так же известная под именем amd64) архитектура.
Архитектуры х64 в природе нет.

По теме вопроса -- логи однозначно читать надо. Хотя бы потому, что личности обладающие экстраординарными псионическими способностями по традиции в отпусках :p

Какие логи посоветуете

Какие логи посоветуете читать?

Оффтоп: По традиции или по божественному промыслу сложилось так, что x86_64==x64==amd64 != ia64 . Короче говоря не надо придираться к словам.

только вот x64 используют как

только вот x64 используют как название только две компании мелкософт и сантехники. И это не является каноническим названием архитектуры.
Каноническое это ia32_64

___________________________________________
Working on Gentoo for iPAQ hx4700 and Openmoko Neo Freerunner :-)
Если у вас компьютер с Windows, есть два выхода: выбросить компьютер в форточку или выбросить форточки с компьютера

alexxy

alexxy написал(а):
Каноническое это ia32_64

а ia32_64 используют тока осинезаторы ;-) ибо у компьютерщиков есть либо ia32, либо ia64, слияния не было... во-вторых ia - это itanium architecture и совершенно не совместимо с x86 и тем более с x86_64(AMD64)

Theli написал(а): alexxy

Theli написал(а):
alexxy написал(а):
Каноническое это ia32_64

а ia32_64 используют тока осинезаторы ;-) ибо у компьютерщиков есть либо ia32, либо ia64, слияния не было... во-вторых ia - это itanium architecture и совершенно не совместимо с x86 и тем более с x86_64(AMD64)

есть мысль что тебе нужно разобраться в вопросе немного. ia - это intel architecture, и ia32 бало ещё задолго до какихто планах о итаниуме, не говоря уже о железе. Потом, вместе с появлением itanium, появилось и ia64 - так как он полностью 64х битный. Но несколько позже AMD высказалось в ключе что он так на серверах и останется, если вообще выживет, и выпустила гибрид - ia32_64, тоесть 32х разрядный проц с 64х битными дополнениями имеющий полную совместимость со старыми 32х разрядными приложениями. Из 64х битности там восновном адресация памяти и в 2 раза большее количество регистров в 2 раза же большего размера. Интел сначала мягко говоря скептически отнёсся к полезности и будущему этих процессоров, но через некоторое время выпустил свои процессоры на данной архитектуре, от того эта архитектура в gentoo исторически называется amd64 и правильность названия её ia32_64 тоже вызывает некоторые сомнения, но всёже, изначально переделывалась ia32 так что с виду всё нормально...

amd64 aka x86_64 aka ia32_64

amd64 aka x86_64 aka ia32_64 есть не что иное как 64 битное ABI всеми известной ia32 aka x86 (последние имхо не верно ибо например 80286 был 16 битным и имел архитектуру ia16 так что ia32 для современных процов все же более корректно чем x86 =P)

___________________________________________
Working on Gentoo for iPAQ hx4700 and Openmoko Neo Freerunner :-)
Если у вас компьютер с Windows, есть два выхода: выбросить компьютер в форточку или выбросить форточки с компьютера

IA-64 IA-32 по поводу гибрита

IA-64
IA-32

по поводу гибрита x86(IA-32) и итаниума (IA-64) чё-то ничего в инете не нашел... есть тока кучка пользователей которые именуют всё это дело как-то на свой лад: ia32_32, ia32_64 и т.д. пошарился так же в поиске на www.intel.com ... "ia32_64" и "ia32-64" встречаются тока в вопросах пользователей, но не в ответах модераторов... в гугле картина та же ;-)

если у вас есть официальные письменые доказательства ваших слов, то уж постарайтесь предоставить ссылочку ;-)

вынужден признаться, что не знал, что ia32 - это обычный х86, но я знал, что ia64 - это itanium ибо имел в свое время глупость скачать обноления для windows c пометкой ia64, которые благополучно умертвили стоящий windows х64 professional, который тогда тока появился... возможно в каких-то кругах и называют х86_64 сочетанием ia32_64, но думаю, что AMD врятли назвала бы свою разработку IA хотябы из-за ее расшифровки ;-)

alexxy написал(а):
есть мысль что тебе нужно разобраться в вопросе немного.

уважаемый alexxy, впредь не "тыкайте" пожалуйста! мы с вами не друзья и не родственники - имейте уважение ;-)

Речь о том что x86_64 более

Речь о том что x86_64 более правильно называть ia32_64 так как это всего навсего 64битное ABI для ia32 а уж не как не гибрид пеньков с итаниками. =) Вот и все.
PS какое счастье что у меня нет таких родственников :P

___________________________________________
Working on Gentoo for iPAQ hx4700 and Openmoko Neo Freerunner :-)
Если у вас компьютер с Windows, есть два выхода: выбросить компьютер в форточку или выбросить форточки с компьютера

alexxy, зайдите в гугль и на

alexxy, зайдите в гугль и на сайт интела и вы поймете, что это лично ваше измышление и только для вас (ну и еще несклоьких человек) это является истиной. Официально такого названия нет ни для чего: ни для ABI, ни для API, ни для архитектуры...

1. ABI отличается по версиям и названий не имеет.
2. ABI это чисто программная вещь, т.е. это соглашение какие регистры общего назначения для чего используются (какие принимают переменные, какие возвращают и т.д.). От архитектуры ABI мало зависит и не зависит от разрядности...

Ща еще как придерусь Я!!! Вы

Ща еще как придерусь Я!!! Вы батенька или читать не умеете, или вы Билл Гейтс...

x86-64. Первоначальный вариант. Именно под этим названием фирмой AMD была опубликована первая предварительная спецификация.
AMD64. После выпуска первых Hammer’ов в названии архитектуры появилось название фирмы-разработчика Advanced Micro Devices. Сейчас является официальным для реализации AMD.
x64 Официальное название версий операционных систем Windows и Solaris, также используемое как название архитектуры фирмами Microsoft и Sun Microsystems.

похрену как мелкософт архитектуру называет, ибо мелкософт на истину никогда не претендовал!!!

З.Ы. Если вы так бездумно и во всем верите википедии, то вы батенька ... ну, думаю, сами догадались ;-)

Мне не интересно разводить

Мне не интересно разводить холивары на почве того, как называть архитектуру. Моя задача описать конкретную проблему так, что бы её поняли и помогли с решением. ИМХО у меня это получилось. А то что "религиозно неправильно" называть её так меня не волнует.

ЗЫ на "бездумное доверие" к википедии я не претендую. Привёл её как истоник,который был под рукой.

ладно-ладно! не обижайтесь

ладно-ладно! не обижайтесь ;-)

У меня вис hald причем так

У меня вис hald причем так что 100%, и даже мышка не двигалась ...

и хрен с ними: мышками,

и хрен с ними: мышками, клавами, халами и другими плюшками! если на клаве лампы не замигали, значит всё можно починить!

изучите комбинации клавишь:
1. alt+sysrq+r
2. alt+sysrq+s
3. alt+sysrq+u
4. alt+sysrq+o
и еще пару в том же духе... и запомните на всю жизнь "зависшее приложение" != "зависшая система"

хмм... а если лампы замигали?

хмм... а если лампы замигали? походу раньше необращал внимания... тогда в какие колокола бить?
Про магические клавиши что-то читал, но так до конца не разобрался... пороюсь ещё.

мигающие с частотой 1гц

мигающие с частотой 1гц светодиоды num+caps+scroll оповещают о kernel panic. собственно данную проблему можно решить передав ядру при загрузке параметр panic=30, из-за этого оно "попаникует" 30 секунд и перезагрузит машину.

# grep panic

# grep panic /etc/sysctl.conf
# When the kernel panics, automatically reboot in 2 seconds
kernel.panic = 2

Или же тут :)

Мигание есть не всегда.

Мигание есть не всегда. panic=30 не помог, при зависании перезагруки не случилось, так что похоже дело не в ядре. Правда на магические клавиши sysrq тоже реакции не последовало, так что я в недоумении((

Ещё заметил такую вещь, что при "холодном железе" также наблюдаются такие баги, как вылет из иксов и различные сбои програм.

Memtest запускал два раза один раз он нашёл одну ошибку, в другой гонял всю память по 3 часа,но ничего(нет не памяти столько, просто я отходил).
как думаете трабла в памяти? бывает ли такое, что при комнатной температуре в ней возникают ошибки? И в каких логах всётки можно найти что-то полезное?

ЗЫ: сильно не пинайте, самому кажется, что звучит всё это глупо

Достаточно один раз

Достаточно один раз возникнуть ошибке в мемтесте чтобы уже забить тревогу.
sysrq не будут работать если была активна сессия xorg и повис видеодрайвер. После kernel panic ничего не поможет, только reset.
Что можно сделать
* на время тестов убрать ВСЕ дополнительное оборудование из компьютера (платы расширения, контроллеры, сетевые карты,...)
* уменьшить скорость шины/памяти/процессора, даже если сейчас штатный режим.
* вдумчиво изучить показания термодатчиков, можно даже просто в BIOS посмотреть
* проблемы могут быть не в памяти а чипсете и, менее вероятно, в процессоре.
* если планок памяти несколько - вынимать по одной и проводить стресс-тесты, если проблема повторяется то выкинуть материнку (иногда, ооочень редко, помогает прошивка новой версии BIOS).
* если видео не встроенное, найти любую замену, поиграться с vesa драйвером.

Цитата: sysrq не будут

Цитата:
sysrq не будут работать если была активна сессия xorg и повис видеодрайвер.

еще как будут работать! ;-) они для таких ситуаций и созданы!

1. Alt+SysRq+R - переводит вводс клавиатуры в консоль. Все дальнейшие нажатия клавиш не будут передаваться во всякие иксы, халы и другие хлебопекарные изделия )
2. Alt+SysRq+E - послать всем процессам сигнал TERM
3. Alt+SysRq+I - послать всем процессам сигнал KILL
4. Alt+SysRq+S - синхронизировать дисковый кеш
5. Alt+SysRq+U - отмонтировать все файловые системы
6. Alt+SysRq+O - выключить питание

если при зАвиси проделать все эти движения от первого до последнего, то получается безболезненное выключение компа ;-) хотя больше всего пользуюсь первой комбинацией...

Топикстартеру
Замените везде термопасту! ;-)

Микродополнение: 6.2.

Микродополнение:
6.2. Alt+SysRq+B - пустить на перезагрузку (на мой взгляд, это и быстрее и менее вредно)

т.е. это аналогично

т.е. это аналогично /sbin/reboot ??? ))

Ни в коем случае! Это всего

Ни в коем случае! Это всего лишь более мягкий вариант нажатия кнопки reset - тут вся ядерная структура нормально завершается (и ну оборудование, в идее, останавливается).
Аналогично /sbin/reboot это R+E+I+S+S+U+B (да и то это жестче намного), здесь S+S+U обязательны чтобы не было проблем с ФС (данные сбросятся на диск и все ФС отмонтируются).

А почему не размонтировать, а

А почему не размонтировать, а потом сбрасывать кеши?

Чтоб не потерять те данные,

Чтоб не потерять те данные, которые находятся в кешах (ещё не записаны на hdd).

вообще при команде umount

вообще при команде umount просходит автоматический сброс кеша... при использовании магических клавишь - НЕТ!!! т.к. это просто обертка к системному вызову

Супер! Не знал... Теперь буду

Супер! Не знал...
Теперь буду знать... :)
Спасибо :)

У меня такие признаки раз в

У меня такие признаки раз в 2-3 месяца появляются.
Источник проблемы: в радиаторе видюшки (ati x1950 pro) слишком узкие окна, и они постоянно забиваются пылью.
Решение: пора почистить видюху.

у меня были мертвые зависания

у меня были мертвые зависания без паники ядра тока при многодневном кодировании HD-видео... вылечилось усердной чисткой пылесосом всего корпуса, промывкой радиаторов на чипсете и процессоре и заменой термопасты под всеми радиаторами...

еще неплохо посмотреть в биос и выписать на бумажку все опции, которых вы не знаете или не уверены в их значении, и посмотреть в инете, что они значат и в какое значение лучше поставить... у себя потратил неделю на данное исследование, после чего долгие циклические процессы ускорились (например, увеличился fps при кодировании HD-видео)

Попробуйте навострить

Попробуйте навострить lm_sensors с sensord, если есть подходящие сенсоры - то он вас известит о перегреве (надо только настроить), очень похоже не на него. Еще бывает так назваемый хальт - это непредусмотренная программная в ядре, т.е. фатальный OOPS, (паника - предусмотренная ошибка, обычно это PANIC или PANIC_ON макрос), обычно оопс успевает записатся в dmesg. Рекомендую попробывать подсоединить другой компьютер к этому (желательно максимально прямо, т.е. без всяких свитчей и т.п., и уж точно без вайфая между ними) и организовать на него netconsole. После чего постараться вызвать этот баг. Если вы найдете стабильный способ вызывания бага и получите текст оопса - пишите баг на kernel.org. Ну и также поройтесь в конфигураторе ядра, там иногда бывают всякие фичи типа "Если у вас часто виснет машина, попробуйте отрубить эту опцию".

xcusme for my english, i'm

xcusme for my english, i'm just rebuildin' gentoo to get russian language support.
can you tell me more about magic & sysrc buttons. configuration files & etc is pleasured

emerge lm_sensors; man

emerge lm_sensors; man sensors.conf
less /usr/src/linux/Documentation/sysrq.txt
less /usr/src/linux/Documentation/networking/netconsole.txt

А "rebuilding gentoo to get russian language support" - вам собсно надо изменить /etc/locale.gen (и запустить locale-gen) и поставить шрифты. Ну еще настроить переключалки. Подробнее - оффтоп - гуглить: манов тыщи.

lm_sensors давно пытался

lm_sensors давно пытался завести, но тока недавно получилось (наткнулся на маны в вики)
так что вот инфа по теплу, при не сильной работе emerg'a:
coretemp-isa-0000
Adapter: ISA adapter
Core 0: +68°C (high = +100°C)
coretemp-isa-0001
Adapter: ISA adapter
Core 1: +61°C (high = +100°C)
temp1: +36°C (low = +127°C, high = +127°C) sensor = invalid # непонятно что (может мать в каком-то месте или южный мост?)
temp2: +49°C (low = +127°C, high = +70°C) sensor = diode # видимо чипсет (север?)

+ видюха по инфе из нвидиевского гуёвого апплета прогревается до +66°C при средней нагрузке.

ИМХО много, но не критически... с охолождением надо что-то выдумывать (оно мне сразу непонравилось, учитывая, что корпус забит почти подзавязку).
Про netconsole погуглю на досуге... глюки встречаются нестабильно и это затрудняет процесс.
ЗЫ: 13-го словил самый ужасный вирус под линь "лишний пробел или юзер под рутом с кривыми руками", тоесть запустил "rm -rf /tmp /*". Само сабой лучшая часть системы улетела в трубу, до того как я успел нажать Ctrl+C(((. за пару дней вроде всё установил (пересобрал) и вроде бы всё работает без вылетов. Так что до возобновления багов писать неочем))

Быть может я покажусь

Быть может я покажусь старомодным и туповатым, но попробуйте в опциях загрузчика (вы ведь используете grub не так ли?) добавить acpi=off. Как то раз неправильно собранная поддержка acpi порождала именно такой же результат как у вас, а именно, зависание системы в первые 1-5 минут работы. По этому поводу даже в dmesg мадало что то, но сейчас уже не вспомню что.

а откуда можно почитать dmesg

а откуда можно почитать dmesg предыдущих запусков?

Собрать syslog-ng и

Собрать syslog-ng и соответственно добавить его в runlevel boot.
Логи в /var/log/messages

мм.. спасибо только в

мм.. спасибо только в хендбуке советовали добавлять его в default. Есть какая-нибудь принципиальная разница при использовании только одного runlevel'а?

И правильно советовали. В

И правильно советовали. В boot не стоит добавлять ничего, если вы абсолютно точно не уверены, что оно там надо.

всё решил... оказывается

всё решил... оказывается вторая планка памяти было почти мёртвая(при обмене их местами машина даже не заводилась). Так что просто поменял мозги. обидно, что всё вышло так банально.

у меня sys-devel/gcc как-то

у меня sys-devel/gcc как-то не собирался на битой памяти/сыпавшемся hdd :) так что если собирается ооочень долго или с ошибками, это скорее всего проблемы с памятью/hdd

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".