Непонятные фризы на материнской плате Intel DP965LT [SOLVED]

Около месяца назад мать (Intel DP965LT) стала зависать.
Зависает полностью и абсолютно - X, весь ввод-вывод, если играл звук - подвисает в том же тоне.
MagicSysRQ не действует.
До этого работала стабильней некуда (около месяца без перезагрузок).
Частота зависаний - около одного-двух в день.
По моим наблюдениям вероятность зависания ни от чего не зависит - может зависнуть в холоде, в тепле, при большой нагрузке или в экране logon, простояв 15 минут.
Единственное исключение - в консоли, при выключенных иксах не зависала, но я там не так часто работаю.

Последнее, что было сделано серьезного - обновлял BIOS на материнской плате (примерно в тот же срок, что и начались зависания, хотя точно сказать не могу).
Есть подозрения, что виноват именно он.

Мать чистая, электролиты нормальные, перегрева не наблюдается.
Ядро:

2.6.28-gentoo #1 SMP PREEMPT Tue Jan 6 23:35:59 VLAT 2009 i686 Intel(R) Pentium(R) Dual CPU E2200 @ 2.20GHz GenuineIntel GNU/Linux

lspci:

00:00.0 Host bridge: Intel Corporation 82P965/G965 Memory Controller Hub (rev 02)
00:01.0 PCI bridge: Intel Corporation 82P965/G965 PCI Express Root Port (rev 02)
00:03.0 Communication controller: Intel Corporation 82P965/G965 HECI Controller (rev 02)
00:19.0 Ethernet controller: Intel Corporation 82566DC Gigabit Network Connection (rev 02)
00:1a.0 USB Controller: Intel Corporation 82801H (ICH8 Family) USB UHCI Contoller #4 (rev 02)
00:1a.1 USB Controller: Intel Corporation 82801H (ICH8 Family) USB UHCI Controller #5 (rev 02)
00:1a.7 USB Controller: Intel Corporation 82801H (ICH8 Family) USB2 EHCI Controller #2 (rev 02)
00:1c.0 PCI bridge: Intel Corporation 82801H (ICH8 Family) PCI Express Port 1 (rev 02)
00:1c.1 PCI bridge: Intel Corporation 82801H (ICH8 Family) PCI Express Port 2 (rev 02)
00:1c.2 PCI bridge: Intel Corporation 82801H (ICH8 Family) PCI Express Port 3 (rev 02)
00:1c.3 PCI bridge: Intel Corporation 82801H (ICH8 Family) PCI Express Port 4 (rev 02)
00:1c.4 PCI bridge: Intel Corporation 82801H (ICH8 Family) PCI Express Port 5 (rev 02)
00:1d.0 USB Controller: Intel Corporation 82801H (ICH8 Family) USB UHCI Controller #1 (rev 02)
00:1d.1 USB Controller: Intel Corporation 82801H (ICH8 Family) USB UHCI Controller #2 (rev 02)
00:1d.2 USB Controller: Intel Corporation 82801H (ICH8 Family) USB UHCI Controller #3 (rev 02)
00:1d.7 USB Controller: Intel Corporation 82801H (ICH8 Family) USB2 EHCI Controller #1 (rev 02)
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev f2)
00:1f.0 ISA bridge: Intel Corporation 82801HB/HR (ICH8/R) LPC Interface Controller (rev 02)
00:1f.2 IDE interface: Intel Corporation 82801H (ICH8 Family) 4 port SATA IDE Controller (rev 02)
00:1f.3 SMBus: Intel Corporation 82801H (ICH8 Family) SMBus Controller (rev 02)
00:1f.5 IDE interface: Intel Corporation 82801H (ICH8 Family) 2 port SATA IDE Controller (rev 02)
01:00.0 VGA compatible controller: ATI Technologies Inc RV530 [Radeon X1600]
01:00.1 Display controller: ATI Technologies Inc RV530 [Radeon X1600] (Secondary)
03:00.0 IDE interface: Marvell Technology Group Ltd. 88SE6101 single-port PATA133 interface (rev b1)
07:00.0 Ethernet controller: Atheros Communications, Inc. AR5212 802.11abg NIC (rev 01)
07:01.0 Multimedia audio controller: Creative Labs SB0400 Audigy2 Value
07:03.0 FireWire (IEEE 1394): Texas Instruments TSB43AB22/A IEEE-1394a-2000 Controller (PHY/Link)

Подскажите, как локализовать или исправить проблему (т.е получить сообщение об ошибке, запись в логах, etc), или направление, куда можно копать.

Было как-то такое, помог

Было как-то такое, помог emerge -e world
Попробуй для начала вернуть назад BIOS, если не поможет - пересобери мир.

А имеет ли смысл именно

А имеет ли смысл именно emerge -e world? Разве симптомы не говорят о аппаратных проблемах/проблемах в ядре? т.е насколько я понимаю, MagicSysRQ не действует, только если виснет ядро?
Как я мыслю, имеет смысл сначала выгрузить все левые используемые модули (впроде vboxdrv или fglrx) и попробовать работать без них.
Старый биос прошил бы давно, но Intel, похоже, считает, что старые версии биос пользователям не нужны ;(

в данном случае emerge -e

в данном случае emerge -e world пользователи недавно могрировавшие с винды используют, когда не знают что делать - по старой виндовой привычке они переставляют систему. но, так как переставлять сложно, то можно просто -e сделать... помогает оно в весьма редких случаях, например когда (обычно эти-же) пользователи, любящие бинарные установщики дров/прог от производителя ломают ими систему. в остальных случаях это врядли поможет.

теперь ты знаеш почему при перешивке биоса нужно делать бэкап. не факт что он помог-бы, но вот определённости немного добавил...

MagicSysRQ действуют как раз когда виснет ядро. если они не работают то либо это аппаратный глюк, либо я незнаю что там в ядре должно так зависнуть чтоб они не действовали. Да, идея выгрузить левые модули и посмотреть выглядит хорошо. Можно также не нормалбную сесиию Х грузить, а просто запустить в консоли от юзера "Х" и любоваться на серый фон.

С Windows я слез лет 6-7

С Windows я слез лет 6-7 назад, а emerge -e world делал только потому, что ничего другого не помогло (на самом деле, наверняка, было достаточно пересобрать xorg и его зависимости, но разбираться не хотелось)

# cat /proc/interrupts

# cat /proc/interrupts

cat /proc/interrupts, после

cat /proc/interrupts, после примерно суток работы

           CPU0       CPU1
  0:        381          0   IO-APIC-edge      timer
  1:      99044          0   IO-APIC-edge      i8042
  4:          2          0   IO-APIC-edge
  7:          0          0   IO-APIC-edge      parport0
  9:          0          0   IO-APIC-fasteoi   acpi
 12:          4          0   IO-APIC-edge      i8042
 14:          0          0   IO-APIC-edge      ata_piix
 15:          0          0   IO-APIC-edge      ata_piix
 16:    5968206          0   IO-APIC-fasteoi   uhci_hcd:usb3, fglrx[0]@PCI:1:0:0
 17:          0          0   IO-APIC-fasteoi   pata_marvell
 18:          0          0   IO-APIC-fasteoi   ehci_hcd:usb1, uhci_hcd:usb7
 19:     642834          0   IO-APIC-fasteoi   ata_piix, uhci_hcd:usb6
 20:    1373233          0   IO-APIC-fasteoi   eth0
 21:    7796858          0   IO-APIC-fasteoi   uhci_hcd:usb4, ath
 22:     832925          0   IO-APIC-fasteoi   EMU10K1
 23:    2544647          0   IO-APIC-fasteoi   ehci_hcd:usb2, uhci_hcd:usb5
NMI:          0          0   Non-maskable interrupts
LOC:   19150987   20999773   Local timer interrupts
RES:      92178     136483   Rescheduling interrupts
CAL:       6862        269   Function call interrupts
TLB:     105768     100216   TLB shootdowns
TRM:          0          0   Thermal event interrupts
SPU:          0          0   Spurious interrupts
ERR:          0
MIS:          0

А там в changelog'е по биосу

А там в changelog'е по биосу ничего интересного нет?
За эти 2 месяца софт подозрительный наподобе драйверов может обновлялся? genlop и elogv в таких случаях оч помогает.
Была похожая проблема только с intel драйвером к 855GM. Там тоже зависало у меня все на проч. Симптомы тут есть.

Биос обновлялся для того,

Биос обновлялся для того, чтобы устранить проблемы с прерываниями на одной из PCI-RS232 карт. Список остальных изменений, я, увы, не просмотрел - заметил только, что он достаточно большой ;)

За эти два месяца софт обновлялся, даже несколько раз:
ati-drivers, gentoo-kernel, virtualbox-ose
Плюс ставилась RS232 и Wifi карты.
Плюс машина в течении этого срока переезжала.
И, естественно, несколько раз emerge -uvDN world.
Но похоже, что все началось именно с установки злой RS232 карты.

Дня три назад снял карту, выгрузил vboxdrv, переключил иксы на vesa.
Зависаний не было.

Вчера нужно было работать - включил обратно vboxdrv и ati-drivers
Пока еще ни разу не завис - фаза луны, однако %;)
Дня через четыре отпишу - исправилась ли проблема.

А что за проблемы с

А что за проблемы с прерываниями там были? Я так понимаю на parport0 ничего не тикает - висит на отдельном прерывании к тому же, так что наврятли. К тому же по прирываниям проблемы обычно если интенсивно что то юзается. А у тебя говоришь и на пустом месте валится. Попробуй драйвера видюхи откатить.

Было еще одно подвисание

Было еще одно подвисание (после обратного переключения vesa->fglrx), после чего был сделан вывод, что виноваты закрытые драйвера ati-drivers... перешел на xf86-video-ati (VIDEO_CARDS="ati", Driver "radeon").
При переходе возникла проблема с неработоспособностью drm, но он мне и не нужен - отключил.
Работает стабильно.
Сабж можно считать решенным.
Тему можно закрывать.
Всем спасибо (особенно evadim, calculator).

http://www.gentoo.ru/node/881

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".