зависает сервер

сервер:
asus p5q se
core2duo
2x2048 hynix
2x1TB wd soft raid
2x100MB Realtek lan

sys-kernel/gentoo-sources-2.6.31

apache
squid
postfix
dovecot
...

симтомы:
сервер переодически зависает намертво (не откликаеться по сети, темный монитор, клавиатура не работает (num lock не горит)), помогает только перезагрузка, зависание наблюдаеться не системно, может проработать несколько дней, а может за день три раза подвиснуть, процессор не перегреваеться, в логах все нормально.

помогите кто чем может.

dmesg

----------------------------------------------
up
up

http://www.gentoo.ru/node/129

материнка новая совсем,

читал
материнка новая совсем, недели две как купили, так что конденсаторы вряд ли

с прерываниями тоже вроде все нормально
CPU0 CPU1
0: 56 22 IO-APIC-edge timer
1: 4 4 IO-APIC-edge i8042
8: 11 9 IO-APIC-edge rtc0
9: 0 0 IO-APIC-fasteoi acpi
12: 56 58 IO-APIC-edge i8042
16: 31 31 IO-APIC-fasteoi pata_marvell
17: 16223 16259 IO-APIC-fasteoi eth0
18: 51951 52095 IO-APIC-fasteoi eth1
28: 30088 30096 PCI-MSI-edge ahci
29: 31527 31339 PCI-MSI-edge eth2
NMI: 0 0 Non-maskable interrupts
LOC: 888008 722093 Local timer interrupts
SPU: 0 0 Spurious interrupts
CNT: 0 0 Performance counter interrupts
PND: 0 0 Performance pending work
RES: 1003 543 Rescheduling interrupts
CAL: 54 41 Function call interrupts
TLB: 1040 1040 TLB shootdowns
TRM: 0 0 Thermal event interrupts
THR: 0 0 Threshold APIC interrupts
MCE: 0 0 Machine check exceptions
MCP: 35 35 Machine check polls
ERR: 0
MIS: 0

можно посмотреть на другом форуме

Посмотрите здесь, может, какой из вариантов и поможет.

1. погонять memtest часа 4,

1. погонять memtest часа 4, если ошибок нет
2. откатится на стабильный (4.3.2-r3) gcc
3. попробовать временно выключить selinux (а не исчезнет ли баг?)
4. перейти с x86 на x86_64

спасибо всем за участие,

спасибо всем за участие, решилось откатом на gentoo-sources-2.6.30-r6

отличное решение. надеюсь,

отличное решение. надеюсь, правда поможет :)

блок питания смотрели? может

блок питания смотрели? может там с кондерами беда? может на видео с кондерами беда?
не хочу показаться доктором хаузом, но больно симптомы подходящие :)

с кондерами бывает беда, но

с кондерами бывает беда, но не на новой машине

У меня тоже зависает.

srv ~ # uname -a
Linux srv 2.6.30-gentoo-r6 #1 SMP Wed Oct 7 21:39:55 MSD 2009 i686 Intel(R) Pentium(R) 4 CPU 2.00GHz GenuineIntel GNU/Linux

srv ~ # lspci -v
00:00.0 Host bridge: Silicon Integrated Systems [SiS] 651 Host (rev 01)
Subsystem: Silicon Integrated Systems [SiS] 651 Host
Flags: bus master, medium devsel, latency 32
Memory at e8000000 (32-bit, non-prefetchable) [=64M]
Capabilities: [c0] AGP version 2.0
Kernel driver in use: agpgart-sis
Kernel modules: sis-agp

00:01.0 PCI bridge: Silicon Integrated Systems [SiS] Virtual PCI-to-PCI bridge (AGP) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 64
Bus: primary=00, secondary=01, subordinate=01, sec-latency=32
I/O behind bridge: 0000c000-0000cfff
Memory behind bridge: ed000000-ed0fffff
Prefetchable memory behind bridge: e0000000-e7ffffff
Kernel modules: shpchp

00:02.0 ISA bridge: Silicon Integrated Systems [SiS] SiS962 [MuTIOL Media IO] (rev 04)
Flags: bus master, medium devsel, latency 0

00:02.1 SMBus: Silicon Integrated Systems [SiS] SiS961/2 SMBus Controller
Flags: medium devsel
I/O ports at 5c00 [=32]
Kernel driver in use: sis96x_smbus
Kernel modules: i2c-sis96x

00:02.5 IDE interface: Silicon Integrated Systems [SiS] 5513 [IDE] (prog-if 80 [Master])
Subsystem: Silicon Integrated Systems [SiS] SiS5513 EIDE Controller (A,B step)
Flags: bus master, medium devsel, latency 128
[virtual] Memory at 000001f0 (32-bit, non-prefetchable) [disabled] [=8]
[virtual] Memory at 000003f0 (type 3, non-prefetchable) [disabled] [=1]
[virtual] Memory at 00000170 (32-bit, non-prefetchable) [disabled] [=8]
[virtual] Memory at 00000370 (type 3, non-prefetchable) [disabled] [=1]
I/O ports at f000 [=16]
Kernel driver in use: pata_sis

00:03.0 USB Controller: Silicon Integrated Systems [SiS] USB 1.1 Controller (rev 0f) (prog-if 10 [OHCI])
Subsystem: Silicon Integrated Systems [SiS] USB 1.1 Controller
Flags: bus master, medium devsel, latency 32, IRQ 20
Memory at ed200000 (32-bit, non-prefetchable) [=4K]
Kernel driver in use: ohci_hcd
Kernel modules: ohci-hcd

00:03.1 USB Controller: Silicon Integrated Systems [SiS] USB 1.1 Controller (rev 0f) (prog-if 10 [OHCI])
Subsystem: Silicon Integrated Systems [SiS] USB 1.1 Controller
Flags: bus master, medium devsel, latency 32, IRQ 21
Memory at ed201000 (32-bit, non-prefetchable) [=4K]
Kernel driver in use: ohci_hcd
Kernel modules: ohci-hcd

00:03.2 USB Controller: Silicon Integrated Systems [SiS] USB 1.1 Controller (rev 0f) (prog-if 10 [OHCI])
Subsystem: Silicon Integrated Systems [SiS] USB 1.1 Controller
Flags: bus master, medium devsel, latency 32, IRQ 22
Memory at ed202000 (32-bit, non-prefetchable) [=4K]
Kernel driver in use: ohci_hcd
Kernel modules: ohci-hcd

00:03.3 USB Controller: Silicon Integrated Systems [SiS] USB 2.0 Controller (prog-if 20 [EHCI])
Subsystem: Giga-byte Technology Device 5004
Flags: bus master, medium devsel, latency 32, IRQ 23
Memory at ed203000 (32-bit, non-prefetchable) [=4K]
Capabilities: [50] Power Management version 2
Kernel driver in use: ehci_hcd
Kernel modules: ehci-hcd

00:09.0 Ethernet controller: Intel Corporation 82557/8/9/0/1 Ethernet Pro 100 (rev 08)
Subsystem: Intel Corporation EtherExpress PRO/100+
Flags: medium devsel, IRQ 17
Memory at ed204000 (32-bit, non-prefetchable) [=4K]
I/O ports at d800 [=64]
Memory at ed100000 (32-bit, non-prefetchable) [=1M]
[virtual] Expansion ROM at 30000000 [disabled] [=1M]
Capabilities: [dc] Power Management version 2
Kernel modules: e100

00:0b.0 Ethernet controller: VIA Technologies, Inc. VT6105/VT6106S [Rhine-III] (rev 8b)
Subsystem: D-Link System Inc Device 1405
Flags: bus master, medium devsel, latency 32, IRQ 18
I/O ports at dc00 [=256]
Memory at ed206000 (32-bit, non-prefetchable) [=256]
Capabilities: [44] Power Management version 2
Kernel driver in use: via-rhine
Kernel modules: via-rhine

00:10.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL-8139/8139C/8139C+ (rev 10)
Subsystem: Realtek Semiconductor Co., Ltd. RTL-8139/8139C/8139C+
Flags: bus master, medium devsel, latency 32, IRQ 17
I/O ports at e000 [=256]
Memory at ed207000 (32-bit, non-prefetchable) [=256]
Capabilities: [50] Power Management version 2
Kernel driver in use: 8139too
Kernel modules: 8139too, 8139cp

01:00.0 VGA compatible controller: Silicon Integrated Systems [SiS] 65x/M650/740 PCI/AGP VGA Display Adapter (prog-if 00 [VGA controller])
Subsystem: Silicon Integrated Systems [SiS] SiS 651 onboard [Asus P4SC-EA]
Flags: 66MHz, medium devsel, IRQ 5
BIST result: 00
Memory at e0000000 (32-bit, prefetchable) [=128M]
Memory at ed000000 (32-bit, non-prefetchable) [=128K]
I/O ports at c000 [=128]
Capabilities: [40] Power Management version 2
Capabilities: [50] AGP version 2.0

srv ~ # rc-update show
apache2 | default
bootmisc | boot
checkfs | boot
checkroot | boot
clamd |
default
clock | boot
consolefont | boot
hddtemp | default
hostname | boot
iptables | default
keymaps | boot
lm_sensors | default
local | default nonetwork
localmount | boot
modules | boot
monit | default
mrtg | default
mysql | default
named | default
net.eth0 | default
net.eth1 | default
net.lo | boot
netams | default
netmount | default
ntp-client | default
pptpd | default
proftpd | default
rmnologin | boot
samba | default
snmpd | default
squid | default
sshd | default
syslog-ng | default
sysstat | default
teamspeak2-server | default
urandom | boot
vixie-cron | default

Решил проблему так
echo 5 > /proc/sys/kernel/panic
echo 5 > /proc/sys/kernel/panic_on_oops

Теперь он раз в две недели ребутается. Добавил в /etc/conf.d/local.start проверку и исправление мускульных баз, и все ок.)))

Судя по всему глючит нонаме мать, которую мне безплатно знакомый подогнал.
но на новую в любом случае нет денег.

Тесты винтов прогони.

Тесты винтов прогони. sys-apps/smartmontools

Спсибо.

Запустил как демона с такими настройками:
/dev/sda -a -d sat -H -l error
/dev/sdb -a -d sat -H -l error

Посмотрим что намониторит.))))

ЗЫ. не нашел как его запустит в режиме теста.

Мдя.

Вы оказались правы:
Oct 26 08:34:53 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Oct 26 09:04:52 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Oct 26 09:34:52 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Oct 26 10:04:52 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Oct 26 10:34:52 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Oct 26 11:04:52 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Oct 26 11:34:52 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Oct 26 12:04:52 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Oct 26 12:34:52 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Oct 26 13:04:52 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Oct 26 13:34:52 srv smartd[13713]: Device: /dev/sda, 1 Currently unreadable (pending) sectors
Или это просто совместное чтение, т.е. винт занят.

Проверить диски mhdd или

Проверить диски mhdd или badblocks.

Нащяльника, мая сервира паставиль, фрибизьдя инсталя сделаль, апачи сабраль, пыхапе патключиль, сапускаю, а ано - ажамбех пашамбе эшельбе шайтанама!

Спасибо!!!

Спасибо, проблема решилась путем замены винта. Гм, а я на мать грешил, век живи, век учись))))

начните рисовать статистики

начните рисовать статистики системы...
У меня на прошлой работе такие приколы были благодаря контроллеру дисков. Решил апдейт BIOS.
Еше диски. Не обязательно там должны быть плохие блоки.. Там просто на одном util был большой (так в 10 раз больше чем на втором).
Ну и еще некоторые зависали в момент resync raid'а, выпадал lvm.

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".