Виснет сервер, помогите поставить диагноз (требуется коллективный разум)

есть вот такой дамп ipmiutil sel

51bc 12/23/09 01:37:23 BMC  14 Button #84 Reset Button pressed 6f [42 0f ff]
51d0 12/23/09 01:37:26 BMC  09 Power Unit #02 Redundancy NOT ok 8b [40 0f ff]
51e4 12/23/09 01:37:26 BMC  09 Power Unit #02 Redundancy OK   0b [40 0f ff]
51f8 12/23/09 01:37:27 BMC  f3 SMI Timeout #85 SMI de-asserted 83 [41 0f ff]
520c 12/23/09 01:37:44 BIOS 12 System Event #83 Boot: ClockSync_1 6f [05 00 ff]
5220 12/23/09 01:37:45 BIOS 12 System Event #83 Boot: ClockSync_2 6f [05 80 ff]
5234 12/23/09 01:37:46 0033 0c Memory #08 Uncorrectable ECC, DIMM2 6f [21 ff 02]
5248 12/23/09 01:37:46 0033 0c Memory #08 Uncorrectable ECC, DIMM0 6f [21 ff 00]
525c 12/23/09 01:37:46 BMC  21 Slot/Connector #e1 Disabled ef [48 0f ff]
5270 12/23/09 01:37:46 BMC  21 Slot/Connector #e3 Fault    ef [40 0f ff]
5284 12/23/09 01:39:15 0033 0f System Firmware #06 POST Code 8110 6f [a0 10 81]
5298 12/23/09 01:39:15 0033 0f System Firmware #06 POST Code 8111 6f [a0 11 81]
52ac 12/23/09 01:39:23 0033 12 System Event #01 OEM System Booted 6f [01 ff 00]
52c0 12/23/09 01:40:13 BMC  22 ACPI Power State #82 S0/G0 Working 6f [40 0f ff]
52d4 12/23/09 02:07:22 0033 0c Memory #08 Uncorrectable ECC, DIMM2 6f [21 ff 02]
52e8 12/23/09 02:07:22 0033 0c Memory #08 Uncorrectable ECC, DIMM1 6f [21 ff 01]
52fc 12/23/09 02:07:22 0033 0c Memory #08 Uncorrectable ECC, DIMM3 6f [21 ff 03]
5310 12/23/09 02:07:22 BMC  21 Slot/Connector #e1 Disabled 6f [48 0f ff]
5324 12/23/09 02:07:22 BMC  21 Slot/Connector #e3 Fault    6f [40 0f ff]
5338 12/23/09 02:12:12 0033 0c Memory #08 Uncorrectable ECC, DIMM1 6f [21 ff 01]
534c 12/23/09 02:12:12 0033 0c Memory #08 Uncorrectable ECC, DIMM1 6f [21 ff 01]
5360 12/23/09 02:12:12 0033 0c Memory #08 Uncorrectable ECC, DIMM3 6f [21 ff 03]
5374 12/23/09 02:13:42 BMC  f3 SMI Timeout #85 SMI asserted 03 [41 0f ff]
5388 12/23/09 02:37:20 BMC  f3 SMI Timeout #85 SMI de-asserted 83 [41 0f ff]

где—то в этом дампе сервер виснет наглухо, помогает только reset
сервер в текущей конфигурации проработал 2 года, за эти 2 года не было ни одной подобной ошибки (по данным того же ipmiutil sel )

мать

       description: Motherboard
       product: S5000PAL0
       vendor: Intel
       physical id: 0
       version: FRU Ver 0.05
       serial: BZAU75200519

память


             description: Synchronous 667 MHz (1.5 ns)
             vendor: 0198
             physical id: 0
             serial: 011118D4
             slot: ONBOARD DIMM_A1
             size: 2GiB
             width: 64 bits
             clock: 667MHz (1.5ns)

всего модулей таких 8 (дохнут только первые 4 — DIMM0 DIMM1 DIMM2 DIMM3)

ваши варианты возможной причины происходящего ?

ipmiutil sensor слишком большой и чтобы не перегружать мозг тех кто не имеет каких либо мыслей вывожу его в отдельную ссылку — http://dpaste.com/136888/

.

Судя по "Uncorrectable ECC", проблемы с памятью. Попробуй заменить/поменять местами/вытянуть глючные модули и проверить так.
PS Настрой watchdog чтоб сам ребутался когда завис.

если предыдущий коллега прав,

если предыдущий коллега прав, то стоит проверить и цепи питания, оглядеть конденсаторы - не вздулись ли, вычистить хорошенько содержимое корпуса от пыли... в общем провести профилактику (вы ведь ни слова не сказали о том, как ухаживаете за своей машиной;)

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".