Виснет сервер, помогите поставить диагноз (требуется коллективный разум)
ybw 23 декабря, 2009 - 09:45
есть вот такой дамп ipmiutil sel
51bc 12/23/09 01:37:23 BMC 14 Button #84 Reset Button pressed 6f [42 0f ff] 51d0 12/23/09 01:37:26 BMC 09 Power Unit #02 Redundancy NOT ok 8b [40 0f ff] 51e4 12/23/09 01:37:26 BMC 09 Power Unit #02 Redundancy OK 0b [40 0f ff] 51f8 12/23/09 01:37:27 BMC f3 SMI Timeout #85 SMI de-asserted 83 [41 0f ff] 520c 12/23/09 01:37:44 BIOS 12 System Event #83 Boot: ClockSync_1 6f [05 00 ff] 5220 12/23/09 01:37:45 BIOS 12 System Event #83 Boot: ClockSync_2 6f [05 80 ff] 5234 12/23/09 01:37:46 0033 0c Memory #08 Uncorrectable ECC, DIMM2 6f [21 ff 02] 5248 12/23/09 01:37:46 0033 0c Memory #08 Uncorrectable ECC, DIMM0 6f [21 ff 00] 525c 12/23/09 01:37:46 BMC 21 Slot/Connector #e1 Disabled ef [48 0f ff] 5270 12/23/09 01:37:46 BMC 21 Slot/Connector #e3 Fault ef [40 0f ff] 5284 12/23/09 01:39:15 0033 0f System Firmware #06 POST Code 8110 6f [a0 10 81] 5298 12/23/09 01:39:15 0033 0f System Firmware #06 POST Code 8111 6f [a0 11 81] 52ac 12/23/09 01:39:23 0033 12 System Event #01 OEM System Booted 6f [01 ff 00] 52c0 12/23/09 01:40:13 BMC 22 ACPI Power State #82 S0/G0 Working 6f [40 0f ff] 52d4 12/23/09 02:07:22 0033 0c Memory #08 Uncorrectable ECC, DIMM2 6f [21 ff 02] 52e8 12/23/09 02:07:22 0033 0c Memory #08 Uncorrectable ECC, DIMM1 6f [21 ff 01] 52fc 12/23/09 02:07:22 0033 0c Memory #08 Uncorrectable ECC, DIMM3 6f [21 ff 03] 5310 12/23/09 02:07:22 BMC 21 Slot/Connector #e1 Disabled 6f [48 0f ff] 5324 12/23/09 02:07:22 BMC 21 Slot/Connector #e3 Fault 6f [40 0f ff] 5338 12/23/09 02:12:12 0033 0c Memory #08 Uncorrectable ECC, DIMM1 6f [21 ff 01] 534c 12/23/09 02:12:12 0033 0c Memory #08 Uncorrectable ECC, DIMM1 6f [21 ff 01] 5360 12/23/09 02:12:12 0033 0c Memory #08 Uncorrectable ECC, DIMM3 6f [21 ff 03] 5374 12/23/09 02:13:42 BMC f3 SMI Timeout #85 SMI asserted 03 [41 0f ff] 5388 12/23/09 02:37:20 BMC f3 SMI Timeout #85 SMI de-asserted 83 [41 0f ff]
где—то в этом дампе сервер виснет наглухо, помогает только reset
сервер в текущей конфигурации проработал 2 года, за эти 2 года не было ни одной подобной ошибки (по данным того же ipmiutil sel )
мать
description: Motherboard product: S5000PAL0 vendor: Intel physical id: 0 version: FRU Ver 0.05 serial: BZAU75200519
память
description: Synchronous 667 MHz (1.5 ns) vendor: 0198 physical id: 0 serial: 011118D4 slot: ONBOARD DIMM_A1 size: 2GiB width: 64 bits clock: 667MHz (1.5ns)
всего модулей таких 8 (дохнут только первые 4 — DIMM0 DIMM1 DIMM2 DIMM3)
ваши варианты возможной причины происходящего ?
ipmiutil sensor слишком большой и чтобы не перегружать мозг тех кто не имеет каких либо мыслей вывожу его в отдельную ссылку — http://dpaste.com/136888/
»
- Для комментирования войдите или зарегистрируйтесь
.
Судя по "Uncorrectable ECC", проблемы с памятью. Попробуй заменить/поменять местами/вытянуть глючные модули и проверить так.
PS Настрой watchdog чтоб сам ребутался когда завис.
если предыдущий коллега прав,
если предыдущий коллега прав, то стоит проверить и цепи питания, оглядеть конденсаторы - не вздулись ли, вычистить хорошенько содержимое корпуса от пыли... в общем провести профилактику (вы ведь ни слова не сказали о том, как ухаживаете за своей машиной;)