drbd+ocfs2 3 node cluster

DMajere 18 января, 2012 - 16:46

Системное администрирование

Добрый день,
ситуация следующая, пытаюсь сделать кластер из трех машинок.

drbd - модуль вкомпилен в ядро, пакет ставился через emerge

конфиг -

cat /etc/drbd.d/global_common.conf
global {
usage-count yes;
}

common {
protocol C;

handlers {
pri-on-incon-degr "/usr/lib64/drbd/notify-pri-on-incon-degr.sh; /usr/lib64/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f";
pri-lost-after-sb "/usr/lib64/drbd/notify-pri-lost-after-sb.sh; /usr/lib64/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f";
local-io-error "/usr/lib64/drbd/notify-io-error.sh; /usr/lib64/drbd/notify-emergency-shutdown.sh; echo o > /proc/sysrq-trigger ; halt -f";

}

startup {
become-primary-on both;
}

disk {
fencing resource-and-stonith;
}

net {
timeout 60; # 6 seconds (unit = 0.1 seconds)
connect-int 10; # 10 seconds (unit = 1 second)
ping-int 10; # 10 seconds (unit = 1 second)
ping-timeout 5; # 500 ms (unit = 0.1 seconds)
max-buffers 2048;
unplug-watermark 128;
max-epoch-size 2048;
ko-count 4;
allow-two-primaries;

}

resource r0 {
syncer {
rate 1000M;
}

net {
after-sb-0pri discard-zero-changes;
after-sb-1pri discard-secondary;
after-sb-2pri disconnect;

}

on node1 {
device /dev/drbd0;
disk /dev/sda4;
address 10.10.10.1:7788;
meta-disk internal;
}

on node2 {
device /dev/drbd0;
disk /dev/sda4;
address 10.10.10.2:7788;
meta-disk internal;
}
}

resource r1 {
syncer {
rate 1000M;
}
net {
after-sb-0pri discard-zero-changes;
after-sb-1pri discard-secondary;
after-sb-2pri disconnect;

}

stacked-on-top-of r0 {
device /dev/drbd10;
address 10.10.10.1:7789;
}

on node3 {
device /dev/drbd10;
disk /dev/sda4;
address 10.10.10.3:7788;
meta-disk internal;
}
}

Далее по-науке =), раскидываю конфиги по нодам, стартуем drbd.
Устройства успешно создаются и синхронизируются. Дождался окончания синхронизации.

ocfs2 - так же вкомпилен, dlm не забыт, его тоже вкомпилил.

ФС накатывалась на 1 ноде, на /dev/drbd10

none /sys/kernel/config configfs defaults 0 0
none /sys/kernel/dlm ocfs2_dlmfs defaults 0 0
в fstab добавлены, и примонтированы.

cat /etc/ocfs2/cluster.conf
node:
ip_port = 7777
ip_address = 192.168.1.67
number = 0
name = node1
cluster = cluster

node:
ip_port = 7777
ip_address = 192.168.1.68
number = 1
name = node2
cluster = cluster

node:
ip_port = 7777
ip_address = 192.168.1.69
number = 2
name = node3
cluster = cluster

cluster:
node_count = 3
name = cluster

В conf.d/ocfs2 имя кластера сменил на актуальная.

/etc/init.d/ocfs2 start -отрабатывает корректно на всех трех нодах.

node1 -

mounted.ocfs2 -d
Device FS Stack UUID Label
/dev/sda4 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
/dev/drbd0 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
/dev/drbd10 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10

node2 -

mounted.ocfs2 -d
Device FS Stack UUID Label
/dev/sda4 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
/dev/drbd0 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10

node3 -

mounted.ocfs2 -d
Device FS Stack UUID Label
/dev/sda4 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
/dev/drbd10 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10

Диски определились корректно.

Пробую монтировать, и вот тут как раз причина этого поста

на двух нодах монитрование проходит успешно.

node1 -
mount /dev/drbd10 /home/ -t ocfs2

df -h
/dev/drbd10 848G 233G 615G 28% /home

node2 -
/dev/drbd0 848G 233G 615G 28% /home

а вот на третей не фурычит -

mount /dev/drbd10 /home/ -t ocfs2
mount.ocfs2: Unknown code B 0 while mounting /dev/drbd10 on /home/. Check 'dmesg' for more information on this error.

на 1 ноде в dmesg -
o2net: accepted connection from node node3 (num 2) at 192.168.1.69:7777
o2net: connection to node node3 (num 2) at 192.168.1.69:7777 shutdown, state 8
o2net: no longer connected to node node3 (num 2) at 192.168.1.69:7777

на 3 ноде -
o2net: connected to node node1 (num 0) at 192.168.1.67:7777
(o2net,5752,3):o2net_connect_expired:1659 ERROR: no connection established with node 2 after 30.0 seconds, giving up and returning errors.
(mount.ocfs2,20894,4):dlm_join_domain:1474 Timed out joining dlm domain 58576A9DD92142B48B183992EF55B8E9 after 90400 msecs
ocfs2: Unmounting device (147,10) on (node 0)
o2net: no longer connected to node node1 (num 0) at 192.168.1.67:7777
(o2net,5752,3):o2net_connect_expired:1659 ERROR: no connection established with node 2 after 30.0 seconds, giving up and returning errors.
(o2net,5752,3):o2net_connect_expired:1659 ERROR: no connection established with node 2 after 30.0 seconds, giving up and returning errors.

Пробовал так же монтировать сначала 1-3 ноду - монтируются, за этим монтирую диск на второй ноде - 3 вылетает.

Сначала 3 потом вторую -на третьей монтирование проходит успешно.
на второй
mount /dev/drbd0 /home/ -t ocfs2
mount.ocfs2: Transport endpoint is not connected while mounting /dev/drbd0 on /home/. Check 'dmesg' for more information on this error.

(o2net,7938,18):o2net_connect_expired:1659 ERROR: no connection established with node 2 after 30.0 seconds, giving up and returning errors.
(mount.ocfs2,21854,12):dlm_request_join:1040 ERROR: Error -107 when sending message 510 (key 0x666c6172) to node 2
(mount.ocfs2,21854,12):dlm_try_to_join_domain:1216 ERROR: status = -107
(mount.ocfs2,21854,12):dlm_join_domain:1494 ERROR: status = -107
(mount.ocfs2,21854,12):dlm_register_domain:1760 ERROR: status = -107
(mount.ocfs2,21854,12):o2cb_cluster_connect:311 ERROR: status = -107
(mount.ocfs2,21854,12):ocfs2_dlm_init:3086 ERROR: status = -107
(mount.ocfs2,21854,12):ocfs2_mount_volume:1837 ERROR: status = -107
ocfs2: Unmounting device (147,0) on (node 0)

Может кто-нибудь сталкивался с подобной задачей и схожей проблемой?

Для комментирования войдите или зарегистрируйтесь

похожая ситуация

Автор yanik, дата создания 16 марта, 2012 - 16:58.

Возникла похожая ситуация, всё как бы хорошо, вот только при монтировании файловой системы, получаю:
mount /dev/drbd0 /mnt/gentoo
mount.ocfs2: Internal logic failure while trying to join the group

ФС на ноде присутствует, создавал её так
mkfs.ocfs2 -F -N 2 -L ocfs2 /dev/drbd0
mkfs.ocfs2 1.6.4
Cluster stack: classic o2cb
Overwriting existing ocfs2 partition.
WARNING: Cluster check disabled.
Proceed (y/N): y
Label: ocfs2
Features: sparse backup-super unwritten inline-data strict-journal-super xattr
Block size: 2048 (11 bits)
Cluster size: 4096 (12 bits)
Volume size: 1003380736 (244966 clusters) (489932 blocks)
Cluster groups: 16 (tail covers 6886 clusters, rest cover 15872 clusters)
Extent allocator size: 4194304 (1 groups)
Journal size: 33554432
Node slots: 2
Creating bitmaps: done
Initializing superblock: done
Writing system files: done
Writing superblock: done
Writing backup superblock: 0 block(s)
Formatting Journals: done
Growing extent allocator: done
Formatting slot map: done
Formatting quota files: done
Writing lost+found: done
mkfs.ocfs2 successful

может кто-то нашёл решение данной проблеммы?
при проверке ФС выдаёт:
fsck.ocfs2 /dev/drbd0
fsck.ocfs2 1.6.4
fsck.ocfs2: Internal logic failure while initializing the DLM

Для комментирования войдите или зарегистрируйтесь

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".

Вход в аккаунт

Меню

Навигация

Обсуждаемые темы

Новые записи в блогах

Сейчас на сайте

Сбор новостей

drbd+ocfs2 3 node cluster

похожая ситуация

Настройки просмотра комментариев