drbd+ocfs2 3 node cluster
Добрый день,
ситуация следующая, пытаюсь сделать кластер из трех машинок.
drbd - модуль вкомпилен в ядро, пакет ставился через emerge
конфиг -
cat /etc/drbd.d/global_common.conf
global {
usage-count yes;
}
common {
protocol C;
handlers {
pri-on-incon-degr "/usr/lib64/drbd/notify-pri-on-incon-degr.sh; /usr/lib64/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f";
pri-lost-after-sb "/usr/lib64/drbd/notify-pri-lost-after-sb.sh; /usr/lib64/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f";
local-io-error "/usr/lib64/drbd/notify-io-error.sh; /usr/lib64/drbd/notify-emergency-shutdown.sh; echo o > /proc/sysrq-trigger ; halt -f";
}
startup {
become-primary-on both;
}
disk {
fencing resource-and-stonith;
}
net {
timeout 60; # 6 seconds (unit = 0.1 seconds)
connect-int 10; # 10 seconds (unit = 1 second)
ping-int 10; # 10 seconds (unit = 1 second)
ping-timeout 5; # 500 ms (unit = 0.1 seconds)
max-buffers 2048;
unplug-watermark 128;
max-epoch-size 2048;
ko-count 4;
allow-two-primaries;
}
}
resource r0 {
syncer {
rate 1000M;
}
net {
after-sb-0pri discard-zero-changes;
after-sb-1pri discard-secondary;
after-sb-2pri disconnect;
}
on node1 {
device /dev/drbd0;
disk /dev/sda4;
address 10.10.10.1:7788;
meta-disk internal;
}
on node2 {
device /dev/drbd0;
disk /dev/sda4;
address 10.10.10.2:7788;
meta-disk internal;
}
}
resource r1 {
syncer {
rate 1000M;
}
net {
after-sb-0pri discard-zero-changes;
after-sb-1pri discard-secondary;
after-sb-2pri disconnect;
}
stacked-on-top-of r0 {
device /dev/drbd10;
address 10.10.10.1:7789;
}
on node3 {
device /dev/drbd10;
disk /dev/sda4;
address 10.10.10.3:7788;
meta-disk internal;
}
}
Далее по-науке =), раскидываю конфиги по нодам, стартуем drbd.
Устройства успешно создаются и синхронизируются. Дождался окончания синхронизации.
ocfs2 - так же вкомпилен, dlm не забыт, его тоже вкомпилил.
ФС накатывалась на 1 ноде, на /dev/drbd10
none /sys/kernel/config configfs defaults 0 0
none /sys/kernel/dlm ocfs2_dlmfs defaults 0 0
в fstab добавлены, и примонтированы.
cat /etc/ocfs2/cluster.conf
node:
ip_port = 7777
ip_address = 192.168.1.67
number = 0
name = node1
cluster = cluster
node:
ip_port = 7777
ip_address = 192.168.1.68
number = 1
name = node2
cluster = cluster
node:
ip_port = 7777
ip_address = 192.168.1.69
number = 2
name = node3
cluster = cluster
cluster:
node_count = 3
name = cluster
В conf.d/ocfs2 имя кластера сменил на актуальная.
/etc/init.d/ocfs2 start -отрабатывает корректно на всех трех нодах.
node1 -
mounted.ocfs2 -d
Device FS Stack UUID Label
/dev/sda4 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
/dev/drbd0 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
/dev/drbd10 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
node2 -
mounted.ocfs2 -d
Device FS Stack UUID Label
/dev/sda4 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
/dev/drbd0 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
node3 -
mounted.ocfs2 -d
Device FS Stack UUID Label
/dev/sda4 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
/dev/drbd10 ocfs2 o2cb 58576A9DD92142B48B183992EF55B8E9 ocfs2_drbd10
Диски определились корректно.
Пробую монтировать, и вот тут как раз причина этого поста
на двух нодах монитрование проходит успешно.
node1 -
mount /dev/drbd10 /home/ -t ocfs2
df -h
/dev/drbd10 848G 233G 615G 28% /home
node2 -
/dev/drbd0 848G 233G 615G 28% /home
а вот на третей не фурычит -
mount /dev/drbd10 /home/ -t ocfs2
mount.ocfs2: Unknown code B 0 while mounting /dev/drbd10 on /home/. Check 'dmesg' for more information on this error.
на 1 ноде в dmesg -
o2net: accepted connection from node node3 (num 2) at 192.168.1.69:7777
o2net: connection to node node3 (num 2) at 192.168.1.69:7777 shutdown, state 8
o2net: no longer connected to node node3 (num 2) at 192.168.1.69:7777
на 3 ноде -
o2net: connected to node node1 (num 0) at 192.168.1.67:7777
(o2net,5752,3):o2net_connect_expired:1659 ERROR: no connection established with node 2 after 30.0 seconds, giving up and returning errors.
(mount.ocfs2,20894,4):dlm_join_domain:1474 Timed out joining dlm domain 58576A9DD92142B48B183992EF55B8E9 after 90400 msecs
ocfs2: Unmounting device (147,10) on (node 0)
o2net: no longer connected to node node1 (num 0) at 192.168.1.67:7777
(o2net,5752,3):o2net_connect_expired:1659 ERROR: no connection established with node 2 after 30.0 seconds, giving up and returning errors.
(o2net,5752,3):o2net_connect_expired:1659 ERROR: no connection established with node 2 after 30.0 seconds, giving up and returning errors.
Пробовал так же монтировать сначала 1-3 ноду - монтируются, за этим монтирую диск на второй ноде - 3 вылетает.
Сначала 3 потом вторую -на третьей монтирование проходит успешно.
на второй
mount /dev/drbd0 /home/ -t ocfs2
mount.ocfs2: Transport endpoint is not connected while mounting /dev/drbd0 on /home/. Check 'dmesg' for more information on this error.
(o2net,7938,18):o2net_connect_expired:1659 ERROR: no connection established with node 2 after 30.0 seconds, giving up and returning errors.
(mount.ocfs2,21854,12):dlm_request_join:1040 ERROR: Error -107 when sending message 510 (key 0x666c6172) to node 2
(mount.ocfs2,21854,12):dlm_try_to_join_domain:1216 ERROR: status = -107
(mount.ocfs2,21854,12):dlm_join_domain:1494 ERROR: status = -107
(mount.ocfs2,21854,12):dlm_register_domain:1760 ERROR: status = -107
(mount.ocfs2,21854,12):o2cb_cluster_connect:311 ERROR: status = -107
(mount.ocfs2,21854,12):ocfs2_dlm_init:3086 ERROR: status = -107
(mount.ocfs2,21854,12):ocfs2_mount_volume:1837 ERROR: status = -107
ocfs2: Unmounting device (147,0) on (node 0)
Может кто-нибудь сталкивался с подобной задачей и схожей проблемой?
- Для комментирования войдите или зарегистрируйтесь
похожая ситуация
Возникла похожая ситуация, всё как бы хорошо, вот только при монтировании файловой системы, получаю:
mount /dev/drbd0 /mnt/gentoo
mount.ocfs2: Internal logic failure while trying to join the group
ФС на ноде присутствует, создавал её так
mkfs.ocfs2 -F -N 2 -L ocfs2 /dev/drbd0
mkfs.ocfs2 1.6.4
Cluster stack: classic o2cb
Overwriting existing ocfs2 partition.
WARNING: Cluster check disabled.
Proceed (y/N): y
Label: ocfs2
Features: sparse backup-super unwritten inline-data strict-journal-super xattr
Block size: 2048 (11 bits)
Cluster size: 4096 (12 bits)
Volume size: 1003380736 (244966 clusters) (489932 blocks)
Cluster groups: 16 (tail covers 6886 clusters, rest cover 15872 clusters)
Extent allocator size: 4194304 (1 groups)
Journal size: 33554432
Node slots: 2
Creating bitmaps: done
Initializing superblock: done
Writing system files: done
Writing superblock: done
Writing backup superblock: 0 block(s)
Formatting Journals: done
Growing extent allocator: done
Formatting slot map: done
Formatting quota files: done
Writing lost+found: done
mkfs.ocfs2 successful
может кто-то нашёл решение данной проблеммы?
при проверке ФС выдаёт:
fsck.ocfs2 /dev/drbd0
fsck.ocfs2 1.6.4
fsck.ocfs2: Internal logic failure while initializing the DLM