Homemade 48tb Enterprise Storage System

Речь в статье о опыте создания программно-аппаратного устройства, имеющего интерфейс 4-е FC порта, (а так же iSCSI target по bound 1Gb Ethernet) и предназначенного для хранения данных общим физическим объемом 48 Тб (детали тут http://log.momentics.ru/homemade-48tb-enterprise-storage-system).
Устройством управляет программное обеспечение с открытыми исходными кодами под операционной системой Gentoo x64.

Прошу форумчан дать свои оценки, если интересно.
Речь, конечно, не о Gentoo, как о таковом. Но с другой стороны, на нем собрано. Поэтому возможно будет интересно почитать.
На данный момент не все главы полностью сформированы, и, возможно, данный шаг направлен на привлечение интереса, так как тяжеловато писать в урну. Если будет интересно, то доведу до уровня.

ps: старался не писать в сухом стиле.
есть параллельный тред здесь http://forums.gentoo.org/viewtopic-p-6499236.html

С Уважением, momentics

.

ждём дописывания "Тестирование". ссылку вашу буду в понедельник на работе рекламировать :)

а эта строка - это просто подпись

Тестирование Homemade 48tb Enterprise Storage System

Полностью тестирование не закончил, потому как еще надо RAID тест дописать, провести стресс тестирование и тд.
Но во всяком случае, уже можно посмотреть и выразить свое мнение.

Тестирование Homemade 48tb Enterprise Storage System

интересно

Интересно почитать о таких решениях

еще линков в тему до кучи

vmustik написал(а):
Интересно почитать о таких решениях

67 terabyte 4U servers for $7,867

для общего развития еще можно почитать здесь в том числе и про тесты

Dmitri написал(а): 67

Dmitri написал(а):
67 terabyte 4U servers for $7,867

Это известный линк.
Так в том то и дело, что уже совсем не та производительность этого петабайта... В частности, силикон имаджи очень сильно уступают в нашем паттерне нагрузки (читать статью надо, чтобы это понять). Кроме всего прочего, если внимательно посмотреть на архитектуру построения этого петабайта, то она не серьезная - для слабых нагрузок.
...а линейная (чтение\запись) производительность есть тест синтетический, хотя тоже уступит в производительности, но не так сильно, как рабочий паттерн. Либо дешево, либо быстро под нагрузкой :)
В нашем паттерне потеря производительности будет приблизительно около 10 раз, а разница всего в 3 тысячи...

Данная СХД создавалась для единственного применения - для VMware и HYPER-V виртуальных машин. Так как пользователи ожидаемого окружения больше всего похожи на что-то среднее между работой сервера баз данных (RW) и линейным чтением\записью, то для теста выбрали следующую конфигурацию:

чирз

В принципе идея не нова - Sun

В принципе идея не нова - Sun уже несколько лет назад начал выпускать подобные девайсы, только под Соляркой и ZFS.
Проект OpenStorage кажется.

Интересно, чем обусловлен выбор процессора, а для иллюстрации хотелось бы увидеть

for i in `seq 1 11` ; do sleep $i;numastat |grep miss; done

ничего в этом мире не ново, Уважаемый Друг...

ничего в этом мире не ново, Уважаемый Друг...
Вопрос в доступных экземплярах и их цене. Там, в статье, первым абзацем сказано, что магии нет. Т.е. цель не поведать о чем то новом, хотя, уверяю вас, не все там так просто как может показаться.
Кстати, для сравнения Hitachi с аналогичными характеристиками (по некоторым уступает) стоит приблизительно в 12 раз дороже.

по существу Вашего вопроса:
1) так как DMA каналов по 12 на контроллер (и работает на данный момент RAW HDD в качестве LUN-ов где VMFS3), то существует только кернел воркер тред. Причем, на максимуме нагрузки, которую мы только смогли создать (о! это далеко не придел! - нет достойной фермы), его нагрузка близка к минимуму (2-3% sy), то мисов не происходит. Т.е. они стабильно по нулям.
2) Процессор выбрали явно не серверный (хотя с этим можно поспорить) только лишь потому, что не хотели покупать что то новое в случае, если из данного девайса захочется сделать то то другое... С другой стороны, хотелось посмотреть как там у парня и что...

momentics написал(а): ... по

momentics написал(а):
...
по существу Вашего вопроса:
1) так как DMA каналов по 12 на контроллер (и работает на данный момент RAW HDD в качестве LUN-ов где VMFS3), то существует только кернел воркер тред. Причем, на максимуме нагрузки, которую мы только смогли создать (о! это далеко не придел! - нет достойной фермы), его нагрузка близка к минимуму (2-3% sy), то мисов не происходит. Т.е. они стабильно по нулям.
2) Процессор выбрали явно не серверный (хотя с этим можно поспорить) только лишь потому, что не хотели покупать что то новое в случае, если из данного девайса захочется сделать то то другое... С другой стороны, хотелось посмотреть как там у парня и что...

Вас никто и ни в чем не обвиняет, так что оправдываться не надо, - вы делаете действительно интересный эксперимент, хотя сравнение с Хитачи несколько предвзято (ИМХО) и, полагаю не вполне корректно. :)
А Сановские девайсы примерно за вашу цену...

Суть вопроса была в том, что у Интела/64 (по-крайней мере на Нехалеме) была (тесты прошлого года) генетическая ошибка в работе с памятью, которая вылезала даже без никакой нагрузки (тестировалось на почти всех раковских моделях ХП и ИБМ), поэтому и смутил выбор проца. Если они это исправили - ОК.

ok. эксперимент то не

ok.
эксперимент то не остановился... Хочется получить кэш блок девайсов на рам. Как у взрослых.

Успехов! А мисы точно не

Успехов!
А мисы точно не появляются?
Если не влом - пустите по крону запись мисов в лог за продолжительный период (неделя - другая) и сообщите о результатах (можно в личку). И lshw приложите, пожалуйста.
Как то не верится, что Интел наконец-то корректно запустил украденное у АМД. :)

еще вчера, я тоже уже это

еще вчера, я тоже уже это решил поднять по snmp на жабикс, чтобы последить в динамике (об ошибке до вашего комента я ничего не знал, но теперь уже понятен смысл). Кроме всего прочего, много чего с контроллера так же надо поднять, еще с сисфс - в общем букет.

Более того, хочу немного по другому numa группы разбить и все это вернуть в жабикс. Но сейчас делаю тесты (они появляются в статье). Каждый тест занимает контроллер на 11-12 часов. Итого с двух серверов и четырех портов...
Так как мультипас (как взрослые), решил не использовать в данных тестах, каждый тест по сути очень медленно идет. Хочется посмотреть каково raw. Позже можно будет и на нулдевайсе, и мультипас :)

Чтобы не менять конфигурацию (как конфигурацию, так и сами тесты опишу так же), решил пока воздержаться до завершения всех тестов. Иначе непонятно что тестирую будет... и смысл потуг пропадет.

Ладно уж - ваши тесты, это

Ладно уж - ваши тесты, это ваши проблемы ;) - не надо ничего менять для меня (даже лучше, если это будет в боевой обстановке), я ведь просил простенький скрипт, он идет полминуты - неужели сложно?! Сделайте copy-paste из моего поста и обратно аналогично...
Или там действительно все по нулям?
Кстати, а sys-process/numactl у вас стоит? NUMA в ядро включена? А то действительно ничего не будет! :)
Покажите

grep NUMA <config>

Уверяю вас, для вас ничего не

Уверяю вас, для вас ничего не изменится :)
Я просто numa шедулер хочу завести другим образом, чтобы в дальнейшем иметь более эффективный кэш локалити.

neutrino # emerge -s numactl

*  sys-process/numactl
      Latest version available: 2.0.2
      Latest version installed: 2.0.2
      Size of files: 68 kB
      Homepage:      http://oss.sgi.com/projects/libnuma/
      Description:   Utilities and libraries for NUMA systems
      License:       GPL-2

neutrino # zgrep NUMA /proc/config.gz
CONFIG_NUMA=y
# CONFIG_K8_NUMA is not set
# CONFIG_NUMA_EMU is not set
CONFIG_USE_PERCPU_NUMA_NODE_ID=y
neutrino # for i in `seq 1 11` ; do sleep $i;numastat |grep miss; done
numa_miss                      0
numa_miss                      0
numa_miss                      0
numa_miss                      0
numa_miss                      0
numa_miss                      0
numa_miss                      0
numa_miss                      0
numa_miss                      0
numa_miss                      0
numa_miss                      0
     *-cpu
          description: CPU
          product: Intel(R) Core(TM) i7 CPU         960  @ 3.20GHz
          vendor: Intel Corp.
          physical id: 4
          bus info: cpu@0
          version: Intel(R) Core(TM) i7 CPU 960 @ 3.20GHz
          serial: To Be Filled By O.E.M.
          slot: LGA1366
          size: 3200MHz
          capacity: 3200MHz
          width: 64 bits
          clock: 133MHz
          capabilities: fpu fpu_exception wp vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall rdtscp x86-64 constant_tsc arch_perfmon pebs bts rep_good xtopology nonstop_tsc aperfmperf pni dtes64 monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr pdcm sse4_1 sse4_2 popcnt lahf_lm ida tpr_shadow vnmi flexpriority ept vpid
        *-cache:0
             description: L1 cache
             physical id: 5
             slot: L1-Cache
             size: 128KiB
             capacity: 128KiB
             capabilities: internal write-back data
        *-cache:1
             description: L2 cache
             physical id: 6
             slot: L2-Cache
             size: 1MiB
             capacity: 1MiB
             capabilities: internal write-back unified
        *-cache:2
             description: L3 cache
             physical id: 7
             slot: L3-Cache
             size: 8MiB
             capacity: 8MiB
             capabilities: internal write-back unified
     *-memory
          description: System Memory
          physical id: 2d
          slot: System board or motherboard
          size: 6GiB
        *-bank:0
             description: DIMM 1333 MHz (0.8 ns)
             product: ModulePartNumber00
             vendor: Manufacturer00
             physical id: 0
             serial: SerNum00
             slot: DIMM0
             size: 2GiB
             width: 64 bits
             clock: 1333MHz (0.8ns)
        *-bank:1
             description: DIMM [empty]
             product: ModulePartNumber01
             vendor: Manufacturer01
             physical id: 1
             serial: SerNum01
             slot: DIMM1
             width: 64 bits
        *-bank:2
             description: DIMM 1333 MHz (0.8 ns)
             product: ModulePartNumber02
             vendor: Manufacturer02
             physical id: 2
             serial: SerNum02
             slot: DIMM2
             size: 2GiB
             width: 64 bits
             clock: 1333MHz (0.8ns)
        *-bank:3
             description: DIMM [empty]
             product: ModulePartNumber03
             vendor: Manufacturer03
             physical id: 3
             serial: SerNum03
             slot: DIMM3
             width: 64 bits
        *-bank:4
             description: DIMM 1333 MHz (0.8 ns)
             product: ModulePartNumber04
             vendor: Manufacturer04
             physical id: 4
             serial: SerNum04
             slot: DIMM4
             size: 2GiB
             width: 64 bits
             clock: 1333MHz (0.8ns)
        *-bank:5
             description: DIMM [empty]
             product: ModulePartNumber05
             vendor: Manufacturer05
             physical id: 5
             serial: SerNum05
             slot: DIMM5
             width: 64 bits

Эээ, у вас только 1 проц,

Эээ, у вас только 1 проц, поэтому мисов и не должно быть в принципе...

core i7 нельзя установить.

core i7 нельзя установить.
но я думал что проблема в нума группах, оттого и хотел разбить ядра по своим группам и навязать джобы. озможно тогда и появились бы разумные мисы.

\\
я вот сейчас собираю еще одну интересную штуку на 2х шестиядерных с HT x5680 ксеонах. 12 ядер и 24 треда - я такого никогда еще в руках не держал....

Нет, у вас борд

Нет, у вас борд однопроцевый.
Ядро != проц!

momentics написал(а):
...
я вот сейчас собираю еще одну интересную штуку на 2х шестиядерных с HT x5680 ксеонах. 12 ядер и 24 треда - я такого никогда еще в руках не держал....

А вот это очень интересно! Прогоните мой тест на нем с нагрузкой и без.

Покажите на нем

grep NUMA <config>

очень рано пока. пока только

очень рано пока.

пока только (с Иваном :) ) прокурю железо... видимо тоже статья будет.

(Тут, хочется, кстати, разобраться с NUMA и поиметь приятный опыт)

Вот, сегодня собрал только...

Только вот сегодня собрал. Завтра с утра буду ставить ось и перестроку, чтобы посмотреть как там TDP.
Позже посмотрим что там с NUMA.

Виртуальная гипервизор-лошадка

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".