СХД (система хранения данных)

Накопители в СХД

СХД может работать с разными носителями данных: магнитная лента, оптические диски, жесткие диски (HDD) и твердотельные накопители (SSD/NVMe). Мы рассмотрим только два последних типа, так как именно они распространены в качестве универсальных носителей в большинстве систем.

Надо понимать, что накопители в СХД задают аппаратный предел производительности: система не может работать быстрее, чем сумма производительности ее накопителей. Медленнее — может.

Накопители имеют много важных параметров и характеристик, которые следует учитывать при построении СХД, но базовыми атрибутами, пожалуй, можно назвать тип интерфейса и форм-фактор.

Интерфейсы современных HDD и SSD

Интерфейс представляет собой протокол взаимодействия накопителя и вычислительных ресурсов системы. Интерфейс является важным фактором, влияющим на параметры накопителя: от него зависит пропускная способность, время задержки, расширяемость, возможность горячей замены и, конечно же, стоимость.

Интерфейсы SATA и SAS изначально появились на HDD-дисках, но затем стали стандартом и для SSD. Однако SATA и SAS не могут раскрыть весь потенциал производительности SSD, поэтому для подключения твердотельных накопителей все чаще используется интерфейс PCIe и протокол NVMe. Также стоит отметить NL-SAS диски, которые по сути являются гибридом SAS-интерфейса и SATA накопителя.

Таблица 1. Общее сравнение характеристик HDD и SSD накопителей

Класс HDD SSD
Интерфейс SATA SAS SATA SAS PCIe
Накопитель SATA NL-SAS SAS SATA SAS NVMe
Надежность Низкая Средняя Высокая Средняя Высокая Высокая
Производительность Низкая Низкая Средняя Высокая Высокая Очень высокая
Стоимость Низкая Низкая Средняя Средняя Высокая Очень высокая

Форм-фактор

Все HDD имеют схожую конструкцию подвижных элементов, поэтому их внешний корпус — это прямоугольный кейс типа SFF (Small Form Factor, 2.5″) или LFF (Large Form Factor, 3.5″). Каждый из этих типов корпуса может иметь различные разъемы интерфейса.

Рисунок 2. Western Digital Ultrastar SN640 в форм-

Рисунок 2. Western Digital Ultrastar SN640 в форм-факторе SFF 2.5″ (слева) и Seagate Exos X12 в форм-факторе LFF 3.5″ (справа).

Flash-накопители не имеют движущихся деталей и поэтому реализованы в более разнообразных формах. Дополнительным импульсом для разнообразия форм-факторов SSD стало развитие PCIe-интерфейса, который добавил варианты прямого размещения накопителей на серверной платформе.

Таблица 2. Форм-факторы HDD и SSD накопителей

Форм-фактор HDD SSD
3.5″ (LFF) SATA, NL-SAS, SAS  —
2.5″ (SFF) SATA, NL-SAS, SAS SATA, SAS, NVMe
M.2* SATA, NVMe
Add-In Card (AIC) NVMe
EDSFF NVMe

*используются в качестве системных дисков

Рисунок 3. Intel Optane SSD в форм-факторе Add-In-

Рисунок 3. Intel Optane SSD в форм-факторе Add-In-Card HHHL (Half-Height Half-Length).

Форм-фактор является достаточно динамичным параметром, который постоянно меняется и совершенствуется в зависимости как от изменения интерфейсов, так и от изменения подходов к построению СХД. Более подробно про актуальные форм-факторы можно прочитать на сайте SNIA.

JBOD

В современных СХД накопители могут размещаться как в основном корпусе СХД, так и в дисковых корзинах — JBOD (Just a Bunch Of Drives). Физически такие корзины представляют собой корпус для монтажа в стойку, заполненный накопителями. Для NVMe накопителей сейчас активно используются JBOF (Just a Bunch Of Flash), специализированные дисковые корзины для флеш-накопителей. Например, OpenFlex Data24 от компании Western Digital.

Рисунок 4. Дисковая корзина WD Ultrastar Data102.

Рисунок 4. Дисковая корзина WD Ultrastar Data102.

Видео

Есть ли специальные требования к СХД?

Заказчики могут предъявлять специфические требования к самым разным аспектам СХД: к защите данных, к производительности, к масштабированию, к поддержке приложений, к интеграции в системы частного облака, к интерфейсам взаимодействия. Так, кому-то нужно описать скрипты и управлять ими из какого-нибудь портала СХД. При выборе решений создается некий шорт-лист производителей с их плюсами и минусами, а также соответствием требованиям, и уже из этого списка отбирается решение. Как правило, основной критерий, которым руководствуются компании – это цена .

Оцениваем производительность

Количество переданных мегабайт в секунду характеризует скорость потока чтения и записи данных, измеряемого в мегабайтах в секунду. А показатель IOPS (Input/Output Operations Per Second) говорит о том, какое максимальное количество операций чтения или записи может выдержать СХД в зависимости от размера блока данных. Эти операции могут быть очень разными: отличаться размерами блока и глубиной очереди, иметь случайный или последовательный характер.

Что касается показателя latency, то он используется в двух случаях: при чтении и записи информации. Для оценки задержки при чтении он показывает, какое время проходит с момента получения задания до отправки информации. А для оценки задержки при записи – сколько времени занимает весь процесс с момента получения информации до подтверждения записи.

Есть ли среди СХД те, у которых риск потери данных выше?

Чем ниже класс решения, тем выше риски потери данных, и наоборот. Зачастую компании, которые только начинают расти, используют решения Entry Level. Поначалу все идёт хорошо, но потом возникают вопросы: а что, если сломается контроллер? Как его менять? Что делать, если нужен рост производительности? В связи с этим решение меняется на уровень Enterprise, с более низкими рисками потери данных. «В наших решениях используются диски, в которых может быть до 12 контроллеров, и даже если четверть из них выйдет из строя, данные останутся неповрежденными», – отмечает Алексей Никифоров.

Однако при всех достижениях в технологиях защиты данных, нужно учитывать, что далеко не для каждой компании риски их потери могут быть критичными. Если в организации хранятся данные, которые «не жалко», то и беспокоиться по поводу надежности системы лишний раз не стоит.

Требования к СХД

Какой критерий выбора дисковых СХД для Вас важнее? Результат опроса на сайте , февраль 2012 года

Группа компаний ТИМ в 2008 году провела опрос среди клиентов с целью выяснить, какие характеристики наиболее важны для них при выборе СХД[3]. На первых позициях оказались качество и функциональность предлагаемого решения. В то же время расчет совокупной стоимости владения для российского потребителя явление нетипичное. Заказчики чаще всего не до конца осознают какие их ожидают издержки, например, затраты на аренду и оснащение помещения, электроэнергию, кондиционирование, обучение и зарплату квалифицированного персонала и проч.

Организация хранения данных: почему возникла необходимость в СХД

По результатам опросов бренда IDC Perspectives, до 23% от расходов в сфере IT уходит на операции по аккумулированию информационных контейнеров. Упомянутое положение дел обеспечивается чрезвычайно высокими темпами роста современного бизнеса: предприятия нуждаются в надстройках, способных сохранять и обрабатывать огромные потоки цифровых структур. Безвозвратная потеря каких-либо важных записей – это настоящая катастрофа, способная привести к краху даже самую успешную, и, казалось бы, непоколебимую корпорацию.

Факторы, способствующие развитию

Перед тем как начать разбираться с большим вопросом о том, что такое система хранения данных (СХД) в нынешнем формате, следует уточнить перечень причин, позволяющих говорить о чрезвычайной необходимости модернизации в целом:

  1. Развитие конкурентоспособности многих фирм, а также сложные характеры внутри рыночного противостояния
  2. Появление брендов, предлагающих решения для обустройства сеток предпринимательских учреждений.
  3. Пользовательская нужда в адаптивных платформах, способных работать с аналитикой в различных формах.

Все перечисленные факторы сыграли чрезвычайно важную роль во всем процессе становления отрасли.

Сферы применения СХД

Сферы применения СХД

В 2021 году рассматриваемые классы устройств используются в максимально широком ассортименте самых различных сфер:

  • формирование отчетности;
  • выработка прогнозов;
  • бизнес-аналитика;
  • переход на электронный документооборот в правительственном масштабе и пр.

На самом деле, намного проще перечислить отрасли, в которых подобные конструкции использованы не были.

Контроллеры и бэкплейны

Переходим к более сложным программно-аппаратным материям. Если быть точнее — к мозгам, которые отвечают за связку накопителей, пути ввода/вывода, контроль записи и чтения, уровня доступа и защиту. Давайте остановимся на этом подробнее.

Дисковые HBA-контроллеры

Эти устройства представляют собой высокотехнологичный «тройник» с большим количеством разъемов. Реже являют отдельный со-процессор, заточенный под работу с крупными массивами данных. Применяются в качестве дополнительного компонента на материнской плате и служат на начальном этапе, пока не возникла потребность в «хардварном» варианте.

HBA (Host Bus Adapter) — одна из разновидностей устройства. Благодаря HBA сервер видит все накопители в системе, и может обращаться к каждому отдельно.

Вот вам в качестве примера HP H220 с поддержкой SAS, работающий по шине PCI-E 3.0 х8

  	 Благодаря подобным платам администраторы могут  	 Благодаря подобным платам администраторы могут

Благодаря подобным платам администраторы могут подключать большее число SAS-накопителей, организовать аппаратный RAID, страховать систему на случай форс-мажоров.

Triple-Mode (Tri-mode)

Во времена бурного внедрения NVMe были популярны и такие контроллеры. Они позволяют одновременно подключать NVMe, SATA и SAS-накопители к плате, формируя более гибкую систему.

Экспандеры и бэкплейны

Вы никогда не задумывались, как в одной коробке работает по 20-30 HDD/SSD? Вот благодаря бэкплейнам и работают. Это специальная плата-разветвитель с разъемами типа SATA/SAS/M.2/PCI-E, непосредственно к которой подключается аппаратный контроллер.

  	 Такие регулярно используют, если на контроллер

Такие регулярно используют, если на контроллере заканчиваются слоты. При организации СХД для крупных дата-центров это обычное явление.

Тогда что такое экспандер? А это чип, устанавливаемый на бэкплейн, чтобы разгрузить основные «мозги» и упорядочить хаос при передаче нулей и единиц.

Сетевые адаптеры

Сетевые адаптеры (хост-адаптеры) являются финальным звеном цепочки обмена данными с клиентом. Именно при помощи этого устройства система хранения данных соединяется с «внешним миром»: серверами, рабочими станциями и другими компонентами сетевой инфраструктуры. Сетевой адаптер представляет собой плату с портами интерфейсов (Ethernet, FC, IB, SAS), которая использует разъем на материнской плате или впаивается в нее напрямую.

Рисунок 12. Сетевой адаптер Mellanox ConnectX-6.

Рисунок 12. Сетевой адаптер Mellanox ConnectX-6.

Некоторые хост-адаптеры могут иметь одновременно несколько интерфейсов. Например, у Mellanox есть адаптер, работающий с интерфейсами Infiniband и Ethernet.

Таблица 4. Характеристики современных хост-адаптеров в СХД

Тип интерфейса Блочные протоколы Файловые протоколы Скорость Популярные бренды
FC Fibre Channel FC-NVMe 8Gb/16Gb/32Gb Marvell QLogic Broadcom ATTO
Ethernet iSCSI, iSER, FCoE, NVMe-oF SMB, NFS, AFP, FTP 10Gb/25Gb/40Gb/50Gb/100Gb/200Gb Broadcom Mellanox
Infiniband IB-SRP 20Gb/40Gb/56Gb/100Gb Mellanox
SAS SAS 12Gb Broadcom Adaptec

Выбор сетевого адаптера зависит от существующей сетевой инфраструктуры, планируемых задач и аппаратной конфигурации системы хранения данных.

Протоколы СХД

Выбор системы определяется задачами и требованиями к хранению и скорости передачи информации. У каждой из них есть свои преимущества и недостатки. Они связаны с технологиями, которые определяют состав СХД. Решающую роль здесь играют протоколы и оборудование.

В DAS диски напрямую подключаются к процессору. Для обмена данными используется внутренняя шина, которой управляют протоколы IDE, SATA, SCSI, SAS. Объём хранения информации и скорость обмена зависят от используемого интерфейса.

В этом варианте информация обрабатывается локально, хранится и передаётся в виде файлов.

NAS представляет собой файловый сервер, подключённый к ЛВС. СХД работает на обычном сетевом оборудовании. Передача данных управляется протоколами сетевых файловых систем, например, CIFS, NFS и другими.

Информация обрабатывается и хранится в виде файлов. Такая конфигурация разрешает одновременный доступ к информации с нескольких серверов или рабочих станций.

SAN представляет собой выделенную сеть. Протоколами доступа здесь являются FibreChannel (FC) и iSCSI (IP-SAN). В сервер приложений устанавливается специальный контроллер, который упаковывает команды SCSI внутрь IP-пакетов. Это позволяет передавать данные, используя стандартные сетевые протоколы Ethernet.

В Storage Area Network информация обрабатывается внутри сети, а на выход поступают только ответы на запросы. Информация хранится не в файлах, а в виде блоков как на HDD.

Принцип работы СХД — NAS, SAN и DAS

Существует несколько аппаратных компонентов, программного обеспечения и протоколов, которые в конечном итоге придают решениям для хранения данных их особые свойства.

На основе классификации выше выделяют два основных типа СХД: они различаются уровнем хранения, чтения и записи данных.

  • Первый вариант работает с данными файлового уровня. Это означает, что такое хранилище, по сути, функционирует как сервер с собственной файловой системой. На практике клиентский сервер даёт такие команды, как «записать Х битов в этот файл» или «извлечь Х битов из этого файла» соответственно. Этот тип хранилища называется NAS.
  • Второй вариант — это доступ к данным на уровне блоков. Это ускоряет обмен данными между сервером и хранилищем, поскольку он прямой, то есть «блок записи X» или «блок вызова X». Такие репозитории связаны друг с другом и с сервером либо как DAS, либо через SAN.

О каждом из них расскажем подробнее.

NAS

NAS расшифровывается как Network Attached Storage, что можно условно перевести как сетевое хранилище. Поскольку данные обрабатываются на уровне файлов, сервер представляется NAS как сетевой сервер со своей собственной файловой системой.

Если объяснить проще — представьте себе стационарный компьютер, который подключён к домашнему роутеру. На нём хранятся фото, видео, документы и другие данные. Сетевой доступ разрешен всем пользователям — приблизительно так выглядит NAS.

NAS-хранилище может принимать разные формы. Например, к производственному серверу могут быть подключены другие серверы, виртуальные машины или так называемые дисковые станции, на которых находится другое количество съёмных жестких дисков.

Преимущества NAS:

  • Доступность и низкая стоимость.
  • Простота подключения и управления.
  • Гибкость, возможность быстро увеличить объём для хранения данных.
  • Универсальность клиентов (компьютер под управлением любой операционной системы может получить доступ к файлам).

Недостатки NAS:

  • Хранение данных только в виде файлов.
  • Медленный доступ к информации по сетевым протоколам (по сравнению с локальной системой).
  • Невозможность работы некоторых приложений с сетевыми дисками.

DAS 

DAS расшифровывается как Direct Attach Storage — прямое подключение к рабочей станции, хранилищу). Например, подключение внешнего диска по USB условно можно назвать DAS.

Из принципиальной простоты архитектуры DAS следуют её основные преимущества: доступная цена и относительная простота внедрения. Кроме того, такой конфигурацией легче управлять ввиду хотя бы того, что число элементов системы мало.

Внутри системы находится блок питания, охлаждение и RAID-контроллер, который обеспечивает надёжность и отказоустойчивость хранилища. Управляется при помощи встроенной операционной системы.

Достоинства DAS:

  • Легкость развёртывания и администрирования.
  • Высокая скорость передачи данных.
  • Низкая стоимость оборудования.

Недостатки DAS:

  • Требует выделенного сервера).
  • Ограничения в подключениях (не больше двух серверов).

SAN

В свою очередь SAN — это сети хранения данных. Как правило они представлены в виде внешних хранилищ на нескольких сетевых блочных устройствах и реализованы в виде протокола FC (Fiber Channel) или iSCSI (Internet Small Computer System Interface). Это блочный доступ непосредственно к устройству хранения — диску или наборов дисков в виде RAID-групп или логических устройств.

Кстати, вышеупомянутый DAS может быть очень мощным и часто более дешёвым, чем SAN. Однако в то же время недостаток DAS в том, что он не может быть легко расширен — количество подключённых компьютеров ограничено физическим количеством портов SAS на DAS (обычно их всего четыре). Поэтому многие компании и учреждения предпочитают выбирать блочные хранилища, подключенные через SAN.

Преимущества SAN:

  • Высокая скорость работы, низкая задержка.
  • Гибкость и масштабируемость.
  • Хранение данных блоками.
  • Высокая надёжность обмена и хранения данных.
  • Разгрузка подсети от служебного трафика.

Недостатки SAN:

  • Сложность проектирования
  • Высокая стоимость.
  • Невозможность некоторых приложений и систем работать с протоколом iSCSI.

Уровни защиты

Нужно понимать, что в основе всех систем хранения данных лежит практика защиты информации на базе технологии RAID – без этого любая технически продвинутая СХД будет бесполезна, потому что жёсткие диски в этой системе являются самым ненадёжным компонентом. Организация дисков в RAID – это «нижнее звено», первый эшелон защиты информации и повышения скорости обработки.

Однако, кроме схем RAID, существует и более низкоуровневая защита данных, реализованная «поверх» технологий и решений, внедрённых в сам жёсткий диск его производителем. К примеру, у одного из ведущих производителей СХД – компании ЕМС – существует методика дополнительного анализа целостности данных на уровне секторов накопителя. Секторы на жёстких дисках, установленных в системы хранения данных ЕМС, имеют размер не 512 байт (стандарт), а 520 байт – лишние 8 байт на каждый сектор играют роль своеобразной базы данных, куда СХД записывает информацию о «здоровье» каждого сектора (данная методика, насколько известно, не применяется больше ни у одного производителя).

Как известно, у жёстких дисков с интерфейсом IDE существует технология SMART, призванная предсказывать возможные проблемы в работе диска, которая зачастую работает очень неточно, что сводит её ценность практически к нулю. У дисков же, использующихся в серьёзных СХД (диски SCSI и FibreChannel), изначально не было технологии SMART – поэтому оценка целостности и верификация данных каждого конкретного сектора – большой плюс, позволяющий дополнительно защитить данные и уведомить администратора системы о возможных проблемах задолго до момента их реального наступления.

Жёсткий диск может быть и исправен, но обладать так называемыми проблемами «мягких ошибок» («soft errors») – когда данные в секторе записаны корректно, но чтение их может давать различный результат. Такой вариант неприемлем, но «remap» (подмена) такого сектора средствами самого жёсткого диска не происходит – в этом случае и спасает технология анализа каждого сектора, применяемая у EMC.

Возможные топологии

Каждое стандартизированное хранилище состоит из набора некоторых активных элементов, обеспечивающих непосредственную функциональность всей аппаратуры:

  • модуль коммутации серверов;
  • емкости для хранения;
  • компоненты сейфовых сетей и пр.

Такая архитектура была разработана в середине девяностых годов прошлого столетия. Она обладает некоторым перечнем неотъемлемых преимуществ: сниженные затраты, простое управление, уменьшенный трафик локальных сеток, высокая степень готовности и отличная протекция.

 Для того чтобы добраться до вопросов о сетевом по

Для того чтобы добраться до вопросов о сетевом построении, современный предприниматель должен справиться с огромным количеством проблем радикально другого характера. Сегодня каждый инновационный бизнес не может существовать без средств автоматизации, поставкой которых занимается, например, российская компания «Клеверенс». Продукты можно использовать в магазинах, на складах, в различных учреждениях и на производствах.

Системы прямого подключения (DAS)

Модели Direct Attached Storage, коммутация которых выполняется непосредственно к серверной части всего построения. По сути, представляют собой разумный способ дискового расширения отдельно взятой ячейки, позволяющей пользователям взаимодействовать с конструкцией через сеть, в дистанционном, удаленном формате.

Устройства хранения данных, подключаемые к NAS

Накопитель, подключенный к сетевым настройкам, обеспечивающий файловый доступ к информации для сред LAN/WAN. Главные преимущества – высокая скорость развертывания, отлично организованные операции взаимодействия с контейнерами и возможность использования в узконаправленных секторах.

SAN

Структура блочного формата – отдельная сеть, служащая для организации доступа со стороны серверов и рабочих станций, отвечающих за мероприятия по обработке внутренних аккумулированных единиц. Благодаря наличию такого интерфейса, оборудование получает отличную готовность и хорошие параметры, связанные с интенсивностью осуществления запросов.

Решётка

Дополнительный вариант соединения, посредством которого создается архитектура с узлами, образующими регулярный одномерный решетчатый сервис. При этом каждое ребро полученного построения расположено параллельно наличествующей оси, и объединяет две смежных точки.

Кольцо

Сеть с такой топологией единообразно формирует все элементы, выстраивая их в окружность, коммутируемую каналами связи. Выход одного компьютера подключается к входу другого, а начав движение из одного места, сведения в итоге возвращаются в начало.

Вычислительные ресурсы и адаптеры

Организация СХД — здравый подход для бизнеса. Но не забывайте и о железе, которое должно прогонять через себя огромные массивы данных.

Например, для системы из 60 накопителей потребуется парочка процессоров 8/16 с частотой не менее 2 ГГц и около 48 ГБ ОЗУ. А чтобы завести 600 накопителей, понадобится 2-4 чипа по 8 ядер с пиком на 3.5 GHz, 256 Gb ОЗУ и мощная система охлаждения.

Сетевые адаптеры — последнее и важнейшее звено на этапе создания цепи обмена данными с конечным потребителем. Через интерфейсы Ethernet, FC, IB или SAS производится транспорт битов по системе и за ее пределы.

Теперь подробнее о пропускной способности интерфейсов.

Тип интерфейса

Блочные протоколы

Файловые протоколы

Скорость

FC

Fibre Channel FC-NVMe

8/16/32 Г/бит

Ethernet

iSCSI, iSER, FCoE, NVMe-oF

SMB, NFS, AFP, FTP

10/25/40/50/100/200 Г/бит

Infiniband

IB-SRP

20/40/56/100 Г/бит

SAS

SAS

12 Г/бит

Сетевой контроллер и адаптер выбирают исключительно из расчета конкретной инфраструктуры и возложенной на нее задач.

Вопрос экономии пространства

Однако дополнительные функции СХД могут использоваться не только для защиты данных. Например, технология компрессии позволяет экономить дисковое пространство, а вместе с тем и вычислительные ресурсы СХД. В её основе лежит идея сжатия данных – за счёт этого они и занимают меньше места. Однако компрессия подходит не для всех типов данных: например, хорошо работая для текстовых данных, она практически бесполезна для медиаконтента.

Компрессия часто работает в связке с дедупликацией, устранением дублирующих блоков данных, которая также направлена на экономию пространства в системе. Приведём простой пример: секретарь компании, в которой тысяча человек, разослал всем сотрудникам письмо с PDF-файлом. Каждый сотрудник получил письмо – и в результате в хранилище может попасть тысяча копий файла. Дедупликация позволит предотвратить этот процесс, и вместо тысячи копий сохранить только один файл.

Принцип работы дедупликации заключается в том, что при записи проходит проверка, дублируется ли блок данных. Если данные уникальны, блок записывается и занимает пространство. А если нет – система предоставляет ссылку на существующий блок, чтобы когда он понадобился пользователю или серверу, он мог просто перейти по ссылке. Дедупликация становится оптимальным решением для СХД, которые работают с большим количеством одинаковых данных. Наиболее яркий пример – большая ферма виртуальных машин, где хранятся их шаблоны и образы.

Конечно, это далеко не все понятия, с которыми может столкнуться системный администратор или ИТ-директор при выборе СХД. Характеристик систем намного больше; а вопросы управления и производительности – шире и сложнее. К тому же это только общие термины из мира хранения данных: без внимания остались более узкие вопросы виртуальных RAID-ов, гиперконвергенции, QOS-ов и так далее. Однако всё это другие темы – и разговор для совсем другой статьи.

Какие еще термины важно знать, чтобы правильно выбрать СХД? Делитесь в комментариях!

Теги