NetApp Tech OnTap Логотип компании NetApp
NetApp Tech OnTap
     
Назад к основам: дедупликация

В этом месяце наш бюллетень публикует вторую статью серии под рубрикой «Назад к основам». Материалы рубрики знакомят читателей с принципами, лежащими в основе популярных технологий NetApp. Знание фундаментальных понятий помогает значительно упростить освоение продуктов NetApp.

В 2007 году NetApp представила технологию дедупликации, применение которой позволяет резко уменьшить потребность предприятия в пространстве для хранения данных. Предложенная NetApp методика повышает степень полезного использования дискового пространства: обнаруженные идентичные блоки данных после их контрольного побайтового сопоставления заменяются ссылками на единственный общий блок. В результате удаления дублирующих друг друга блоков, которые находятся в одном и том же томе или LUN, часть ранее занятого пространства высвобождается.

Функция дедупликации интегрирована в ОС NetApp Data ONTAP® и ее файловую систему WAFL®, которая обеспечивает управление всеми данными в СХД компании NetApp. Связанные с дедупликацией процессы проходят на заднем плане, поэтому, невзирая на то, какие задачи вы выполняете и как осуществляется доступ к данным, дедупликация практически не отражается на работе системы.

В этом месте обычно возникает стандартный вопрос: «Сколько места можно сэкономить?». Детальный ответ на него будет дан чуть позже, но в целом это зависит от характера набора данных и количества блоков-двойников, которое эти данные содержат. В качестве примера практического эффекта от дедупликации в смешанных средах, составленных из типичных деловых документов и инженерно-технической документации, можно сослаться на опыт расположенного в Атланте предприятия Polysius Corporation, которое занимается проектированием и реконструкцией цементных заводов.

Прежде компании ежегодно приходилось на 30% увеличивать объем выделяемого под производственные нужды дискового пространства. После дедупликации хранившихся на жестких дисках компании файлов AutoCAD, документов Microsoft® Office и прочих неструктурированных данных Polysius удалось освободить целых 47% ранее занятого места. На некоторых томах оказались свободны до 70% прежде занятого объема. В результате компания смогла отложить расширение систем хранения, и более того, удалось удвоить период хранения резервных копий данных на дисках. Об успешном внедрении дедупликации в компании Polysius — в деталях.

Предлагаемую NetApp технологию дедупликации выделяет ряд весьма привлекательных особенностей:

  • работает не только на подсистемах хранения NetApp, но и на СХД других поставщиков, будь то первый, второй или архивный уровень дискового пространства
  • не зависит от используемых приложений
  • работает с любыми протоколами
  • потребляет минимум системных ресурсов
  • эффективна на системах с контроллерами как серии FAS, так и серии V
  • сканер проводит побайтовое контрольное сопоставление
  • дедупликация новых данных дает такой же положительный результат, как и дедупликация уже заполненных томов и LUN
  • может осуществляться в часы минимальной нагрузки
  • отлично сочетается с другими технологиями NetApp, направленными на обеспечение эффективности использования дискового пространства
  • выгода от применения дедупликации еще более возрастает, если эта технология применяется в сочетании со SnapMirror® или модулями Flash Cache
  • простота предварительной оценки
  • предоставляется бесплатно

А теперь рассмотрим принципы, положенные в основу предлагаемой NetApp технологии дедупликации, типичные примеры ее внедрения и использования применительно к SAN и NAS.

Как дедупликация осуществляется в Data ONTAP

В фундамент технологии дедупликации инженеры NetApp заложили давний компьютерный принцип учета ссылок. Прежде ОС Data ONTAP ограничивалась слежением за тем, занят блок данными или нет. При использовании дедупликации она так же следит за тем, сколько раз блок используется.При дедупликации в пространстве NAS или SAN на один блок может приходиться до 255 ссылок. Невидимая бухгалтерия файловой среды WAFL делает так, что файлы просто «не знают», что все они, кроме одного-единственного, вместо блоков данных содержат одну или множество ссылок.

Модель серии FAS6200.

Рис. 1. Так происходит дедупликация.

Как Data ONTAP определяет, что вместо двух блоков можно использовать один общий? С этой целью для каждого блока вычисляется хэш-оттиск — хэш содержащихся в блоке данных. Два блока с идентичными оттисками становятся кандидатами на дедупликацию.

Когда эта функция активна, ОС создает базу данных из хэш-оттисков тома (процесс, именуемый «выборкой»). Когда такая база готова, можно начинать дедупликацию.

Чтобы не замедлять текущие процессы, поиск дубликатов идет отдельным пакетным процессом. Во время обычной работы WAFL создает реестр оттисков всех данных, полученных в результате каждой операции записи. Такой реестр пополняется вплоть до запуска процедуры дедупликации вследствие наступления одного из следующих заданных администратором СХД событий:

  • ручной запуск процедуры самим администратором
  • плановый запуск по таймеру
  • обновились 20% объема данных тома
  • функция SnapVault® завершила передачу данных

Дедупликация начинается с выборки хэш-оттисков измененных блоков. Их список сопоставляется с базой данных. Обнаружение в обоих местах одинаковых хэш-оттисков означает, скорее всего, присутствие на дисках блоков, которые содержат идентичные данные, а потому вполне могут быть представлены и в одном экземпляре. В этом случае Data ONTAP удаляет блок-двойник и заменяет его ссылкой на другой. Поскольку изменения в файловую систему вносятся постоянно, такую операцию допустимо проделывать, только если в обоих блоках по-прежнему записаны одинаковые данные. Чтобы убедиться, что оба блока действительно идентичны, данные в них сверяются побайтово.

Проектируя алгоритмы дедупликации, программисты NetApp постарались максимально использовать особенности файловой среды WAFL, чтобы уменьшить затраты системных ресурсов. Так, каждый блок дисковых данных защищен контрольной суммой.

Эта контрольная сумма становится основой для хэш-оттисков. Вычислять ее пришлось бы в любом случае, а так ее можно просто взять в готовом виде, совсем не загружая систему. Поскольку WAFL никогда не перезаписывает блоки активной файловой системы, оттиски также можно продолжать использовать до момента пока этот блок не освободится. К тому же глубокая интеграция с WAFL ощутимо упрощает ведение журнала изменений. Благодаря такой продуманности дедупликацию, как она реализована NetApp, можно осуществлять в широком диапазоне рабочих нагрузок, а не только при резервном копировании, как в случае решений, предлагаемых другими компаниями.

Типичные случаи применения

С первых дней практического использования дедупликации специалисты NetApp ведут статистический учет положительного эффекта от применения новой технологии в самых разных условиях. Больше всего данных собрано по VMware® и VDI, данным в домашних каталогах и файловым службам. Быстро накапливается статистика по Microsoft SharePoint® и Exchange 2010.

В Tech OnTap уже не раз писалось о том, насколько значительный эффект дает дедупликация сред VMware и VDI, где виртуальные машины с практически идентичными операционными системами составлены из множества одинаковых файлов. Таблица, приведенная ниже, отражает результаты применения дедупликации в различных средах.

Таблица 1) Типичный процент экономии дискового пространства после дедупликации.

Набор данных Прикладная задача Освободилось пространства (только дедупликация)

Файловые службы и ИТ-инфраструктура

30%

Виртуальные серверы и компьютеры

70%

Базы данных

Oracle® OLTP

0%

Oracle DW

15%

SQL Server®

20%

Электронная почта, приложения для совместной работы

Exchange 2003/2007

3%

Exchange 2010

15%

Инженерно-техническая и проектная документация

30%

Геосейсмические данные

3%

Архивные данные

25%

Резервное копирование

95%


Типичная среда VMware или VDI составлена из множества виртуальных машин (ВМ), на которых чаще всего установлена одна и та же операционная система и сходный набор прикладного ПО, иными словами, это массивы одинаковых файлов.

100 виртуальных машин под управлением одной и той же ОС займут по 10–20 ГБ дискового пространства, что в сумме выльется в 1–2 ТБ, занятых почти идентичными копиями. Дедупликация позволяет избавиться от бессмысленной, но привычной избыточности.

В общем случае, если на одном томе было X виртуальных машин, то после дедупликации останется занятой 1/X часть ранее отведенного под них пространства. Понятно, что в каждом отдельно взятом случае полученный результат будет зависеть от того, сколько виртуальных машин было на томе и насколько похожи они были.

На практике клиентам чаще всего удается вернуть 50 и более процентов дискового пространства среды ESX VI3, хотя в ряде случаев экономия составляла 90%. Нужно отметить, что речь идет о дедупликации всего пространства, занятого средой VMware, включая и данные приложений, а не об отдельно взятых операционных системах. В средах VDI клиенты чаще всего сообщают об экономии 90% места.

Наша компания также исследовала преимущества дедупликации в СХД документов с неструктурированными данными, созданными распространенными проектно-конструкторскими и научными приложениями, в том числе Siemens Teamcenter PLM, IBM Rational ClearCase SCM и ПО Schlumberger Petrel, предназначенным для анализа данных сейсмической разведки.

Teamcenter использует сравнительно небольшую базу метаданных в сочетании с большой СХД, куда отправляются конструкторские документы. Каждый раз, когда инженер сохраняет проект, Teamcenter даже в случае малейшего изменения в файле отправляет в СХД его полную копию.

Прогнозирование положительного эффекта дедупликации в среде Teamcenter NetApp осуществляла рука об руку с Siemens PLM. Для этой цели использовали разработанную в Siemens программу замера производительности и масштабируемости, которая имитирует создание нескольких редакций множества файлов проектов, воспроизводя таким образом реальную производственную среду. Дедупликация позволила освободить 57% ранее занятого пространства. Результаты в реальной жизни могут оказаться даже лучше, потому что число версий файлов, скорее всего, окажется больше, чем в искусственных условиях. (Конечно, используя симуляторы для имитации реальных данных, не следует переоценивать результаты прогнозирования экономии. Часто искусственно генерируемые документы содержат непропорционально больше количество повторяющихся данных, поскольку симуляторы обычно создаются для моделирования производительности в различных условиях, но никак не создания документов с заданными характеристиками).

IBM Rational ClearCase, одна из широко известных сред версионного контроля и разработки программного обеспечения (SRM), подобно Teamcenter, конструктивно состоит из базы метаданных и огромной «базы версий объектов» (VOB), где находятся файлы. В случае с ClearCase наибольший выигрыш дедупликация дает, когда принимается решение дополнительно к существующей VOB создать также ее копию. Пока же по результатам первых замеров в лабораторных условиях применение дедупликации к системам хранения файлов среды ClearCase дает 40% экономии дискового пространства.

Система Schlumberger Petrel предназначена для интерпретации данных сейсмической разведки, построения графических моделей пластов и моделирования рабочих процессов. При этом создаются подкаталоги проектов, в каждом из которых хранится огромное количество файлов. По мере того, как пользователи создают и распространяют новые данные, архивируют их и делают резервные копии, пространство множества запоминающих устройств постепенно заполняется дубликатами информационных объектов. По данным NetApp, дедупликация таких подкаталогов позволяет сэкономить около 48% места на дисках.

Особенности дедупликационных технологий NetApp

Основные технические условия применения дедупликационных технологий NetApp приведены в таблице 2.

Таблица 2. Основные технические условия применения дедупликационных технологий NetApp.

Условие Дедупликация

Контроллеры

NearStore® R200
серия FAS2000
серия FAS3000
серия FAS3100
серия FAS3200
серия FAS6000
серия FAS6200
серия IBM N5000
серия BM N7000
Примечание: Начиная с версии Data ONTAP 7.3, дедупликация возможна также для данных, которые хранятся в системах серий V, соответствующих указанным системам NetApp FAS и IBM Gateway серий N.

Data ONTAP (минимально требующаяся версия)

Data ONTAP 7.2.5.1
(режим 7-Mode только для сборок 8.0.x)

Лицензии

A-SIS
Лицензия NearStore (требуется для сборок Data ONTAP, выпущенных до 8.0)

Типы томов

Только FlexVol®, обычные тома не поддерживаются.

Максимальный размер тома

Для всех систем под управлением Data ONTAP 8.0.1 — 16 ТБ. Максимальный размер Flexible Volume в случае более ранних версий Data ONTAP зависит от модели контроллера NetApp. Соответствующие значения для разных моделей приведены в документе TR-3505.

Протоколы

Все

Полезным дополнением к требованиям технических условий обычно являются рекомендации, основанные на опыте практического использования. Ниже приведена краткая подборка таких советов, а также информация об особенностях сочетания дедупликации с другими популярными технологиями NetApp. В деталях об этом рассказано в документе TR-3505: NetApp Deduplication for FAS and V-Series Deployment and Implementation Guide.

  • Воздействие на производительность рекомендуется замерить на тестовом томе прежде, чем приступить к дедупликации рабочих томов, в особенности когда речь идет о прикладных задачах, для которых статистика NetApp отсутствует. Точно так же следует заранее проверить, насколько соответствуют техническим условиям объемы занятого и свободного пространства.
  • Дедупликация потребляет системные ресурсы и может изменить структуру данных на диске. Соответственно, может измениться и скорость операций ввода-вывода — в зависимости от их типичного характера и воздействия дедупликации на структуру данных. Экономия места и влияние на производительность зависят от прикладной задачи и содержимого файлов.
  • Если в процессе работы создается не так уж много новых данных, частая дедупликация не имеет смысла, потому никакой особой пользы принести просто не сможет. Оптимальная частота повторения этой процедуры прямо зависит от того, насколько часто и с какой скоростью меняются данные на эластичном томе.
  • Чем больше запущено процессов предварительного сканирования, тем больше системных ресурсов они потребляют. Разумнее всего избрать один из следующих вариантов:
    • составить график дедупликации эластичных томов FlexVol таким образом, чтобы эта процедура выполнялась в разные дни и не приводила к массовому возникновению параллельных процессов;
    • использовать автоматической режим, когда событием, инициирующим дедупликацию конкретного тома, становится запись на него значительного количества новой информации. (Когда дедупликацию применяют в небольших средах, это само собой приводит к случайному чередованию этой процедуры для разных томов);
    • запускать процедуру дедупликации вручную;
    • проводить дедупликацию по ночам раз в сутки, что позволит свести к минимуму количество обрабатываемых новых данных и, как следствие, продолжительность этой процедуры.
  • Если моментальный снимок Snapshot® создавать до дедупликации, полезный эффект будет, скорее всего, снижен. Дедуплицировать данные имеет смысл перед созданием моментального снимка, а сам снимок делать уже по завершении дедупликации.
  • Чтобы дедупликация шла без помех, следует позаботиться о наличии на томе достаточного свободного пространства для записи метаданных этой процедуры. Для версий Data ONTAP, предшествующих 7.3, на каждом эластичном томе должно оставаться свободное место, объем которого не меньше 6% от уже заполненного объема. Если на контроллере работает сборка 7.3 или более поздняя, на агрегате должно быть оставлено свободного места не меньше 4% (под хэш-оттиски и журналы изменений) от уже заполненного на всех дедуплицированных FlexVol пространства. При этом каждый том FlexVol должен иметь свободного места не менее 2% от объема, уже занятого данными. Этот вопрос подробно рассмотрен в разделе 5.3.3 документа TR-3505.

Дедупликация и другие технологии NetApp

Дедупликация хорошо сочетается с другими технологиями NetApp. В ряде случаев такое сочетание сулит дополнительные выгоды:

  • Flash Cache. Модули интеллектуального кэширования Flash Cache предназначены для ускорения операций ввода-вывода. Дедупликация увеличивает вероятность выборки уже запрошенных ранее данных из быстрой кэш-памяти вместо повторного считывания их со сравнительно медленных дисков. Если в память модуля попадает не уникальный, а один из дедуплицированных блоков, вероятность повторного обращения к нему будет весьма высока. Этот эффект называется интенсификацией кэша, и особенно заметно проявляется при дедупликации сред виртуализованных серверов и рабочих мест.
  • Реплики SnapMirror При репликации дедуплицированного тома посредством SnapMirror том-реплика также получается уже дедуплицированным. Как это отражается на средах VMware, рассмотрено в статье из прежнего выпуска. Особенности одновременного использования дедупликации и всех разновидностей SnapMirror и SnapVault также были описаны в одном из недавних материалов.
  • FlexClone. Функция FlexClone® позволяет мгновенно реплицировать тома и наборы данных, создавая их виртуальные клоны-копии. Когда функция FlexClone используется для создания клонов:
    • если родительский том был дедуплицирован, то клон, созданный посредством FlexClone, также не будет содержать дублирующих друг друга блоков;
    • клонированный том наследует все связанные с дедупликацией свойства родительского тома, например график дедупликации;
    • начиная со сборки Data ONTAP 7.3 файлы дедупликационных метаданных (файлы базы данных хэш-оттисков и журнала изменений) не клонируются, поскольку в агрегате они расположены вне тома. Дедупликация клонированного тома является самостоятельной процедурой;
  • Уплотнение данных. Функция уплотнения данных, которая стала доступна клиентам NetApp в сборке Data ONTAP 8.0.1, очень удачно дополняет дедупликацию. Примеры расчетов экономии дискового пространства и результаты использования уплотнения некоторыми компаниями освещены в одном из предшествующих выпусков Tech OnTap.
  • Гибкое выделение ресурсов. Дедупликация в сочетании с предложенной NetApp технологией гибкого выделения позволяет достичь максимальной экономии дискового пространства. Для томов NAS конфигурация очевидна. В случае LUN наилучший эффект дают следующие параметры значения (подробно об этом см. в разделе 6.4.18 документа TR-3505):
    • LUN space reservation = off
    • Volume fractional reserve value = любая цифра от 0 до 100
    • Volume guarantee = none
    • Snap reserve = 0%
    • Autodelete = on
    • Autosize = on
    • Try_first = volume_grow

Заключение

Дедупликация — важное средство повышения эффективности СХД, которое можно использовать независимо или в сочетании с другими предложенными NetApp способами увеличения полезной отдачи, такими, как гибкое выделение, FlexClone и так далее. Подробнее о дедупликации рассказано в документе TR-3505: NetApp Deduplication for FAS and V-Series Deployment and Implementation Guide. Это регулярно обновляемое руководство освещает широкий круг вопросов, в том числе:

  • настройку и эксплуатацию
  • оптимальное распределение и использование дискового пространства
  • сочетание с другими технологиями NetApp
  • практические рекомендации, в том числе в части дедупликации данных конкретных приложений, включая VMware, Microsoft Exchange, SQL Server, SharePoint, Lotus Domino, Oracle и других
  • выявление и устранение неполадок
 Хотите высказать свое мнение о дедупликации?

В сообществах NetApp в Интернете можно задавать вопросы, обмениваться идеями и делиться соображениями.

Карлос Альварес
Старший инженер-маркетолог
NetApp


Блестящий знаток технологий дедупликации, уплотнения данных и гибкого выделения, Карлос работает в NetApp с 2008 года и занимается вопросами рационализации использования дисковых ресурсов. Он регулярно руководит работами по внедрению на предприятиях клиентов наиболее эффективных технологий NetApp®, направленных на повышение отдачи систем хранения данных. За свои более 20 лет работы в отрасли Карлос стал автором бессчетного количества пособий по внедрению, официальных технических справок, эталонных архитектур, сборников рекомендаций и решебников.


Tech OnTap
Подпишитесь на наш бюллетень
Tech OnTap — это ежемесячные обзоры новейших ИТ-технологий, советы и практические рекомендации, знакомство с инструментарием, неформальные интервью с разработчиками, демонстрационные ролики, рецензии и многое другое.

Бланк подписки на Tech OnTap.

Будьте в курсе
Будьте в курсе
Tech OnTap о дедупликации
Хотите узнать о дедупликации побольше? Тогда для вас могут оказаться интересны статьи из прошлых наших выпусков:


Назад к основам
Первая статья рубрики «Назад к основам» была посвящена технологии гибкого выделения ресурсов. В ней описано, как это все работает, как используется на других предприятиях, и много других интересных вещей.

Будьте в курсе
 
TRUSTe
Свяжитесь с нами   |   Как купить   |   Обратная связь   |   Карьера в NetApp  |   Подписка   |   Политика конфиденциальности   |   © NetApp, 2011