NetApp Tech OnTap
     

Сжатие данных для систем хранения NetApp

Эффективность — это основа гибкой ИТ-инфраструктуры. Лидер инноваций в области систем хранения, компания NetApp приложила много усилий для создания новейших технологий повышения эффективности СХД, среди которых Snapshot® и такие родственные технологии, как гибкое выделение ресурсов, FlexClone®, дедупликация для основной системы хранения и многие другие.

Технологии сжатия данных появились не вчера, однако в последнее время они вызвали серьезные трудности в крупномасштабных системах хранения данных, особенно с точки зрения их влияния на производительность СХД. До недавнего времени сжатие данных для таких устройств, как стримеры и виртуальные ленточные библиотеки, почти всегда было связано с необходимостью использования специального оборудования, которое увеличивало издержки и сложность процесса. Сегодня компания NetApp готова предложить прозрачное встроенное сжатие данных, которое воздействует на вычислительные ресурсы минимально. Благодаря этой технологии мы можем воспользоваться преимуществами сжатия данных в Data ONTAP® без дополнительной оплаты за использование в существующих системах хранения NetApp®, которые обновляются до Data ONTAP 8.0.1 или более поздней версии.

Данная статья посвящена краткому описанию технологии сжатия данных, а также содержит некоторые примеры ее использования с соответствующими оценками экономии пространства. В этой статье описывается технология сжатия данных, разработанная в компании NetApp, a также рассмотрены сценарии ее использования, с измерениями экономии дискового пространства для каждого из сценариев.

Что такое технология сжатия данных от NetApp?


Технология NetApp сжатия данных является бесплатным дополнительным средством, интегрированным в операционную систему Data ONTAP 8.0.1 в виде программного решения для прозрачного встроенного сжатия данных. Для использования технологии NetApp сжатия данных не требуется изменять приложения.

Технология NetApp сжатия данных уменьшает дисковое пространство, необходимое для хранения данных в СХД, путем сжатия данных в рамках гибкого тома (FlexVol®) в основной, резервной и архивной СХД. Эта технология позволяет сжимать обычные файлы, виртуальные локальные диски и дисковые тома. В оставшейся части статьи рассказывается о о сжатии виртуальных локальных дисков и дисковых томов.

Технология компании NetApp для сжатия данных не сжимает весь файл в виде одного непрерывного потока байтов. Было бы чрезмерно дорого иметь дело с небольшими считываниями частей файла, так как это потребовало бы чтения всего файла с диска и его распаковки для выполнения запроса чтения. Это было бы особенно трудно выполнить для больших файлов. Чтобы избежать этого, в технологии компании NetApp для сжатия данных используется одновременное сжатие небольшой группы последовательных блоков данных. Это ключевая идея технологии NetApp сжатия данных, которая обеспечивает повышенную эффективность. Для выполнения запроса чтения необходимо всего лишь считать и распаковать небольшую группу блоков, а не весь файл. Таким образом оптимизируется считывание и обеспечивается большая масштабируемость размера сжимаемых файлов.

Алгоритм сжатия, созданный компанией NetApp, разделяет файлы на части размером 32 КБ, называемые «группами сжатия». Каждая группа сжатия содержит данные только из одного файла.

Запись данных. Запросы на запись обрабатываются на уровне группы сжатия. После формирования группы выполняется проверка во время нахождения данных в памяти, чтобы принять решение о возможности сжатия данных. Если сжатие невозможно, данные просто сохраняются на диск. В случае выявления в ходе проверки возможности сжатия данных выполняется сжатие всей группы. Это оптимизирует экономию с одновременной минимизацией выделения ресурсов.

Так как сжатые данные содержат меньше блоков, которые будут записаны на диск, это уменьшает количество операций ввода-вывода, необходимых для записи сжатых данных. Это не только уменьшает потребность в пространстве для хранения данных на диске, но и может уменьшить время выполнения запросов записи на диск, а также значительно сократить время, необходимое для создания резервных копий.

Группы сжатия проверяются на возможность сжатия до начала процесса сжатия. В зависимости от результатов проверки данные записываются на диск сжатыми или несжатыми.

Рисунок 1. Группы сжатия проверяются на возможность сжатия до начала процесса сжатия. В зависимости от результатов проверки данные записываются на диск сжатыми или несжатыми.

Чтение данных. Когда дело касается чтения сжатых данных, операционная система Data ONTAP считывает только группы сжатия, содержащие запрошенные данные, а не весь файл. Это минимизирует количество операций ввода-вывода, необходимых для выполнения запроса, и приводит к минимальным издержкам.

Характеристики сжатия


Технология NetApp сжатия данных может использоваться независимо или вместе с дедупликацией, чтобы добиться оптимальной экономии. Дедупликация может быть запланирована на наиболее удобное время, в то время как технология сжатия NetApp используется во время записи данных на диск. Если для одного и того же тома разрешено использование обеих функций, то данные вначале сжимаются, а затем устраняются дублирующиеся фрагменты. Дедупликация не требует распаковывания данных для их использования. Во время устранения дублирующихся данных просто удаляются повторяющиеся сжатые или несжатые блоки данных.

Сжатие данных дополняет характеристики операционной системы Data ONTAP, чтобы повысить эффективность работы. Технология NetApp сжатия данных минимизирует влияние на производительность, но не устраняет его. Рабочие нагрузки должны оцениваться с учетом возможного выделения ресурсов, необходимых для выполнения сжатия данных. Фактическое влияние зависит от целого ряда следующих факторов:

  • Тип приложения
  • Возможности сжатия наборов данных
  • Режим доступа к данным (например, последовательный или случайный доступ, размер и вариант передачи данных)
  • Средний размер файлов
  • Скорость изменения
  • Количество томов в системе, для которых возможно сжатие
  • Аппаратная платформа — количество процессоров/объем памяти в системе
  • Нагрузка на систему
  • Тип и быстродействие диска
  • Суммарное количество шпинделей

Мы подготовили рекомендации, чтобы помочь вам в выборе размера и других действиях для оптимизации вашего внедрения. Так как важны многие факторы, проверка в вашей инфраструктуре является наилучшим способом определить применимость сжатия данных в соответствии с вашими целями. В следующих разделах обсуждается экономия, измеряемая для различных наборов данных приложений, а также приведены некоторые типичные примеры использования.

Экономия дискового пространства с помощью сжатия данных и дедупликации


Технология NetApp для сжатия данных обеспечивает незамедлительную экономию дискового пространства за счет внутреннего сжатия. Дедупликация выполняется периодически (последующая обработка), чтобы обеспечить кумулятивную экономию дискового пространства. Следует отметить, что во время совместного использования сжатия и дедупликации достигаемая экономия необязательно будет суммой экономии, которая достигается с помощью каждой технологии в отдельности для наборов данных.

Для некоторых типов данных сжатие не повысит экономию по сравнению с дедупликацией, в то время как в других случаях будет верно обратное утверждение. Тем не менее в других случаях сочетание сжатия и дедупликации приводит к огромной экономии. Следующая таблица содержит примеры, иллюстрирующие эти утверждения.

Таблица 1. Наилучшая экономия дискового пространства для различных типов данных.

Тип наборов данных Приложение Наиболее экономное сочетание Типичная экономия дискового пространства, %
Начальные каталоги Сжатие и дедупликация 65
Виртуальные серверы и рабочие столы Только дедубликация 70
Базы данных Только сжатие 65
Электронная почта Exchange 2003/2007 Только сжатие 35
Exchange 2010 Сжатие и дедупликация 40
Технические данные Разработка ПО Сжатие и дедупликация 75
Сейсмогеологические данные Только сжатие 75

Хотя эти примеры экономии являются типичными, не все наборы данных равнозначны. Проверка должна выполняться для ваших данных, чтобы оценить экономию для вашей среды. Компания NetApp всегда готова помочь выполнить процедуру оценки.

Типичные варианты использования


Как уже упоминалось ранее, сжатие может обеспечить потрясающую экономию пространства хранения за счет некоторого снижения производительности. Необходимо оценить два фактора, чтобы определить наилучшее применение технологии сжатия в вашей среде хранения данных.

Резервное копирование баз данных (и резервное копирование в общем случае) является потенциально наилучшей областью применения сжатия данных. Базы данных часто имеют чрезвычайно большой размер. В этом случае многочисленные пользователи будут испытывать незначительное снижение производительности системы хранения резервных копий при более чем 65 % экономии пространства СХД.

Другим возможным вариантом использования являются файловые службы. В ходе проверки с использованием рабочей нагрузки файловых служб было зафиксировано всего лишь
10-процентное снижение производительности системы, которая была приблизительно на 50 % загружена набором данных, допускавшим 50-процентное сжатие. В среде файловых служб со временем отклика для файлов 2 мс это приводило к увеличению времени отклика всего лишь на 0,2 мс (до 2,2 мс). При 65 % экономии пространства это небольшое снижение производительности может считаться допустимым. Эта экономия может быть увеличена еще больше путем репликации данных с помощью технологии SnapMirror®, которая экономит полосу пропускания сети и пространство в резервной системе хранения. В этом случае резервная СХД наследует сжатие от основной системы хранения, поэтому процедуры дополнительной обработки не требуются. В этом сценарии вы достигнете:

  • 65-процентной экономии емкости основной системы хранения;
  • 65-процентного сокращения объема данных, пересылаемых по сети для репликации;
  • 65-процентного ускорения выполнения репликации;
  • 65-процентной экономии емкости дополнительной системы хранения.

Сжатие целесообразно использовать во многих других случаях. Компания NetApp предлагает целый ряд инструментов и рекомендаций, которые могут помочь вам принять решение о том, какой пример использования наилучшим образом подходит для вашей инфраструктуры.

Использование сжатия данных вместе с другими технологиями NetApp


Как вы уже знаете, технология NetApp для сжатия данных используется совместно с технологией дедубликации NetApp. В этом разделе мы обсудим использование сжатия данных в сочетании с некоторыми другими популярными технологиями NetApp.

Volume SnapMirror. Volume SnapMirror работает на уровне физических блоков. В тех случаях, когда дедубликация и/или сжатие разрешены на исходном томе, экономия пространства в результате устранения дублирующихся данных и сжатия сохраняется при пересылке данных и записи на целевое устройство. Это может значительно сократить потребность в пропускной способности сети во время репликации, а также время выполнения передачи SnapMirror. Ниже перечислены некоторые общие указания, которые необходимо принять во внимание.

  • Исходная и целевая системы должны использовать одинаковую версию операционной системы Data ONTAP.
  • Сжатие и дедубликация управляются только в исходной системе — гибкий том в целевой системе наследует характеристики эффективности и экономии.
  • Общие блоки передаются только однократно, поэтому дедубликация также снижает нагрузку на пропускную способность сети.
  • Сжатие сохраняется при передаче данных, поэтому объем передаваемых данных уменьшается, что в конечном итоге сокращает использование пропускной способности сети.
  • Сжатие канала передачи данных SnapMirror не требуется, поскольку данные ранее были сжаты с помощью технологии NetApp для сжатия данных.

Уменьшение потребности в полосе пропускания сети и время передачи SnapMirror прямо пропорциональны размеру экономии пространства. Например, если вы смогли сэкономить 50 % емкости диска, то время передачи SnapMirror будет уменьшено на 50 %, а пересылаемый по сети объем данных будет меньше на 50 %.

Qtree SnapMirror и SnapVault®. Qtree SnapMirror и SnapVault работают на уровне логических блоков. Исходные и целевые системы хранения данных выполняют дедубликацию и сжатие данных независимо. Это позволяет сжимать и/или выполнять устранение дублирующихся данных резервных копий Qtree SnapMirror и/или SnapVault, даже если исходные данные не сжаты или содержат дубликаты.

Клонирование. Технология NetApp FlexClone позволяет мгновенно создавать виртуальные копии файлов или томов данных, которые не расходуют дополнительное пространство хранения до тех пор, пока не изменятся клоны. FlexClone поддерживает устранение дублирующихся данных и сжатие.

Начало работы с технологией NetApp для сжатия данных


Технология NetApp для сжатия данных может использоваться во всех системах NetApp FAS и серии V, работающих под управлением операционной системы Data ONTAP 8.0.1 или более новой. Сжатие данных выполняется на уровне тома. Это означает, что необходимо выбрать соответствующие тома для сжатия данных. Если вы знаете, что том содержит данные, которые не могут быть сжаты, не нужно выполнять сжатие на этом томе. Размер тома может достигать 16 ТБ, при этом том должен поддерживать 64-разрядную функцию агрегирования, которая была реализована в операционной системе Data ONTAP 8. Дополнительные сведения о Data ONTAP 8 см. в другой статье этого выпуска Tech OnTap.

Чтобы начать использование сжатия данных, просто установите бесплатную лицензию в вашей системе хранения данных, а затем активируйте ее на выбранных томах. Это все, что необходимо сделать.

Программа сжатия данных для «ранних последователей». Аналогично выпуску технологии дедубликации несколько лет назад, компания NetApp предлагает ранний доступ к нашей технологии сжатия данных. В случае запроса вами лицензии на технологию сжатия мы оценим вашу инфраструктуру и предоставим рекомендации по эффективной работе.

Заключение

Технология NetApp для сжатия данных продолжает традицию компании NetApp добавлять в операционную систему Data ONTAP без дополнительной оплаты значительные функциональные преимущества в целях повышения эффективности систем хранения. Эта технология значительно снижает требования к СХД со стороны сжимаемых целевых наборов данных и может использоваться совместно с дедубликацией и другими технологиями NetApp.

Мощь и потенциал технологии сжатия реально окупаются при использовании в сочетании с другими технологиями повышения эффективности систем хранения NetApp. А поскольку есть возможность выбрать наиболее подходящее решение из специализированного портфеля продуктов, вы можете пополнить свой арсенал наиболее гибкими и эффективными средствами, которые отвечают как техническим требованиям, так и задачам, которые стоят перед предприятием.

Сообщество NetApp
 Есть мнение о сжатии данных?

В сообществах NetApp в Интернете можно задавать вопросы, обмениваться идеями и делиться соображениями.

Сандра Моултон

Сандра Моултон
Инженер по техническому маркетингу
компании NetApp

С момента прихода в компанию NetApp год назад Сандра уделяет основное внимание эффективности систем хранения и специализируется на дедубликации и сжатии данных; она отвечает за подготовку технической документации, практических рекомендаций и эталонных архитектур для этих критически важных технологий. Сандра обладает более чем 20-летним опытом работы в отрасли, при этом она выполняла аналогичные обязанности в других ведущих компаниях Силиконовой долины.

 
Будьте в курсе