NetApp Tech OnTap Логотип компании NetApp
NetApp Tech OnTap
     
И снова о главном: Компрессия данных

Это шестой выпуск «И снова о главном», серии статей, в которых обсуждаются базовые принципы популярных технологий NetApp®.

Как известно, технологии сжатия данных появились не вчера, однако, до последнего времени их использование в крупномасштабных промышленных системах являлось непростой задачей, особенно с точки зрения влияния на производительность. До недавнего времени компрессия данных для таких устройств, как ленточные драйвы и виртуальные ленточные библиотеки, почти всегда осуществлялось с использованием специальных аппаратных средств, которые повышали издержки и увеличивали сложность систем.

Компания NetApp разработала способ прозрачного сжатия данных в программном обеспечении, осуществляемого как «на ходу», так и во время постобработки данных, который требует минимальных вычислительных ресурсов. Это позволяет пользоваться преимуществами сжатия данных в архитектуре Data ONTAP® без необходимости лишних затрат при использовании в существующих СХД NetApp. С момента появления сжатия данных в Data ONTAP 8.0.1 мы получили весьма положительный отклик об этой технологии. Она была лицензирована для систем в широком спектре отраслей. Сорок процентов этих систем используют компрессию на основных носителях, а 60% используют ее для резервного копирования/архивирования.

Компрессия данных NetApp обеспечивает значительные преимущества, в т.ч.:

  • Совместную работу с другими лидирующими технологиями повышения эффективности хранения NetApp. Компрессия в сочетании с такими технологиями повышения эффективности, как гибкое выделение ресурсов и дедупликация, значительно уменьшает суммарное необходимое пространство хранения, снижая как капитальные затраты, так и эксплуатационные издержки. Общая экономия пространства может достигать 87%, хотя компрессия целиком зависит от приложения. Использование других технологий повышения эффективности может обеспечить еще большую экономию.
  • Незначительно снижает производительность. Хотя все технологии сжатия данных влекут за собой определенное снижение производительности, компания NetApp приняла значительные меры по уменьшению такого влияния с одновременным получением максимальной экономии пространства.
  • Отсутствие необходимости покупки лицензии. Компрессия данных NetApp является стандартной возможностью Data ONTAP 8.1. Она не требует лицензии, поэтому не накладывает дополнительных расходов на оборудование или программное обеспечение при включении компрессии данных.
  • Работает как на основной, так и на резервной СХД. Компрессию можно включить на основных томах данных, для резервных томов или для тех и других вместе.
  • Не требует изменений в программном обеспечении. Компрессия осуществляется прозрачным для приложений путем, поэтому может использоваться с различными приложениями без необходимости внесения изменений в программный код.
  • Экономия пространства наследуется как при репликации, так и при использовании DataMotion. При выполнении репликации сжатого тома с помощью volume SnapMirror или перемещения тома с помощью DataMotion™ блоки копируются в сжатом состоянии. При этом экономится полоса пропускания, время на передачу данных и пространство на носителе-адресате, а также исключается необходимость дополнительной загрузки ЦПУ для повторного сжатия тех же блоков.

В данной главе «И снова о главном» анализируется реализация компанией NetApp технологии компрессии данных, а также ее производительность, возможные случаи использования, выбор между сжатием «на лету» и при постобработке, а также передовой опыт применения.

Реализация компрессии данных в Data ONTAP

Технология компресии данных компании NetApp уменьшает размер дискового пространства, необходимый для хранения данных в СХД, путем сжатия данных в рамках гибкого тома (FlexVol®) на основной, резервной и архивной СХД. Эта технология позволяет сжимать как обычные файлы, виртуальные локальные диски, так и LUN. В оставшейся части статьи рассказывается о сжатии виртуальных локальных дисков и LUN.

Технология компресии компании NetApp не сжимает весь файл в виде одного непрерывного потока байтов. Было бы чрезмерно дорого иметь дело с обслуживанием небольших запросов на чтение части файла, так как это потребовало бы чтения всего файла с диска и его распаковки для выполнения этого запроса на чтение. Это было бы особенно трудно выполнить для больших файлов. Чтобы избежать этого, технология компрессии компании NetApp осуществляет одновременное сжатие небольших групп последовательных блоков данных. Это ключевая идея технологии компресии NetApp, в которой и заключается ее эффективность. Для выполнения запроса на чтение необходимо всего лишь считать и распаковать небольшую группу блоков, а не весь файл. Такой подход оптимизирует как считывание небольших частей, так и перезапись, а также обеспечивает большую масштабируемость размеров сжимаемых файлов.

Алгоритм компресии NetApp разделяет файл на фрагменты данных, называемые группами сжатия. Группы сжатия имеют максимальный размер 32 Кбайт. Например, файл размером 60 Кбайт будет содержаться в двух группах сжатия. Первая будет иметь размер 32 Кбайт, вторая – 28Кбайт. Каждая группа сжатия содержит данные только одного файла; сжатие файлов размером 8 Кбайт и менее не выполняется.

Запись данных. Запросы на запись обрабатываются на уровне группы сжатия. После формирования группы выполняется проверка возможности сжатия данных. Если получаемая экономия не превышает 25%, данные остаются несжатыми. Только если проверка показывает, что данные сжимаемы, данные записываются на диск в сжатом виде. Так обеспечивается оптимальная экономия при минимальном расходе ресурсов.

Поскольку сжатые данные содержат меньше блоков для записи на диск, возможно снижение количества операций ввода-вывода, необходимых для записи сжатых данных. Снижается не только пространство, занимаемое на диске данными, но и время, требуемое для резервного копирования.

Обязанности администратора VMware и администратора СХД при использовании подключаемого модуля VSC vCenter.

Рис. 1) Файлы делятся на фрагменты, называемые группами сжатия, которые проверяются на возможность сжатия. Каждая группа сжатия в зависимости от результатов проверки записывается на диск либо в сжатом, либо в несжатом виде.

Чтение данных. Когда дело касается чтения сжатых данных, операционная система Data ONTAP считывает только группы сжатия, содержащие запрошенные данные, а не весь файл. Таким образом, можно уменьшить количество операций на обслуживание запроса, нагрузку на системные ресурсы и время на выполнение чтения.

Попутный режим. Когда сжатие данных NetApp настроено для выполнения в попутном режиме, данные перед записью на диск сжимаются в памяти. Так можно значительно снизить количество операций ввода-вывода для записи на том, однако, при записи может снизиться производительность, и этот режим не следует использовать для приложений, требовательных к производительности, без предварительного тестирования.

Для достижения оптимальной пропускной способности попутный режим компресии используется для сжатия при большинстве операций записи новых данных, однако некоторые операции сжатия, значительно влияющие на производительность — например, частичная перезапись групп сжатия — задерживаются до запуска очередного процесса постобработки.

Режим постобработки. Компрессия при постобработке может использоваться как для недавно записанных данных, так и для данных, находившихся на диске до включения компресии. Для него используется такой же график запуска, как для дедупликации NetApp. Если компрессия включена, она выполняется сначала, а уже после нее дедупликация. Дедупликация не требует распаковывания данных для их использования. Во время устранения дублирующихся данных просто удаляются повторяющиеся сжатые или несжатые блоки данных.

Если включены попутное сжатие и сжатие при постобработке, при постобработке система попытается сжать только те блоки, которые еще не сжаты. К таким блокам относятся блоки, пропущенные при попутном сжатии, например, блоки частичной перезаписи групп сжатия.

Производительность компрессии и экономия пространства

Компрессия данных дополняет характеристики операционной системы Data ONTAP с целью повышения эффективности работы. Технология сжатия данных NetApp минимизирует снижение производительности, но не устраняет его. Снижение зависит от ряда факторов, в т.ч. от типа данных, характера доступа к данным, аппаратной платформы, количества свободных системных ресурсов и т.д. Перед применением сжатия на продуктивных томах с данными следует проверить его влияние в лабораторной среде.

Тестирование компрессии при постобработке на FAS6080 обеспечивало скорость сжатия до 140 Мбайт/с на один процесс и максимальную скорость в 210 Мбайт/с при нескольких параллельных процессах. При рабочих нагрузках, характерных для файловых служб, системы с загрузкой ЦПУ менее 50 % демонстрировали повышение загрузки ЦПУ на ~20 % для наборов данных, которые являлись сжимаемыми на 50 %. Для системах с загрузкой ЦПУ более 50 % влияние может быть более значительным.

Экономия пространства, получаемая от использования компресии и дедупликации при различных рабочих нагрузках, представлена на рис. 2.

Обязанности администратора VMware и администратора СХД при использовании подключаемого модуля VSC vCenter.

Рис. 2) Типичная экономия пространства, получаемая при использовании сжатия, дедупликации или обеих технологий.

Типичные случаи применения

Как уже обсуждалось, решение по включению компресии или дедупликации зависит от баланса между выгодами от экономии пространства и потенциальным снижением производительности. Важно взвесить оба фактора для выбора наилучшего применения технологии сжатия в вашей среде хранения данных.

Резервное копирование баз данных (и резервное копирование в общем случае) является потенциально наилучшей областью применения сжатия данных. Базы данных часто достигают огромных размеров, и многие пользователи готовы мириться с незначительным снижением производительности резервной СХД при экономии более чем 65 % пространства СХД. Например, в одном из тестов параллельное резервное копирование томов Oracle при включенном попутном сжатии обеспечило экономию пространства 70 % с повышением загрузки ЦПУ на 35 % и без изменения времени, затрачиваемого на резервное копирование. Многие из нас, вероятно, предпочтут в таких случаях включить компрессию, принимая во внимание значительную экономию и при условии, что интересующая СХД располагает ресурсами ЦПУ. При выборе размера новых СХД для резервного копирования может потребоваться проверка наличия вычислительных ресурсов, необходимых для включения компрессии.

Другим возможным вариантом использования являются файловые службы. В ходе проверки с использованием рабочей нагрузки файловых служб было зафиксировано всего лишь 5-ти процентное снижение пропускной способности системы, которая была приблизительно на 50 % загружена, а набор данных допускал 50-ти процентное сжатие. В среде файловых служб со временем отклика для файлов 1 мс это приведет к увеличению времени отклика всего лишь на 0,05 мс (до 1,05 мс). При 65% экономии пространства такое небольшое снижение производительности может считаться допустимым. Эту экономию можно дополнительно повысить за счет использования при репликации данных технологии SnapMirror®, которая экономит полосу пропускания сети и пространство на резервной системе хранения. В этом случае резервная СХД наследует сжатие от основной системы хранения, поэтому процедуры дополнительной обработки не требуются. В этом сценарии вы достигнете:

  • 65-процентной экономии емкости основной системы хранения;
  • 65-процентного сокращения объема данных, пересылаемых по сети для репликации;
  • 65-процентного ускорения выполнения репликации;
  • 65-процентной экономии емкости резервной системы хранения.

Компрессию целесообразно использовать во многих других случаях. Компания NetApp предлагает целый ряд инструментов и рекомендаций, которые могут помочь вам принять решение о том, какой вариант использования компрессии наилучшим образом подходит для вашей инфраструктуры. Для основной СХД рекомендуется рассмотреть вариант использования компрессии в следующих случаях:

  • Файловые службы
  • Геосейсмические данные
  • Тестирование и разработка

Для основной СХД рекомендуется рассмотреть вариант использования компрессии в следующих случаях:

  • Файловые службы
  • Геосейсмические данные
  • Виртуальные серверы
  • Oracle OLTP
  • Хранилища данных Oracle
  • Microsoft® Exchange 2010

Применение компрессии

Технология NetApp для сжатия данных применима во всех системах NetApp FAS и серии V, работающих под управлением операционной системы Data ONTAP 8.1 или более новых версий. Компрессия данных выполняется на уровне тома. Это означает, что необходимо выбрать соответствующие тома для сжатия данных. Если известно, что том содержит несжимаемые данные, не следует включать компрессию на этом томе. Компрессия данных работает совместно с дедупликацией, и поэтому на томе предварительно следует включить дедупликацию. Том должен находится в 64-разрядном агрегате — возможность, которая введена с версии Data ONTAP 8.0. Начиная с версии Data ONTAP 8.1 сняты ограничения на размер тома кроме тех, которые накладывает конкретная используемая платформа FAS или серии V. Включить компрессию и управлять ей можно средствами командной строки или используя NetApp System Manager 2.0.

NetApp рекомендует перед включением компрессии выполнить проверку, чтобы убедиться в наличии необходимых ресурсов и выявить потенциальное снижение производительности. Факторы, влияющие на степень снижения, включают:

  • тип приложения;
  • возможности сжатия наборов данных;
  • режим доступа к данным (например, последовательный или случайный доступ, размер и вариант передачи данных);
  • средний размер файлов;
  • скорость изменения;
  • количество томов, на которых включена компрессия;
  • аппаратная платформа — количество процессоров/объем памяти в системе;
  • нагрузка на систему;
  • тип и быстродействие диска;
  • суммарное количество шпинделей.

Как правило, действуют следующие эмпирические принципы:

  • Производительность при компресии зависит от типа аппаратной платформы.
  • Большее количество ядер обеспечивает большую скорость.
  • Более быстрые ядра обеспечивают меньшее снижение пропускной способности.
  • Чем больше степень сжатия данных, тем меньше снижение производительности.

Выбор между попутным сжатием и сжатием при постобработке

При настройке компрессии имеется выбор между немедленным, попутным сжатием в сочетании с периодическим сжатием при постобработке и сжатием только в рамках постобработки. Попутное сжатие может обеспечить немедленную экономию пространства, снижение количества операций ввода-вывода и копии Snapshot™ меньшего размера. Поскольку при постобработке на диск сначала записываются несжатые данные, а затем, позднее, они считываются и сжимаются; она является предпочтительной, когда потенциальное снижение производительности при записи новых данных нежелательно, либо когда нежелательно использовать дополнительные ЦПУ в часы пиковых нагрузок.

Попутное сжатие наиболее полезно в ситуациях, в которых производительность является не очень критическим параметром, и можно допустить некоторое снижение производительности при записи, сохранив при этом доступность ЦПУ в часы пиковых нагрузок. Ряд соображений по выбору попутного сжатия и сжатия при постобработке представлен в таблице 1.

Цель Рекомендация
Получить минимальный размер копии Snapshot. Попутное сжатие минимизирует пространство, занимаемое копиями Snapshot.
Минимизировать используемое пространство на устройствах-адресатах qtree SnapMirror или SnapVault®. Попутное сжатие обеспечивает немедленную экономию при минимальном влиянии на время резервного копирования. Более того, оно обеспечит уменьшение места под резервные моментальные снимки.
Уменьшение количества операций ввода-вывода для диска. Попутное сжатие уменьшит количество записываемых на диск новых блоков.
Недопущение снижения производительности при записи новых данных. При сжатии в рамках постобработки новые данные записываются на диск без сжатия и без снижения исходной производительности при записи. Затем можно запланировать выполнение сжатия для увеличения экономии пространства.
Минимизация влияния на ЦПУ в часы пиковых нагрузок. Компрессия при постобработке позволяет планировать момент времени, когда выполняется сжатие, минимизируя влияние сжатия в часы пиковой загрузки.

Таблица 1) Соображения о сжатии только при постобработке в сравнении с попутным сжатием совместно со сжатием при постобработке.

Компрессия данных и другие технологии NetApp

Компрессия данных NetApp функционирует, дополняя дедупликацию NetApp. В этом разделе обсуждается использование сжатия данных совместно с другими популярными технологиями NetApp.

Копии Snapshot Копии Snapshot позволяют восстанавливать данные до состояния определенного момента времени, путем сохранения блоков, которые изменились после создания моментального снимка. Компрессия может сократить пространство, занимаемое снимком Snapshot, т.к. сжатые данные занимают меньше места на диске.

Сжатие при постобработке позволяет сжимать данные, заблокированные для снимка Snapshot, но экономия становится доступной не сразу, поскольку исходный несжатый блок сохраняется на диске до истечения срока хранения или удаления моментального снимка. NetApp рекомендует выполнить сжатие при постобработке до создания копий Snapshot. С передовым опытом использования сжатия с моментальными снимками можно познакомиться в TR-3958 и TR-3966.

Реплики SnapMirror Volume SnapMirror работает на уровне физических блоков. В тех случаях, когда дедупликация и/или компрессия включены на исходном томе, экономия пространства от дедупликации и сжатия данных сохраняется при пересылке данных и записи на резервное устройство. Это может значительно сократить потребность в пропускной способности сети во время репликации, а также время выполнения передачи SnapMirror. Ниже приведены некоторые общие указания, которые необходимо принять во внимание.

  • Исходная и целевая системы должны использовать одинаковую версию операционной системы Data ONTAP.
  • Компрессия и дедупликация управляются только на исходной системе — гибкий том на удаленной системе наследует экономию пространства хранения.
  • Компрессия сохраняется при передаче, поэтому сокращается объем передаваемых данных, сокращая используемую полосу пропускания и время на передачу.
  • Компрессия канала передачи данных SnapMirror не требуется, поскольку данные ранее были сжаты с помощью технологии NetApp для сжатия данных.

Уменьшение потребности в полосе пропускания сети и времени передачи SnapMirror прямо пропорциональны размеру экономии пространства. Например, если вы смогли сэкономить 50 % емкости диска, то время передачи SnapMirror будет уменьшено на 50 %, а пересылаемый по сети объем данных будет меньше на 50 %.

Qtree SnapMirror и SnapVault. И qtree SnapMirror, и SnapVault работают на уровне логических блоков; исходная и целевая СХД выполняют дедупликацию и компрессию данных независимо, поэтому можно запускать их при необходимости на любой из СХД или на обеих СХД. Это позволяет сжимать и/или выполнять устранение дублирующихся данных резервных копий Qtree SnapMirror и/или SnapVault, даже если исходные данные не сжаты или содержат дубликаты. Компрессия и дедупликация при постобработке автоматически выполняется после завершения передачи SnapVault, если только график запуска не задан вручную.

Клонирование. Технология NetApp FlexClone® позволяет мгновенно создавать виртуальные копии файлов или томов данных, которые не расходуют дополнительное пространство хранения до тех пор, пока не изменятся клоны. FlexClone поддерживает устранение дублирующихся данных и компрессию. При включении сжатия на родительском томе клона экономия наследуется клоном. Можно включить компрессию на томе клона, чтобы новые данные, записываемые в клон, получали экономию за счет сжатия, не затрагивая родительскую копию.

Заключение

Технология компрессии данных NetApp является важным инструментом повышения эффективности СХД, который может использоваться для увеличения экономии пространства как на основной, так и на резервной СХД. Полную информацию по всем темам, обсуждавшимся в этой главе, и по другим вопросам, см. в документах TR-3958: Руководство по развертыванию и реализации сжатия и дедупликации данных NetApp: Data ONTAP 8.1 в режиме 7-Mode и TR-3966: Руководство по развертыванию и реализации сжатия и дедупликации данных NetApp: Data ONTAP 8.1 в режиме Cluster-Mode.

 Есть соображения по поводу сжатия данных?

В сообществах NetApp в Интернете можно задавать вопросы, обмениваться идеями и делиться соображениями.

Сандра Моултон
Cтарший инженер-маркетолог
NetApp


С момента прихода в компанию NetApp два года назад Сандра уделяет основное внимание эффективности систем хранения и специализируется на дедупликации и сжатии данных; она отвечает за подготовку технической документации, практических рекомендаций и эталонных архитектур для этих критически важных технологий. Сандра обладает более чем 20-летним опытом работы в отрасли, при этом она выполняла аналогичные обязанности в других ведущих компаниях Силиконовой долины.


Tech OnTap
Подпишитесь на наш бюллетень
Tech OnTap — это ежемесячные обзоры новейших ИТ-технологий, советы и практические рекомендации, знакомство с инструментарием, неформальные интервью с разработчиками, демонстрационные ролики, рецензии и многое другое.

Бланк подписки на Tech OnTap.

Будьте в курсе
Explore
И снова о главном — продолжение

Ознакомьтесь с базовыми принципами основных технологий NetApp, прочитав другие главы этой серии:

Будьте в курсе
TRUSTe
Свяжитесь с нами   |   Как купить   |   Обратная связь   |   Карьера в NetApp  |   Подписка   |   О защите конфиденциальных данных   |   © NetApp, 2012 г.