SmartDedupe в СХД Huawei


Функция дедупликации (SmartDedupe) в системах хранения данных Huawei используется для оптимизации использования дискового пространства и снижения нагрузки на хранилище. Дедупликация позволяет определить и удалить дублирующиеся блоки данных, сохраняя только одну копию каждого блока.

Процесс дедупликации начинается с разбиения данных на блоки фиксированного размера. Затем каждый блок анализируется и сравнивается с уже существующими блоками данных. Если блок уже существует, то вместо создания новой копии он заменяется ссылкой на существующий блок. Это позволяет существенно сократить объем хранимых данных.

Дедупликация может быть применена к различным типам данных, включая файлы, виртуальные машины, базы данных и другие. Она особенно эффективна в случае, когда в хранилище хранятся множество копий одних и тех же данных, например, виртуальных машин с одинаковыми операционными системами или дублирующихся файлов.

Функция дедупликации в системах хранения данных Huawei может быть настроена для автоматического выполнения в фоновом режиме или вручную, в зависимости от потребностей и предпочтений пользователя. Она помогает снизить потребление дискового пространства, улучшить производительность хранилища и уменьшить затраты на обслуживание и расширение хранилища

Функция SmartCompression (умное сжатие) в системах хранения данных Huawei используется для сжатия данных, что позволяет сэкономить дисковое пространство и улучшить производительность хранилища.

SmartCompression основана на алгоритмах сжатия данных, которые анализируют и оптимизируют структуру данных перед сжатием. Это позволяет достичь более эффективного сжатия и уменьшить объем хранимых данных без потери качества.

В системе хранения предусмотрена политика адаптивной дедупликации, сочетающая обычную дедупликацию и дедупликацию на основе подобия. Система адаптивно выполняет дедупликацию и сжатие на основе характеристик служебных данных в различных сценариях. Адаптивная дедупликация и сжатие максимизируют коэффициент сокращения данных. 

На рисунке показан общий принцип обработки:

1. Когда пользователь записывает данные, алгоритм адаптивной дедупликации идентифицирует данные, подходящие для потоковой дедупликации, на основе характеристик данных и непосредственно выполняет потоковую дедупликацию..

2. Алгоритм адаптивной дедупликации идентифицирует данные, подходящие для дедупликации на основе подобия, на основе характеристик данных, вычисляет похожие отпечатки (SFP) и добавляет SFP в таблицу возможностей дедупликации на основе подобия. Затем система сжимает пользовательские данные, записывает сжатые данные в пул хранения и возвращает сообщение об успешном выполнении.

3. Задача фоновой дедупликации - находить похожие данные в таблице возможностей и считывать данные с дисков для дедупликации на основе сходства. После завершения дедупликации таблица отпечатков обновляется.

      Основные концепции SmartDedupe и SmartCompression заключаются в следующем:


      • Размер блока данных дедупликации: определяет степень детализации данных, которые будут дедуплицированы в системе хранения.
      • Размер блока данных сжатия: определяет степень детализации данных, которые будут сжаты в системе хранения.
      • Дедупликация на основе подобия: система делит данные на блоки фиксированного размера и анализирует сходство между блоками. Затем система выполняет дедупликацию идентичных блоков данных и выполняет комбинированное сжатие похожих блоков данных.
      • Отпечаток: отпечаток представляет собой двоичное число фиксированной длины. В системе хранения все сопоставления между отпечатками блоков данных и местами хранения данных хранятся в таблице отпечатков.
      • Подобный отпечаток (SFP): определяет сходство данных. Если две части данных имеют один и тот же SFP, содержимое этих двух частей данных будет частично или полностью одинаковым.
      • Градиентный отпечаток (GFP): часть данных может быть похожа на несколько частей других данных и, следовательно, может иметь несколько SFP. Чтобы во время дедупликации преимущественно обрабатывались отпечатки с высокой степенью сходства, система также записывает GFP для описания сходства данных при расчете SFP.
      • Карта возможностей: сохраняет отпечатки и информацию о местоположении блоков данных, а также идентифицирует горячие данные
      • Побайтовое сравнение: когда система хранения ищет повторяющиеся блоки данных, она сравнивает отпечатки блоков данных. Если отпечатки совпадают, система побайтно сравнивает блоки данных.
      • Метаданные дедупликации: сохраняет информацию о дедупликации. Например, метаданные сохраняют информацию об отпечаткахблоков данных и местах хранения данных после выполнения дедупликации.


      На рисунке показан процесс дедупликации по принципу подобия: 

      Шаг 1:

      1. Система хранения делит вновь записанные данные на блоки. Размер запроса приложения, установленный в файловой системе, является размером блока.

      2. Система хранения использует аналогичный алгоритм отпечатков для расчета SFP и GFP новых блоков данных.

      3. Система хранения записывает блоки данных на диски и записывает отпечатки и информацию о местоположении блоков данных в таблицу возможностей.

      Шаг 2:

      1. Система хранения периодически проверяет наличие SFP в таблице возможностей.

      если да, то осуществляется переход на пункт 2 

      если нет, то осуществляется повторение проверки.

      2. Система хранения проверяет, являются ли похожие блоки данных одинаковыми, на основе побайтового сравнения.

      Если да, то система хранения считает новый блок данных избыточным и удаляет его. Затем система хранения указывает отпечаток и место хранения нового блока данных на существующий в таблице отпечатков.

      Если нет, система хранения выполняет комбинированное сжатие нового блока данных, записывает его отпечаток в таблицу отпечатков, обновляет отпечаток до метаданных блока данных и освобождает место для хранения блока данных. 


      Например, файловая система 1, файловая система 2 и файловая система 3 в системе хранения имеют одинаковый размер запроса приложения и статус включения SmartDedupe и SmartCompression. В таблице 1 перечислены существующие блоки данных в файловой системе 1, файловой системе 2 и файловой системе 3, а также результаты сравнения между новыми блоками данных J, K и L в файловой системе 1 и существующими блоками данных.


      Имя файловой системы
      Существующие блоки данных
      Характеристики нового блока данных
      File system 1
      Блоки  A, B, и C
      SFP блока данных J хранится в таблице возможностей. Блок данных J совпадает с блоком данных E при побайтовом сравнении.
      SFP блока данных K хранится в таблице возможностей. Блок данных K отличается, но подобен блоку данных I при побайтовом сравнении.
      Отпечаток блока данных L не найден в таблице возможностей.
      File system 2
      Блоки D, E, и F
      -
      File system 3
      Блоки G, H, и I
      -

      На рисунке показаны результаты дедупликации при включенном и выключенном алгоритме SmartDedupe:




      SmartCompression


      Системы хранения поддерживают встроенное сжатие. Если функция SmartCompression включена для файловой системы при создании файловой системы, система хранения будет сжимать все данные, записываемые в файловую систему.

      На рисунке показаны результаты компрессии данных:



      Ещё по теме

      Huawei Dorado Cloud Backup

      Huawei Dorado Cloud Backup

      Система управления сетью Huawei iMaster NCE-Fabric

      Система управления сетью Huawei iMaster NCE-Fabric

      Huawei OceanStor Dorado 5000\6000

      Huawei OceanStor Dorado 5000\6000


      Прокомментировать

      Внимание: HTML не поддерживается! Используйте обычный текст.
          Плохо           Хорошо