Deduplicació vs. Compressió: què són?

El descontrolado crecimiento de datos de nuestros usuarios provocan más de un dolor de cabeza a los administradores de sistemas de nuestras empresas. Además, el alto precio de los discos duros no ayuda en absoluto a poder solucionar este problema. Por este motivo, cada vez más fabricantes de cabinas o servidores incorporan en sus catálogos esa opción de deduplicación y compresión.

¿Qué son y cómo afectan a tu datacenter?

Compresión

Es el proceso de reducción de tamaño de cada elemento de datos. No todos los datos pueden ser comprimidos como, por ejemplo, el audio o el vídeo. Sin embargo, el texto se comprime perfectamente. El desafío es que no hay ninguna manera de averiguar exactamente como los datos van a ser comprimidos hasta que no lo sean realmente.
Existen dos modos de comprimir los datos de tu datacenter:

In-line Compression o Compresión en tiempo real

Requiere de una gran cantidad de CPU.
Esdeviene un proceso que consume bastante tiempo en la CPU, por lo
Reducimos el espacio de disco necesitado.

Post-Process Compression o Compresión diferida

Primero escribe los datos en el disco y más tarde volverá a leer los datos para iniciar el proceso de compresión.
Se requieren IOPS adicionales a la primera escritura para ser leídos y comprimidos.
Se requiere de CPU después de la primera escritura y para el proceso de compresión.
Se requieren más IOPS en los discos para la escritura una vez los datos son comprimidos.
Reducimos el espacio de disco necesitado.

Deduplicación

La deduplicación es una técnica especial de optimización de datos para eliminar copias duplicadas o repetidas de datos con el objetivo de optimizar al máximo el espacio de almacenamiento utilizado. Los chunks (o pedazos de datos) son identificados y guardados durante el proceso de análisis. Muchos sistemas deduplican en alguna fase del ciclo de vida de los datos. Por definición, la deduplicación ocurre después de algún evento.
Deduplicación inline o deduplicación en tiempo real

Comporta una penalización del rendimento en todas les operaciones E/S. Necesita CPU y recursos de memoria.
Los datos primero son escritos por la aplicación al servidor y después son tratados. Finalmente, transferidos a la SAN o discos locales.
Sistema de Backup: los datos primero son escritos al servidor/almacenamiento, previo a ser copiados y deduplicados al appliance de backup.
Se reducirá el espacio de disco necesitado.

Post-Process Deduplication o Deduplicación diferida:

Primero los datos son escritos en disco, y se programa una tarea para que a una hora en concreto, todos los datos escritos entre tarea y tarea, sean deduplicados.
Requiere de espacio suficiente para mover los datos durante el proceso de deduplicacion
Necesita IOPS adicionales para leer todos los nuevos datos, deduplicar y finalmente volver a escribir los datos deduplicados.

Hiperconvergencia Simplivity

El único fabricante del mercado capaz de aprovechar las ventajas de la deduplicación y la compresión de los datos en tiempo real y sin penalizar el más mínimo rendimiento del sistema es SimpliVity. Y todo es posible gracias al diseño de una solución basada en una tarjeta aceleradora llamada Omnistack Accelerator Card.

Con SimpliVity un bloque de datos es escrito, comprimido y optimizado una única vez y nunca más volverá a ser reescrito o duplicado en el sistema. Así se garantiza una máxima eficiencia de datos a todos los niveles de rendimiento (DRAM, Flash/SSD y HDD).
¿Quieres recibir más información sobre cómo tu empresa puede beneficiarse de SimpliVity?