El descontrolado crecimiento de datos de nuestros usuarios provocan más de un dolor de cabeza a los administradores de sistemas de nuestras empresas. Además, el alto precio de los discos duros no ayuda en absoluto a poder solucionar este problema. Por este motivo, cada vez más fabricantes de cabinas o servidoras incorporan en sus catálogos esta opción de deduplicación y compresión.
¿Qué son y cómo afectan a ti datacenter?
Compresión
Se el proceso de reducción de tamaño de cada elemento de datos. No todas las datos pueden ser comprimidas como, por ejemplo, el audio o el vídeo. Sin embargo, el texto se comprime perfectamente. El desafío es que no hay ninguna manera de averiguar exactamente cómo las datos van a ser comprimidos hasta que no lo sean realmente.
Existen dos modos de comprimir las datos de tu datacenter:
In-line Compression o Compresión en tiempo real
- Requiere una gran cantidad de CPU.
- Deviene un proceso que consume bastante tiempo en la CPU, por lo
- Reducimos el espacio de disco necesitado.
Post-Process Compression o Compresión diferida
- Primero escribe las datos en el disco y más tarde volverá a leer las datos para iniciar el proceso de compresión.
- Se requieren IOPS adicionales a la primera escritura para ser leídos y comprimidos.
- Se requiere de CPU después de la primera escritura y para el proceso de compresión.
- Se requieren más IOPS en los discos para la escritura una vez las datos están comprimidas.
- Reducimos el espacio de disco necesitado.
Deduplicación
La deduplicación se una técnica especial de optimización de datos para eliminar copias duplicadas o repetidas de datos con el objetivo de optimizar al máximo el espacio de almacenamiento utilizado. Los chunks (o pedazos de datos) son identificados y guardados durante el proceso de análisis. Muchos sistemas deduplican en alguna fase del ciclo de vida de las datos. Por definición, la deduplicación ocurre después de algún evento.
Deduplicación inline o deduplicación en tiempo real
- Conlleva una penalización del rendimiento en todas las operaciones E/S. Necesita CPU y recursos de memoria.
- Las datos primero están escritas por la aplicación en el servidor y después son tratadas. Por último, transferidos a la SAN o discos locales.
- Sistema de Backup: las datos primero son escritas en el servidor/almacenamiento, previo a ser copiadas y deduplicadas al appliance de backup.
- Se reducirá el espacio de disco necesitado.
Post-Process Deduplication o Deduplicación diferida:
- Primero las datos son escritas en disco, y se programa una tarea para que a una hora en concreto, todas las datos escritas entre tarea y tarea, sean deduplicadas.
- Requiere de espacio suficiente para mover las datos durante el proceso de deduplicacion
- Necesita IOPS adicionales para leer todas las nuevas datos, deduplicar y finalmente volver a escribir las datos deduplicadas.
Hiperconvergencia Simplivity
El único fabricante del mercado capaz de aprovechar las ventajas de la deduplicación y la compresión de las datos en tiempo real y sin penalizar el menor rendimiento del sistema es SimpliVity. Y todo es posible gracias al diseño de una solución basada en una tarjeta aceleradora llamada Omnistack Accelerator Card.
Cono SimpliVity un bloque de datos es escrito, comprimido y optimizado una única vez y nunca más volverá a ser reescrito o duplicado en el sistema. Así se garantiza una máxima eficiencia de datos en todos los niveles de rendimiento (DRAM, Flash/SSD y HDD).
¿Quieres recibir más información sobre cómo tu empresa puede beneficiarse de SimpliVity?