El descontrolado crecimiento de datos de nuestros usuarios provocan más de un dolor de cabeza a los administradores de sistemas de nuestras empresas. Además, el alto precio de los discos duros no ayuda en absoluto a poder solucionar este problema. Por este motivo, cada vez más fabricantes de cabinas o servidores incorporan en sus catálogos esa opción de deduplicación y compresión.
¿Qué son y cómo afectan a tu datacenter?
Compresión
Es el proceso de reducción de tamaño de cada elemento de datos. No todos los datos pueden ser comprimidos como, por ejemplo, el audio o el vídeo. Sin embargo, el texto se comprime perfectamente. El desafío es que no hay ninguna manera de averiguar exactamente como los datos van a ser comprimidos hasta que no lo sean realmente.
Existen dos modos de comprimir los datos de tu datacenter:
In-line Compression o Compresión en tiempo real
- Requiere de una gran cantidad de CPU.
- Esdeviene un proceso que consume bastante tiempo en la CPU, por lo
- Reducimos el espacio de disco necesitado.
Post-Process Compression o Compresión diferida
- Primero escribe los datos en el disco y más tarde volverá a leer los datos para iniciar el proceso de compresión.
- Se requieren IOPS adicionales a la primera escritura para ser leídos y comprimidos.
- Se requiere de CPU después de la primera escritura y para el proceso de compresión.
- Se requieren más IOPS en los discos para la escritura una vez los datos son comprimidos.
- Reducimos el espacio de disco necesitado.
Deduplicación
La deduplicación es una técnica especial de optimización de datos para eliminar copias duplicadas o repetidas de datos con el objetivo de optimizar al máximo el espacio de almacenamiento utilizado. Los chunks (o pedazos de datos) son identificados y guardados durante el proceso de análisis. Muchos sistemas deduplican en alguna fase del ciclo de vida de los datos. Por definición, la deduplicación ocurre después de algún evento.
Deduplicación inline o deduplicación en tiempo real
- Comporta una penalización del rendimento en todas les operaciones E/S. Necesita CPU y recursos de memoria.
- Los datos primero son escritos por la aplicación al servidor y después son tratados. Finalmente, transferidos a la SAN o discos locales.
- Sistema de Backup: los datos primero son escritos al servidor/almacenamiento, previo a ser copiados y deduplicados al appliance de backup.
- Se reducirá el espacio de disco necesitado.
Post-Process Deduplication o Deduplicación diferida:
- Primero los datos son escritos en disco, y se programa una tarea para que a una hora en concreto, todos los datos escritos entre tarea y tarea, sean deduplicados.
- Requiere de espacio suficiente para mover los datos durante el proceso de deduplicacion
- Necesita IOPS adicionales para leer todos los nuevos datos, deduplicar y finalmente volver a escribir los datos deduplicados.
Hiperconvergencia Simplivity
El único fabricante del mercado capaz de aprovechar las ventajas de la deduplicación y la compresión de los datos en tiempo real y sin penalizar el más mínimo rendimiento del sistema es SimpliVity. Y todo es posible gracias al diseño de una solución basada en una tarjeta aceleradora llamada Omnistack Accelerator Card.
Con SimpliVity un bloque de datos es escrito, comprimido y optimizado una única vez y nunca más volverá a ser reescrito o duplicado en el sistema. Así se garantiza una máxima eficiencia de datos a todos los niveles de rendimiento (DRAM, Flash/SSD y HDD).
¿Quieres recibir más información sobre cómo tu empresa puede beneficiarse de SimpliVity?