Entradas

La deduplicacion el almacenamiento virtual eficiente 1

La palabra Deduplicación se está poniendo de moda en todos los catálogos de cabinas de almacenamiento. Se está convertiendo en la funcionalidad más buscada. Por mucho que los fabricantes de discos digan que el coste por GB es muy bajo, la realidad es que el almacenamiento sigue siendo muy caro. Cuanto más podamos ahorrar en él, mejor.

¿Qué es la Deduplicación?

En mi anterior artículo, hablo sobre qué es y cómo afecta a nuestras máquinas la Deduplicación. Resumiendo, un almacenamiento deduplicado contiene una colección de bloques únicos y conjuntos de metadatos que permiten a estos bloques ser identificados y representados en un sistema informático. Estos bloques son los que componen cada una de nuestras VMs (Máquinas Virtuales), las cuales en gran mayoría no son más que ficheros de disco.

Los metadatos

Simplificando conceptualmente, los metadatos son una lista de qué bloques únicos de datos son los necesarios para construir la VM. En el almacenamiento tradicional, cada bloque de información de cada VM ocupa un bloque de espacio en el disco, haciendo que este contenga muchísimos bloques duplicados que podrían ser optimizados. Un almacenamiento deduplicado guarda únicamente un bloque único de cada, reduciendo considerablemente el espacio necesario y brindando a los administradores de sistemas mucho más espacio disponible. Esto supone un ahorro de coste para la empresa. Y es que, al final, vuestro clúster de VMs son decenas de clones de una plantilla de una VM con un Windows 2012 R2 instalado, modificados y adaptados a cada una de las funciones de vuestros servicios.

simplivity-1

La Deduplicación de Simplivity

SimpliVity crea un sistema de ficheros basado en estos metadatos. Cuando la VM hace una escritura o lectura, lo primero que hace es consultar dicha lista para comprobar si existe este bloque y/o dónde se encuentra realmente en el disco. Si el bloque existe, no se escribe. Sólo actualizamos los metadatos. Si no existe, entonces lo escribe en el almacenamiento.

simplivity-3

Normalmente, los metadatos son un fichero de texto con una tabla de punteros a los bloques que lo identifican. Por lo tanto, ocupan un espacio en disco que varía según el tamaño de datos que representa. Por ejemplo: un vmdisk de una VM es un fichero de 100 GB lleno de datos, pero que en realidad solo ocupan 25 GB en bloques únicos y 10 MB en metadatos (ojo, los números son inventados. ¡No son reales!) Esta combinación de bloques únicos y los metadatos es lo que realmente necesitamos almacenar en nuestros discos para representar un vmdisk en instante concreto de su vida.

simplivity-2

La clonación de una VM en un almacenamiento deduplicado

En un sistema de almacenamiento deduplicado, clonar una VM es tan simple como hacer una copia de los metadatos. Éstos devienen punteros a bloques de datos únicos que ya han sido almacenados y no hay necesidad alguna de volverlos a almacenar. Eso significa que para realizar una copia de nuestra VM de 100 GB, solo es necesario copiar los 10 MB de metadatos, que además en un nodo de SimpliVity, están almacenados en los discos SSD. Dicha operación de lectura/escritura es prácticamente instantánea. Con esto, podemos realizar un número considerable de clonados de VMs en apenas segundos.  Por este motivo, para entornos VDI con creación de máquinas, eliminamos el tan temido bootstorm del inicio de la jornada laboral.

A priori pensaréis, «no necesito un sistema capaz de clonar una VM 100 por minuto y, a no ser que administre el CPD de una multinacional con centenares de usuarios conectándose a sus VDIs a las 8:00, dudo mucho que esto me sea relevante». Pero vamos a mirarlo desde otro punto de vista.

¿Qué supone tener un entorno virtualizado con 100 VMs?

Tienes un entorno virtualizado con 100 VMs y no puedes hacer nada más que una copia entera de cada una de ellas en un horario nocturno. Todo es debido a las limitaciones de las ventanas temporales que nos dan a los administradores de TI.

¿Y si deseara hacer un backup varias veces al día de estas 100 VMs?

Para un almacenamiento deduplicado, un backup y un clonado son exactamente lo mismo. Por lo tanto, podemos hacer tantos backups de nuestro entorno como queramos. Al final, el impacto en volumen de almacenamiento es mínimo. Además, el impacto en el rendimiento de las máquinas, aún menos!

Esto abre un mundo de posibilidades a los administradores de tareas, rompiendo el concepto tradicional de los backups. Ahora puedes hacer copias de los sistemas de ficheros varias veces al día. Si un usuario comete alguna imprudencia (recuerda lo dañino que está siendo CryptoLocker, Ramsonwares, etc), tienes un punto de recuperación muy cercano. Así, se minimiza los daños al sistema con un rollback a apenas minutos antes del desastre. Esto te permite restaurar, si deseas, un único archivo; ¡no toda una VM!

El almacenamiento virtual de Simplivity

Lo más importante de la propuesta de SimpliVity es que el sistema ha sido diseñado desde 0 exclusivamente para ser eficiente. Por este motivo, la Deduplicación se aplica nada más se realiza en la escritura del dato. Todas estas tareas con los metadatos (comprobar bloques duplicados, escrituras, lecturas, etc,) son absorbidas por la Tarjeta Aceleradora Omnistack de SimpliVity. En este caso, elimina el impacto en las VM de producción. Gracias a un sistema de ficheros bien diseñado, se obtiene toda esta “magia” de SimpliVity.

Deduplicacion vs compresion

El descontrolado crecimiento de datos de nuestros usuarios provocan más de un dolor de cabeza a los administradores de sistemas de nuestras empresas. Además, el alto precio de los discos duros no ayuda en absoluto a poder solucionar este problema. Por este motivo, cada vez más fabricantes de cabinas o servidores incorporan en sus catálogos esa opción de deduplicación y compresión.

¿Qué son y cómo afectan a tu datacenter?

Compresión

Es el proceso de reducción de tamaño de cada elemento de datos. No todos los datos pueden ser comprimidos como, por ejemplo, el audio o el vídeo. Sin embargo, el texto se comprime perfectamente. El desafío es que no hay ninguna manera de averiguar exactamente como los datos van a ser comprimidos hasta que no lo sean realmente.

Existen dos modos de comprimir los datos de tu datacenter:

In-line Compression o Compresión en tiempo real

inline-compression

  • Requiere de una gran cantidad de CPU.
  • Esdeviene un proceso que consume bastante tiempo en la CPU, por lo
  • Reducimos el espacio de disco necesitado.

Post-Process Compression o Compresión diferida

post-processing-compression

  • Primero escribe los datos en el disco y más tarde volverá a leer los datos para iniciar el proceso de compresión.
  • Se requieren IOPS adicionales a la primera escritura para ser leídos y comprimidos.
  • Se requiere de CPU después de la primera escritura y para el proceso de compresión.
  • Se requieren más IOPS en los discos para la escritura una vez los datos son comprimidos.
  • Reducimos el espacio de disco necesitado.

Deduplicación

La deduplicación es una técnica especial de optimización de datos para eliminar copias duplicadas o repetidas de datos con el objetivo de optimizar al máximo el espacio de almacenamiento utilizado. Los chunks (o pedazos de datos) son identificados y guardados durante el proceso de análisis. Muchos sistemas deduplican en alguna fase del ciclo de vida de los datos. Por definición, la deduplicación ocurre después de algún evento.

Deduplicación inline o deduplicación en tiempo real

inline-deduplication

  • Comporta una penalización del rendimento en todas les operaciones E/S. Necesita CPU y recursos de memoria.
  • Los datos primero son escritos por la aplicación al servidor y después son tratados. Finalmente, transferidos a la SAN o discos locales.
  • Sistema de Backup: los datos primero son escritos al servidor/almacenamiento, previo a ser copiados y deduplicados al appliance de backup.
  • Se reducirá el espacio de disco necesitado.

Post-Process Deduplication o Deduplicación diferida:

  • Primero los datos son escritos en disco, y se programa una tarea para que a una hora en concreto, todos los datos escritos entre tarea y tarea, sean deduplicados.
  • Requiere de espacio suficiente para mover los datos durante el proceso de deduplicacion
  • Necesita IOPS adicionales para leer todos los nuevos datos, deduplicar y finalmente volver a escribir los datos deduplicados.

Hiperconvergencia Simplivity

El único fabricante del mercado capaz de aprovechar las ventajas de la deduplicación y la compresión de los datos en tiempo real y sin penalizar el más mínimo rendimiento del sistema es SimpliVity. Y todo es posible gracias al diseño de una solución basada en una tarjeta aceleradora llamada Omnistack Accelerator Card.

Con SimpliVity un bloque de datos es escrito, comprimido y optimizado una única vez y nunca más volverá a ser reescrito o duplicado en el sistema. Así se garantiza una máxima eficiencia de datos a todos los niveles de rendimiento (DRAM, Flash/SSD y HDD).

¿Quieres recibir más información sobre cómo tu empresa puede beneficiarse de SimpliVity?

simplivity-libro-hiperconvergencia

Pida GRATIS el libro sobre la hiperconvergencia

Ya ha aprendido sobre las infraestructuras hiper convergentes y cómo funcionan. Ahora es el momento de evaluar cuidadosamente la posibilidad de aplicar este concepto en su centro de datos. Por dónde se debe empezar? ¿Qué dificultades hay que prever? Y sobre todo, cómo comprender el impacto potencial?

Es en estas preguntas donde el libro de «Gorilla Guide» sobre la implementación de infraestructuras hiperconvergentes muestra su potencial. Pasee por la selva de la infraestructura hiperconvergente. Déjese guiar por profesionales reconocidos a nivel mundial, sobre cómo trabajar con estas tecnologías y no fallar en el intento.

Sin duda, se trata de una lectura amena y realista. Es fácilmente comprensible y de lo más útil para aquel que quiera aprender más sobre hiperconvergencia.