Pregunta ¿Es posible realizar la deduplicación recursivamente?


Si alguien está familiarizado con el concepto de deduplicación (si no, lea el enlace en wikipedia) http://en.wikipedia.org/wiki/Data_deduplication

¿Es posible realizar la deduplicación recursivamente, es decir, deduplicar los datos deduplicados?
  Puede llevar a un menor ahorro en términos de espacio, pero seguramente en una escala muy grande podría llevar a algunos ahorros en términos de unos pocos GB.

¿Nos preocupa la integridad de los datos? (No siendo capaz de asegurar que cuando sea devuelto a su forma original será una copia exacta del original)


0


origen




Respuestas:


Si su deduplicación se hace en base a algún tipo de bloques de datos de tamaño fijo, entonces no, la desduplicación adicional es inútil ya que usted ya guarda cada bloque idéntico solo una vez. (Los bloques pueden ser cualquier tipo de bloques lógicos que pueden o no asignarse directamente a bloques de hardware)

Si su esquema de deduplicación recursivo usa un tamaño de bloque diferente o si usa un tamaño de bloque no fijo, la deduplicación recursiva podría funcionar y podría generar más ahorros (en teoría).

Es difícil decir si alguno de los softwares de hoy soportaría esto. Mi mejor conjetura sería ZFS. Allí puede crear grupos de almacenamiento que usan archivos normales como dispositivo de almacenamiento. Estos archivos normales podrían almacenarse en un sistema ZFS donde la deduplicación está activada. Ahora tendrías deduplicación recursiva. (con muy mal desempeño)

La pregunta obvia es: ¿Qué ahorrará más espacio? Desduplicación recursiva o Compresión + Deduplicación. Y: ¿ahorrará algo la deduplicación de los datos comprimidos y deduplicados?


1



Bien dicho. Quería confirmar eso :) - Dhiwakar Ravikumar