Deduplicação de Dados, o que é?

A deduplicação é um método muito conhecido no mercado armazenamento de dados utilizado para identificar e remover informações duplicadas e redundantes dentro um conjunto de dados único.
Deduplicação ou desduplicação de dados?
Antes de mais nada acho importante eu falar que esses dois termos são sinônimos. Podemos encontrar tanto a palavra deduplicação como desduplicação e não existe certo ou errado entre as duas. Eu particularmente prefiro o termo deduplicação já que a palavra em inglês é deduplication. Além disso vejo que a palavra deduplicação é mais amplamente utilizada e reconhecida principalmente na área de tecnologia.
Quando é importante utilizar a deduplicação?
A deduplicação de dados acaba sendo muito importante no quesito de armazenamento de dados, já que armazenar múltiplas cópias do mesmo dado ou informações idênticas além de não ter necessidade pode trazer problemas de desempenho ou até mesmo custos fora do previsto.
Tipos de Deduplicação
Existem diversos tipos de duplicação dentro do mercado de tecnologia. Vou destacar aqui os dois principais:
1. Deduplicação a Nível de Arquivo
Nesse tipo a deduplicação ocorre quando arquivos duplicados são identificados e eliminados. Normalmente isso ocorre quando o mesmo arquivo é copiado para diferentes pastas, caminhos de rede ou servidores. Sendo assim a deduplicação entra em ação e apenas uma cópia do arquivo é mantida, enquanto as outras são removidas.
2. Deduplicação a Nível de Bloco
Já nesse tipo de deduplicação, os dados duplicados são identificados e removidos em nível de bloco, ou seja, partes menores do arquivo, como por exemplo em pedaços de arquivo de texto ou de um código que se repetem. Isso é mais eficaz, pois pode identificar duplicação dentro de arquivos diferentes, não apenas em arquivos idênticos.
Appliances de Deduplicação
Existem diversos equipamentos de deduplicação dentro do mercado de tecnologia. Esses equipamentos são conhecidos como appliances e eu vou destacar os principais deles aqui:
Dell EMC Data Domain
O Data Domain é uma das soluções de deduplicação de dados mais populares do mercado. Ele fornece alta capacidade de armazenamento e um desempenho adequado em ambientes corporativos.
Características
- Alta taxa de deduplicação.
- Integração com diversos softwares de backup.
- Oferece funcionalidades de replicação e recuperação de dados.
- Capacidade de compressão e deduplicação em tempo real.
Quantum DXi
O Quantum DXi é um appliance de deduplicação de dados que oferece uma solução altamente escalável para ambientes de backup e recuperação.
Características
- Deduplicação de dados eficiente para ambientes físicos e virtuais.
- Alta escalabilidade e facilidade de gerenciamento.
- Integração com soluções de backup populares.
HP StoreOnce
O HP StoreOnce é uma plataforma de deduplicação que oferece soluções escaláveis e eficientes voltadas principalmente para backup e armazenamento de dados.
Características
- Deduplicação de dados eficiente para ambientes físicos e virtuais.
- Alta escalabilidade e facilidade de gerenciamento.
- Integração com soluções de backup populares.
IBM Spectrum Protect
Antes conhecido como Tivoli Storage Manager, o Spectrum Protect oferece deduplicação em nível de armazenamento e backup, otimizando a eficiência no gerenciamento de dados.
Características
- Deduplicação de dados em nível de bloco e de arquivos.
- Suporte para backup em nuvem híbrida e em vários dispositivos.
- Gerenciamento simplificado de grandes volumes de dados.
Exagrid
O Exagrid é uma solução de armazenamento e deduplicação de dados que se concentra em otimizar backups e reduzir a quantidade de dados armazenados, ao mesmo tempo em que proporciona alta performance na recuperação de dados.
Características
- Arquitetura Escalável
- Deduplicação Global
- Recuperação Rápida
- Replicação entre Sites
- Integração com soluções de backup populares
- Tecnologia de Landing Zone
Conclusão
A deduplicação é um ótimo recurso quando estamos falando sobre o armazenamento de backup, porém essa tecnologia deve ser utilizada e alinhada não só com o software de backup, mas também com o negócio.
De um lado a deduplicação traz excelentes resultados no consumo de armazenamento. Entretanto, do outro lado, no momento em que necessitamos da restauração de um dado deduplicado, nós precisamos passar um etápada de reidratação desse dado para ele que fique legível e disponível novamente.

Meu nome é Mateus Wolff e trabalho com TI desde 2009. Sou arquiteto de soluções de proteção de dados e tenho algumas certificações como VMCE, VCP-DCV e ITIL.
Participo do programa de reconhecimento Veeam Vanguard e sou ex membro do grupo Veeam Legends.
Também sou líder do grupo Veeam User Group Brasil.