商品簡介
O Hadoop ?amplamente utilizado para armazenamento de dados massivamente distribu獮o. Embora seja altamente tolerante a falhas, escal嫛el e funcione em hardware comum, ele n緌 oferece uma solu誽o de armazenamento de dados eficiente e otimizada. Quando o utilizador carrega ficheiros com o mesmo conteo no Hadoop, ele armazena todos os ficheiros no HDFS (Hadoop Distributed File System), mesmo que o conteo seja o mesmo, o que leva ?duplica誽o de conteo e, portanto, ao desperd獳io de espa蔞 de armazenamento. A deduplica誽o de dados ?um processo que reduz a capacidade de armazenamento necess嫫ia, uma vez que apenas as inst滱cias icas de dados s緌 armazenadas. O processo de deduplica誽o de dados ?amplamente utilizado em servidores de ficheiros, sistemas de gest緌 de bases de dados, armazenamento de c鏕ias de seguran蓷 e muitas outras solu踥es de armazenamento. Uma estrat嶲ia de deduplica誽o adequada utiliza suficientemente o espa蔞 de armazenamento em dispositivos de armazenamento limitados. O Hadoop n緌 oferece uma solu誽o de deduplica誽o de dados. Neste trabalho, o m鏚ulo de deduplica誽o foi integrado na estrutura do Hadoop para obter um armazenamento de dados otimizado.