商品簡介
Hadoop est largement utilis?pour le stockage massif de donn嶪s distribu嶪s. M瘱e s'il est hautement tol廨ant aux pannes, 憝olutif et fonctionne sur du mat廨iel standard, il ne fournit pas de solution de stockage de donn嶪s efficace et optimis嶪. Lorsque l'utilisateur t幨嶰harge des fichiers avec le m瘱e contenu dans Hadoop, celui-ci stocke tous les fichiers dans HDFS (Hadoop Distributed File System), m瘱e si le contenu est identique, ce qui entra螽e une duplication du contenu et donc un gaspillage d'espace de stockage. La d嶮uplication des donn嶪s est un processus qui permet de r嶮uire la capacit?de stockage requise, car seules les instances uniques de donn嶪s sont stock嶪s. Le processus de d嶮uplication des donn嶪s est largement utilis?dans les serveurs de fichiers, les syst鋗es de gestion de bases de donn嶪s, le stockage de sauvegarde et de nombreuses autres solutions de stockage. Une strat嶲ie de d嶮uplication appropri嶪 permet d'utiliser de mani鋨e optimale l'espace de stockage disponible sur des p廨iph廨iques de stockage limit廥. Hadoop ne fournit pas de solution de d嶮uplication des donn嶪s. Dans le cadre de ce travail, le module de d嶮uplication a 彋?int嶲r?dans le cadre Hadoop afin d'optimiser le stockage des donn嶪s.