Buscar archivos duplicados en GNU+Linux

Una forma bonita de encontrar archivos duplicados en Linux es usando find, sort, uniq y md5sum

Ejemplo:

$ find /home/fanta ! -empty -type f -exec md5sum {} + | sort | uniq -w32 -dD > /tmp/archivos-duplicados.txt

Se ha de cambiar /home/fanta por tu home. Y se ha que quitar $ ya que eso solo lo pongo para indicar que ese comando lo lanzas con un user que no es root.
Cuando pongo # suele ser para indicar que se trata de un comando que has de ejecutar como root.

Lo interesante es que vamos a ordenar los resultados por el hash de 32 dígitos en hexadecimal que obtendremos al hacerle un md5sum.

El resultado lo vamos a tener en un archivo en /tmp/ llamado archivos-duplicados.txt

Interesante a tener en cuenta

Si hacemos un echo de un hash md5 nos dirá que tiene 33 bytes:

$ echo  "916f4c31aaa35d6b867dae9a7f54270d" | wc -c
33

Pero es es mentira. La forma de hacerlo sería así:

$ echo -en "916f4c31aaa35d6b867dae9a7f54270d" | wc -c
32

El motivo es que echo por defecto meterá un retorno de carro. Esto se puede ver así:

Y eso es todo lo que quería compartir.

Un saludo cordial.

Interesante a tener en cuenta

Deja una respuesta