Discussion:
comparaison de fichier par clés de hash ?
(trop ancien pour répondre)
ptilou
2011-10-17 17:21:39 UTC
Permalink
Bonsoir,

J'ai de nombreux fichiers en double dans mon "home", et souhaite supprimer les doublettes.
Y a t'il une âme charitable pour me faire un script ou me dire si il en existe un sur cpam ?
Donc je souhaite une boucle qui écrit les clés de hash de chaque fichier, puis une autre qui les comparent, et enfin une qui supprime les doublettes, voir dans certain cas les triplettes.
J’espère que je suis claire ?
Je n'arrive même pas à faire un "hello the word", merci d'être compréhensif ...

Merci pour votre aide

Ptilou

PS : Pour perl j'utilise Debian ou mac os x 10.4.11 !
Xavier
2011-10-17 18:25:25 UTC
Permalink
Post by ptilou
J'ai de nombreux fichiers en double dans mon "home", et souhaite supprimer les doublettes.
http://search.cpan.org/~tommy/File-Util-3.27/Util.pod
http://search.cpan.org/~dmuey/Digest-MD5-File-0.07/File.pm

Une récursion et c'est bon.
--
XAv
In your pomp and all your glory you're a poorer man than me,
as you lick the boots of death born out of fear.
(Jethro Tull)
Stephane CHAZELAS
2011-10-17 18:32:07 UTC
Permalink
2011-10-17, 10:21(-07), ptilou:
[...]
Post by ptilou
J'ai de nombreux fichiers en double dans mon "home", et
souhaite supprimer les doublettes. Y a t'il une âme charitable
pour me faire un script ou me dire si il en existe un sur cpam
? Donc je souhaite une boucle qui écrit les clés de hash de
chaque fichier, puis une autre qui les comparent, et enfin une
qui supprime les doublettes, voir dans certain cas les
triplettes. J’espère que je suis claire ? Je n'arrive même pas
à faire un "hello the word", merci d'être compréhensif ...
[...]
Post by ptilou
PS : Pour perl j'utilise Debian ou mac os x 10.4.11 !
Pourquoi reinventer la roue ?

$ apt-cache search duplicate\ file
fdupes - identifies duplicate files within given directories
fslint - A utility to fix problems with filesystems' data, like duplicate files
rdfind - find duplicate files utility
simhash - generate similarity hashes to find nearly duplicate files
--
Stephane
Emmanuel Florac
2011-10-17 20:24:25 UTC
Permalink
Post by ptilou
Merci pour votre aide
Tiens, voici une version améiorée par moi d'un script trouvé ailleurs
(perlmonks sûrement).

http://pastebin.com/DJcQmutx

Le script recherche les doublons par hachage et propose de les effacer.
J'ai apporté les améliorations suivantes :
1° ignore les liens symboliques (pour d'évidentes raisons)
2° ajouter l'option -d permet de supprimer tous les doublons d'un coup
après une confirmation globale quand même (dangereux! mais pratique)
--
Ce qu'il y a d'enivrant dans le mauvais goût c'est le plaisir
aristocratique de déplaire.
C. Baudelaire.
ptilou
2011-10-18 10:13:07 UTC
Permalink
Bonjour,
Post by Emmanuel Florac
Post by ptilou
Merci pour votre aide
Tiens, voici une version améiorée par moi d'un script trouvé ailleurs
(perlmonks sûrement).
http://pastebin.com/DJcQmutx
Le script recherche les doublons par hachage et propose de les effacer.
1° ignore les liens symboliques (pour d'évidentes raisons)
2° ajouter l'option -d permet de supprimer tous les doublons d'un coup
après une confirmation globale quand même (dangereux! mais pratique)
J'ai essayé, sa m'élimine pas toutes les doublettes, mais celle qui ne sont pas éliminé, porte un nom différent genre fichier+(1) ...
Y a t'il une solution pour ces doublettes ?

Merci

Ptilou

Loading...