[Python] Proof of concept per un programma di scansione duplicati.
Enrico Bianchi
enrico.bianchi a ymail.com
Ven 21 Giu 2013 22:20:45 CEST
On 06/20/2013 08:43 PM, Marco Beri wrote:
> Io credo che, al tuo posto, guarderei solo le dimensioni e l'md5 per
> quelle uguali.
Non solo, per un lavoro del genere e` meglio affidarsi a:
- Dimensione;
- Creation time;
- Modification time;
- MD5.
Alla prima scansione salverei tutti i dati su db (a tal proposito,
consiglio PostgreSQL o Firebird per un discorso di parallelismo delle
attivita` con multiprocessing), dal secondo giro in poi controllerei se
il file esiste, se l'mtime e la dimensione sono cambiati e, infine, se
l'MD5 e` gia` stato registrato (in caso affermativo, potrei pensare
anche di fare degli hard link). Un processo del genere lo uso per
verificare i file che devo porre sotto backup (in teoria uso solo l'MD5,
ma comunque mi salvo anche questi dettagli)
Enrico
Maggiori informazioni sulla lista
Python