[Python] Proof of concept per un programma di scansione duplicati.

Enrico Bianchi enrico.bianchi a ymail.com
Ven 21 Giu 2013 22:20:45 CEST


On 06/20/2013 08:43 PM, Marco Beri wrote:
> Io credo che, al tuo posto, guarderei solo le dimensioni e l'md5 per 
> quelle uguali.

Non solo, per un lavoro del genere e` meglio affidarsi a:

  - Dimensione;
  - Creation time;
  - Modification time;
  - MD5.

Alla prima scansione salverei tutti i dati su db (a tal proposito, 
consiglio PostgreSQL o Firebird per un discorso di parallelismo delle 
attivita` con multiprocessing), dal secondo giro in poi controllerei se 
il file esiste, se l'mtime e la dimensione sono cambiati e, infine, se 
l'MD5 e` gia` stato registrato (in caso affermativo, potrei pensare 
anche di fare degli hard link). Un processo del genere lo uso per 
verificare i file che devo porre sotto backup (in teoria uso solo l'MD5, 
ma comunque mi salvo anche questi dettagli)

Enrico


Maggiori informazioni sulla lista Python