[Python] Proof of concept per un programma di scansione	duplicati.
    Enrico Bianchi 
    enrico.bianchi a ymail.com
       
    Ven 21 Giu 2013 22:20:45 CEST
    
    
  
On 06/20/2013 08:43 PM, Marco Beri wrote:
> Io credo che, al tuo posto, guarderei solo le dimensioni e l'md5 per 
> quelle uguali.
Non solo, per un lavoro del genere e` meglio affidarsi a:
  - Dimensione;
  - Creation time;
  - Modification time;
  - MD5.
Alla prima scansione salverei tutti i dati su db (a tal proposito, 
consiglio PostgreSQL o Firebird per un discorso di parallelismo delle 
attivita` con multiprocessing), dal secondo giro in poi controllerei se 
il file esiste, se l'mtime e la dimensione sono cambiati e, infine, se 
l'MD5 e` gia` stato registrato (in caso affermativo, potrei pensare 
anche di fare degli hard link). Un processo del genere lo uso per 
verificare i file che devo porre sotto backup (in teoria uso solo l'MD5, 
ma comunque mi salvo anche questi dettagli)
Enrico
    
    
       
       Maggiori informazioni sulla lista 
	       Python