[Python] Aiuto per testi su machine learning e graph clustering

Gio 31 Maggio 2012 22:49:16 CEST

Il 23/05/2012 20:06, Antonio Piepoli ha scritto:
> Salve a tutti,
>
Ciao,
guarda io sono un hobbista (purtroppo),
mi sento di dire la mia, che sicuramente non passa per una analisi 
approfondita e per le metodologie avanzate di cui tu parli, e che 
(purtroppo) non conosco, ma magari ti puo' dare qualche spunto.. quindi 
prendila cosi' come' ed eventualmente cestina! :)

Io ho questo problema: ho N mittenti che spediscono ciascuno ad M 
destinatari, e non ho alcuna certezza che ogni volta la ragione sociale 
e l'indirizzo siano scritti nello stesso modo....anzi!  ....un disastro :D
Il problema e' riconoscere quando due o piu' spedizioni si riferiscono 
(leggi devono essere recapitate) allo stesso destinatario, anche se i 
mittenti sono diversi e le stringhe che definiscono ragione sociale, 
indirizzo, localita' etc sono scritte in modo diverso.

Io ho risolto in questo modo:
-prendo ciascun campo e mi ricavo lo slug;
-trovo la sottostringa massima comune degli slug che sto confrontando, 
per ciascun campo;
-a questo punto se il valore percentuale della sottostringa rispetto 
allo slug supera per ciascun campo una soglia minima stabilita, i due 
destinatari sono lo stesso destinatario

Spero di non essere stato troppo contorto, ben accetti anche critiche e 
pareri.
Ciao diego

PS poi facci sapere come risolvi, che ci interessa!