[Python] Aiuto per testi su machine learning e graph clustering
Diego Barrera
diegonebarrera a yahoo.it
Gio 31 Maggio 2012 22:49:16 CEST
Il 23/05/2012 20:06, Antonio Piepoli ha scritto:
> Salve a tutti,
>
Ciao,
guarda io sono un hobbista (purtroppo),
mi sento di dire la mia, che sicuramente non passa per una analisi
approfondita e per le metodologie avanzate di cui tu parli, e che
(purtroppo) non conosco, ma magari ti puo' dare qualche spunto.. quindi
prendila cosi' come' ed eventualmente cestina! :)
Io ho questo problema: ho N mittenti che spediscono ciascuno ad M
destinatari, e non ho alcuna certezza che ogni volta la ragione sociale
e l'indirizzo siano scritti nello stesso modo....anzi! ....un disastro :D
Il problema e' riconoscere quando due o piu' spedizioni si riferiscono
(leggi devono essere recapitate) allo stesso destinatario, anche se i
mittenti sono diversi e le stringhe che definiscono ragione sociale,
indirizzo, localita' etc sono scritte in modo diverso.
Io ho risolto in questo modo:
-prendo ciascun campo e mi ricavo lo slug;
-trovo la sottostringa massima comune degli slug che sto confrontando,
per ciascun campo;
-a questo punto se il valore percentuale della sottostringa rispetto
allo slug supera per ciascun campo una soglia minima stabilita, i due
destinatari sono lo stesso destinatario
Spero di non essere stato troppo contorto, ben accetti anche critiche e
pareri.
Ciao diego
PS poi facci sapere come risolvi, che ci interessa!
Maggiori informazioni sulla lista
Python