[Python] Aiuto per testi su machine learning e graph clustering

Ven 1 Giu 2012 09:12:33 CEST

Il giorno 31 maggio 2012 22:49, Diego Barrera <diegonebarrera a yahoo.it> ha
scritto:

> Io ho risolto in questo modo:
> -prendo ciascun campo e mi ricavo lo slug;
> -trovo la sottostringa massima comune degli slug che sto confrontando, per
> ciascun campo;
> -a questo punto se il valore percentuale della sottostringa rispetto allo
> slug supera per ciascun campo una soglia minima stabilita, i due
> destinatari sono lo stesso destinatario
>

invece che la sottostringa di lunghezza massima potresti prendere la
distanza di Levenshtein fra le due stringhe:

http://en.wikipedia.org/wiki/Levenshtein_distance

puoi valutare se nel tuo caso sia più significativa.

Puoi implementarti l'algoritmo o usare uno di quelli già disponibili
Googlando ho trovato i seguenti (che non ho verificato):

http://en.wikibooks.org/wiki/Algorithm_implementation/Strings/Levenshtein_distance#Python

http://code.activestate.com/recipes/576874-levenshtein-distance/

Marco
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.python.it/pipermail/python/attachments/20120601/265ba9c1/attachment-0001.html>