<div dir="ltr">Ok ho detto encoding?<div>e ti sto facendo incartare.</div><div><br></div><div>L'enconding di quella pagina è utf-8 quindi è corretto</div><div><br></div><div>prova a sottoporre al testo</div><div><br></div><div>print u"\n".join([u"%s -> %s" % (c, unicodedata.category(c)) for c in tuo_testo_unicode if unicodedata.category(c) not in ['Ll', 'Lu', 'Zs', 'Nd']])</div><div><br></div><div class="gmail_extra">ti conviene trattare con alcune categorie tipo:</div><div class="gmail_extra"><div class="gmail_extra">Ps<span class="" style="white-space:pre">      </span>Punctuation, Open</div><div class="gmail_extra">Pe<span class="" style="white-space:pre">  </span>Punctuation, Close</div><div class="gmail_extra">Pi<span class="" style="white-space:pre"> </span>Punctuation, Initial quote (may behave like Ps or Pe depending on usage)</div><div class="gmail_extra">Pf<span class="" style="white-space:pre">   </span>Punctuation, Final quote (may behave like Ps or Pe depending on usage)</div><div class="gmail_extra"><a href="ftp://ftp.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.html">ftp://ftp.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.html</a><br></div><div class="gmail_extra"><br></div><div class="gmail_extra">ad esempio fai un replace di questi caratteri con l'apostrofo e amen.</div><div class="gmail_extra"><br></div><div class="gmail_extra"><br></div></div></div>