[Python] Domanda facile facile su caso manipolazione unicode

Simone Federici s.federici a gmail.com
Gio 29 Gen 2015 11:45:27 CET


Ok ho detto encoding?
e ti sto facendo incartare.

L'enconding di quella pagina è utf-8 quindi è corretto

prova a sottoporre al testo

print u"\n".join([u"%s -> %s" % (c, unicodedata.category(c)) for c in
tuo_testo_unicode if unicodedata.category(c) not in ['Ll', 'Lu', 'Zs',
'Nd']])

ti conviene trattare con alcune categorie tipo:
Ps Punctuation, Open
Pe Punctuation, Close
Pi Punctuation, Initial quote (may behave like Ps or Pe depending on usage)
Pf Punctuation, Final quote (may behave like Ps or Pe depending on usage)
ftp://ftp.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.html

ad esempio fai un replace di questi caratteri con l'apostrofo e amen.
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.python.it/pipermail/python/attachments/20150129/832cacfb/attachment-0001.html>


Maggiori informazioni sulla lista Python