[Python] Domanda facile facile su caso manipolazione unicode

Marco Ippolito ippolito.marco a gmail.com
Gio 29 Gen 2015 11:18:30 CET


> ma se sono notizie prese da internet, l'encoding dovresti già saperlo
> dall'html.
> Che sorgenti di dati hai?
L'articolo in questione è questo:
http://www.ilsole24ore.com/art/english-version/2014-05-29/signs-of-light-the-credit-darkness-032044.shtml?uuid=ABJTc3LB

Ma la domanda che mi pongo è se sia possibile trovare un modo per
individuare l'encoding utilizzato, indipendentemente dalla tipologia
di fonte dell'informazione.
Cioè in questo caso l'articolo è una pagina html...ma se fosse un pdf
dello stesso articolo?
chardet sarebbe utile, magari insieme ad altri tool di encoding detection?


Maggiori informazioni sulla lista Python