[Python] Domanda facile facile su caso manipolazione unicode
Marco Ippolito
ippolito.marco a gmail.com
Gio 29 Gen 2015 11:18:30 CET
> ma se sono notizie prese da internet, l'encoding dovresti già saperlo
> dall'html.
> Che sorgenti di dati hai?
L'articolo in questione è questo:
http://www.ilsole24ore.com/art/english-version/2014-05-29/signs-of-light-the-credit-darkness-032044.shtml?uuid=ABJTc3LB
Ma la domanda che mi pongo è se sia possibile trovare un modo per
individuare l'encoding utilizzato, indipendentemente dalla tipologia
di fonte dell'informazione.
Cioè in questo caso l'articolo è una pagina html...ma se fosse un pdf
dello stesso articolo?
chardet sarebbe utile, magari insieme ad altri tool di encoding detection?
Maggiori informazioni sulla lista
Python