[Python] Usare Unicode e charset

Manlio Perillo manlio_perillo a libero.it
Gio 3 Dic 2009 12:04:38 CET


Marco Beri ha scritto:
> 2009/12/3 Marco Mariani <marco.mariani a prometeia.it
> <mailto:marco.mariani a prometeia.it>>
> 
>     Stringa unicode (u'hello world'): sequenza di codepoint.
>     Ci sono oltre un milione di codepoint differenti, ognuno rappresentato
>     da 1 a 5-6 byte
> 
> 
> Quelli usati sinora sono poco più di 100.000: "In all, the Unicode
> Standard, Version 5.1 provides codes for 100,713 characters from the
> world's alphabets, ideograph sets, and symbol collections."
> 
> Se non erro, però, ci potranno essere caratteri definiti fino a 8 bytes
> (ripeto: se non erro!).
> 

Il range dei code point Unicode va da 0x01 a 0x10ffff, quindi massimo 6
bytes.
Il numero massimo di caratteri codificabili è quindi 1.114.111, da cui
vanno esclusi le due aree private ed i surrogate pairs.


Ciao  Manlio


Maggiori informazioni sulla lista Python