[Python] Usare Unicode e charset
Manlio Perillo
manlio_perillo a libero.it
Gio 3 Dic 2009 12:04:38 CET
Marco Beri ha scritto:
> 2009/12/3 Marco Mariani <marco.mariani a prometeia.it
> <mailto:marco.mariani a prometeia.it>>
>
> Stringa unicode (u'hello world'): sequenza di codepoint.
> Ci sono oltre un milione di codepoint differenti, ognuno rappresentato
> da 1 a 5-6 byte
>
>
> Quelli usati sinora sono poco più di 100.000: "In all, the Unicode
> Standard, Version 5.1 provides codes for 100,713 characters from the
> world's alphabets, ideograph sets, and symbol collections."
>
> Se non erro, però, ci potranno essere caratteri definiti fino a 8 bytes
> (ripeto: se non erro!).
>
Il range dei code point Unicode va da 0x01 a 0x10ffff, quindi massimo 6
bytes.
Il numero massimo di caratteri codificabili è quindi 1.114.111, da cui
vanno esclusi le due aree private ed i surrogate pairs.
Ciao Manlio
Maggiori informazioni sulla lista
Python