XML dokumenty používají znakovou sadu ISO 10646
21bitová znaková sada, v současné době je definováno přes 100 tisíc znaků
zcela shodné s Unicode
kódování: UTF-16 a UTF-8
UTF-16
16bitové slovo přímo obsahuje kód znaku
další téměř milión znaků je dostupných pomocí „surrogates“ – 1 znak = dvě 16bitová slova
UTF-8
text může být kódován jako sekvence bajtů
1 znak = 1 až 4 bajty
kompatibilní s ASCII
standard XML vyžaduje, aby všechny aplikace podporovaly alespoň UTF-8 a UTF-16
lze použít i jiné kódování, musí se uvést v XML deklaraci
<?xml version="1.0" encoding="iso-8859-2"?>
musí být první řádka dokumentu
znak s libovolným kódem z ISO 10646 můžeme zapsat pomocí entity
&#
(kód
;kód
je číslo v desítkové soustavě) nebo
&#x
(kód
;kód
je číslo v šestnáctkové
soustavě)