UTF-8 (8-bit UCS/Unicode Transformation Format)



8-bitine UCS/Unicode teisendusvorming Unicode’i kooditabelis leiduvate märkide kodeerimismeetod, mis kasutab märkide esitamiseks üht kuni nelja oktetti (8-bitist baiti). Üht baiti on vaja ASCII märkide kodeerimiseks (Unicode’i tabeli esimesed 128 märki U+0000 kuni U+007F). Kahe baidiga kodeeritakse Unicode’i tabeli märke U+0080 kuni U+07FF (diakriitiliste märkidega ladina tähed, sh eesti keele täpitähed, kreeka, armeenia, heebrea, araabia, süüria tähestikud ning kirillitsa ja taana (Malediividel kasutatav tähestik). Kolme baidiga kodeeritakse kõiki ülejäänud märke, mis maailmas kasutusel on, ning nelja baidiga mõningaid harvaesinevaid märke.