/UTF-8

Z Brain-wiki
Wersja z dnia 14:37, 23 maj 2015 autorstwa Jarekz (dyskusja | edycje) (Utworzono nową stronę "= TI:WTBD/UTF-8 = W UTF-8 każdemu punktowi kodowemu z UCS odpowiada 1 do 4 bajtów (oktetów). Idea jest taka, by częściej występujące znak...")
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)

TI:WTBD/UTF-8

W UTF-8 każdemu punktowi kodowemu z UCS odpowiada 1 do 4 bajtów (oktetów). Idea jest taka, by częściej występujące znaki były reprezentowane przez jak najkrótsze sekwencje. Algorytm opisany jest tu. W szczególności, kody ASCII (do 127) kodowane są tak samo w UTF-8.

Najczęściej stosowane kodowanie w dokumentach WWW. Domyślne w większości dystrybucji Linuxa.

Jego zalety to:

  • stanowi nadzbiór ASCII
  • łatwość detekcji (rozpoznania)
  • niezależność od porządku bajtów w słowie (endianness)
  • względna ekonomia -- nieznacznie wydłużona reprezentacja tekstów pisanych alfabetami pochodnymi łacińskiego; gorszy wynik -- dla niektórych języków azjatyckich
  • możliwość reprezentowania wszystkich znaków UCS-4 a więc pisma w dowolnym języku, w tym również -- wielu systemów pisma w jednym dokumencie