/UTF-8

Z Brain-wiki

TI:WTBD/UTF-8

W UTF-8 każdemu punktowi kodowemu z UCS odpowiada 1 do 4 bajtów (oktetów). Idea jest taka, by częściej występujące znaki były reprezentowane przez jak najkrótsze sekwencje. Algorytm opisany jest tu. W szczególności, kody ASCII (do 127) kodowane są tak samo w UTF-8.

Najczęściej stosowane kodowanie w dokumentach WWW. Domyślne w większości dystrybucji Linuxa.

Jego zalety to:

  • stanowi nadzbiór ASCII
  • łatwość detekcji (rozpoznania)
  • niezależność od porządku bajtów w słowie (endianness)
  • względna ekonomia -- nieznacznie wydłużona reprezentacja tekstów pisanych alfabetami pochodnymi łacińskiego; gorszy wynik -- dla niektórych języków azjatyckich
  • możliwość reprezentowania wszystkich znaków UCS-4 a więc pisma w dowolnym języku, w tym również -- wielu systemów pisma w jednym dokumencie