/UTF-8
Z Brain-wiki
TI:WTBD/UTF-8
W UTF-8 każdemu punktowi kodowemu z UCS odpowiada 1 do 4 bajtów (oktetów). Idea jest taka, by częściej występujące znaki były reprezentowane przez jak najkrótsze sekwencje. Algorytm opisany jest tu. W szczególności, kody ASCII (do 127) kodowane są tak samo w UTF-8.
Najczęściej stosowane kodowanie w dokumentach WWW. Domyślne w większości dystrybucji Linuxa.
Jego zalety to:
- stanowi nadzbiór ASCII
- łatwość detekcji (rozpoznania)
- niezależność od porządku bajtów w słowie (endianness)
- względna ekonomia -- nieznacznie wydłużona reprezentacja tekstów pisanych alfabetami pochodnymi łacińskiego; gorszy wynik -- dla niektórych języków azjatyckich
- możliwość reprezentowania wszystkich znaków UCS-4 a więc pisma w dowolnym języku, w tym również -- wielu systemów pisma w jednym dokumencie