TI:WTBD/UTF-8

W UTF-8 każdemu punktowi kodowemu z UCS odpowiada 1 do 4 bajtów (oktetów). Idea jest taka, by częściej występujące znaki były reprezentowane przez jak najkrótsze sekwencje. Algorytm opisany jest tu. W szczególności, kody ASCII (do 127) kodowane są tak samo w UTF-8.

Najczęściej stosowane kodowanie w dokumentach WWW. Domyślne w większości dystrybucji Linuxa.

Jego zalety to:

stanowi nadzbiór ASCII
łatwość detekcji (rozpoznania)
niezależność od porządku bajtów w słowie (endianness)
względna ekonomia -- nieznacznie wydłużona reprezentacja tekstów pisanych alfabetami pochodnymi łacińskiego; gorszy wynik -- dla niektórych języków azjatyckich
możliwość reprezentowania wszystkich znaków UCS-4 a więc pisma w dowolnym języku, w tym również -- wielu systemów pisma w jednym dokumencie

Anonimowy

Szukaj

/UTF-8

Przestrzenie nazw

Więcej

Działania na stronie

TI:WTBD/UTF-8

Nawigacja

Nawigacja

Narzędzia Wiki

Narzędzia Wiki

Anonimowy

Szukaj

/UTF-8

TI:WTBD/UTF-8

Nawigacja

Narzędzia Wiki

Narzędzia dla stron