Unicode – komputerowy
zestaw znaków
mający w zamierzeniu obejmować wszystkie
pisma
używane na świecie. Definiują go dwa
standardy
– Unicode oraz ISO 10646. Znaki obu standardów są identyczne. Standardy te różnią się w drobnych kwestiach, m.in. Unicode określa sposób
składu
.
Rozwijany jest przez
konsorcjum
, w którego skład wchodzą ważne firmy
komputerowe
,
producenci
oprogramowania
, instytuty naukowe, agencje międzynarodowe oraz grupy zainteresowanych użytkowników. Konsorcjum współpracuje z organizacją
ISO
.
Kodowanie Unicode
Standard Unicode obejmuje przydział przestrzeni numeracyjnej poszczególnym grupom znaków, nie obejmuje zaś sposobów bajtowego
kodowania znaków
. Jest kilka metod kodowania, oznaczanych skrótowcami UCS (Universal Character Set) i UTF (Unicode Transformation Format). Do najważniejszych należą:
Mniej popularnymi kodowaniami Unicode są:
Istnieją również inne kodowania, stanowiące margines lub pozostające na etapie propozycji, na przykład:
Kody pierwszych 256 znaków Unicode pokrywają się z kodami
ISO Latin 1
(czyli ISO-8859-1). Należy jednak pamiętać, że jest to zbieżność wyłącznie numerów przyporządkowanych konkretnym znakom, wartości
bajtów
użytych do ich zapisania mogą (i w większości kodowań będą) się różnić od tych, które uzyska się stosując Latin 1.
Historia standardu
Relacje do UCS
- Unicode 1.1 ISO/IEC ≈ 10646-1:1993
- Unicode 3.0 ISO/IEC ≈ 10646-1:2000
- Unicode 3.2 ISO/IEC ≈ 10646-2:2001
- Unicode 4.0 ISO/IEC ≈ 10646-3:2003
- Unicode 5.0 ISO/IEC ≈ 10646-3:2003/Amd.2:2006
- Unicode 5.1 ISO/IEC ≈ 10646-3:2003/Amd.4:2008
- Unicode 5.2 ISO/IEC ≈ 10646-3:2003/Amd.6:2009
Wprowadzanie znaków Unicode
Typowe układy
klawiatur
udostępniają tylko niewielki zbiór znaków, na przykład standardowe polskie układy klawiatury zawierają wyłącznie polskie litery i znak
euro
, nie zawierają natomiast znaków cudzysłowu. Do wprowadzania znaków nieobecnych na klawiaturze można użyć jednej z poniższych metod:
- W systemie Windows NT, Mac OS X (od wersji 10.2) oraz w licznych dystrybucjach Linuksa (ze środowiskiem graficznym) dostępna jest tablica znaków, w której można wyszukać potrzebny znak, skopiować go do schowka, a następnie wkleić w program. W Systemach Windows 95, 98 i ME tablica znaków nie daje dostępu do wszystkich znaków Unicode.
- Znając numer pozycji znaku (czy to dziesiętny, czy to szesnastkowy), można wprowadzić ten znak na kilka sposobów (nie wszystkie programy obsługują wszystkie opisane tu sposoby):
- Trzymając naciśnięty (lewy)
Alt
i wpisując z klawiatury numerycznej numer dziesiętny tego znaku, po czym zwolnić klawisz Alt.
- Wpisać numer szesnastkowy tego znaku, a następnie wcisnąć kombinację (lewy) Alt+x. Przed numerem szesnastkowym nie może być cyfra ani litera z zakresu a–f (gdyż zostaną uznane jako część kodu, ewentualnie należy poprzedzić kod np. spacją lub uzupełnić kod wiodącymi zerami, tak by liczył dokładnie sześć pozycji).
- Trzymając naciśnięty (lewy) Alt nacisnąć klawisz plus, wpisać numer szesnastkowy znaku, po czym zwolnić klawisz Alt. Metoda ta działa w systemie
Windows XP
i nowszych.
- Trzymając naciśnięte klawisze Ctrl+Shift wpisać numer szesnastkowy znaku, a następnie puścić klawisze. Metoda ta działa w środowisku
GNOME
. Od wersji
GTK+
2.10 należy nacisnąć Ctrl+Shift+u, wprowadzić kod szesnastkowy znaku, nacisnąć Enter.
Istnieją też programy do tworzenia własnych układów klawiatur, dzięki nim można podpiąć dowolny znak Unicode pod dowolną kombinację klawiszy (najczęściej wykorzystywana jest kombinacja
AltGr
+klawisz, gdzie AltGr to prawy klawisz Alt). Niektóre programy dla Windows pozwalają jedynie na wprowadzanie z klawiatury znaków istniejących jedynie w
stronie kodowej
właściwej dla języka klawiatury, np. w przypadku polskiego systemu Windows próba wpisania kombinacją AltGr+klawisz znaku nie istniejącego w stronie kodowej
Windows-1250
nie da oczekiwanego efektu. Inne ograniczenie systemu Windows dotyka znaków o numerach z zakresu 160–255. Przytrzymanie wciśniętego klawisza Alt i wpisanie trzycyfrowego numeru z tego zakresu powoduje wstawienie znaku o tym numerze ze strony kodowej DOS właściwej dla języka klawiatury (w przypadku polskiej klawiatury będzie to znak ze strony kodowej
CP852
), zaś wpisanie numeru poprzedzonego zerem – znaku ze strony kodowej Windows (w przypadku polskiej klawiatury będzie to znak ze strony kodowej
Windows-1250
).
Nazewnictwo
Rada Języka Polskiego
proponuje nazwę unikod dla każdego systemu kodyfikacji liter[3].
Przypisy
Linki zewnętrzne