Kodowanie kaszubskojęzycznych stron internetowych - jaki kod wybrać?

Tagi:, — Marek Kwidziński @ 9:42 po południu 12 październik 2002

Tekst ten ma ułatwić redagowanie kaszubskojęzycznych stron internetowych.
Przedstawię dwie - moim zdaniem najlepsze - możliwości prezentacji kaszubskojęzycznych tekstów w internecie.

Marek Kwidziński (grudzień 2002)

Spis treści:

I.Zestawienie kaszubskich “ogonków” w iso - 8859-1, iso - 8859-2, utf-8 jak i alternatywnym zapisie html.

II. Unicode - Standard dla języka kaszubskiego.
1. Początek strony w utf - 8.
2. Jak pisać?
3. Przykład

III. ISO-8859-2 ( ISO-Latin-2 )
1. Początek strony w iso-8859-2.
2. Jak pisać?
- Zestawienie alternatywnego zapisu kaszubskich “ogonków” html.
3. Przykład

Tab. 1 - Kaszubskie “ogonki” w : iso - 8859-1, iso - 8859-2, utf-8 jak i alternatywnym zapisie html.

HTML 4.0

ISO-8859-1 ISO-8859-2 HTML - Alt. UNICODE
Ą - ¡ - Ą
ą - ± - ą
à à - à Ã
ã ã - ã ã
É É É É É
é é é é é
Ë Ë Ë Ë Ë
ë ë ë ë ë
Ł - £ - Ł
ł - ³ - ł
Ń - Ñ - Ń
ń - ñ - ń
Ò Ò - Ò Ò
ò ò - ò ò
Ó Ó Ó Ó Ó
ó ó ó ó ó
Ô Ô Ô Ô Ô
ô ô ô ô ô
Ù Ù - Ù Ù
ù ù - ù ù
Ż - ¯ - Ż
ż - ¿ - ż

II. Unicode ( utf - 8 )

Unicode - standard dla stron kaszubskojęzycznych (i nie tylko :-) ).
Obsługuje on wszystkie kaszubskie znaki (patrz: tabela pierwsza), co ułatwia pisanie jak i publikację stron internetowych.
Wszystkie przeglądarki od wersji 4.0 prezentuja kodowane w nim strony poprawnie. (*)

1. Początek strony

<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”>
<html>
<head>
<meta http-equiv=”Content-Type” content=”text/html; charset=utf-8“>
</head>
</html>

2. Jak pisać?

Sam kod utf-8, dzięki pełnemu poparciu kaszubskich znaków, umożliwia ich późniejszą czytelną prezentację w sieci. Wielką jego zaletą jest też możliwość prezentacji stron w językach mieszanych, co w przypadku prac kaszuboznawczych (występujących m.in. w : polskim, niemieckim, czy też rosyjskim) wydaje się być kolejnym argumentem przemawiającym za nim.
Nie oznacza to jednak, ze nie można stosować alternatywnego zapisu z tabeli drugiej, czy też numerycznego zapisu utf-8 z tabeli pierwszej.
Od momentu pojawienia sie w sieci kaszubskiego edytora tekstów KaszED, publikowanie tekstów w języku kaszubskim przestało być “ekwilibrystyką”. Program ten umożliwia zapisywanie plików tekstowych w utf-8, które to można po zakończonej pracy najzwyczajniej w świecie “wkleić” do części kodu html.

3.Przykład

Chcecie na stronie kodowanej w utf-8, napisać : Naji ùczbë.

Początek
<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”>
<html>
<head>
<meta http-equiv=”Content-Type” content=”text/html; charset=utf-8″>
<title>Tytuł</title>
<body>
Miejsce na wasz tekst: Naji ùczbë. (**)
</body>
</head>
</html>
Koniec strony

(*) To, że starsze (poniżej wersji 4.x) jak i tekstowe przeglądarki mają problemy w prezentacji stron kodowanych w utf-8, jest napewno mankamentem, nie wolno jednak o tym zapomnieć, iż nie ma innej alternatywy na czytelne dla nich strony kaszubskojęzyczne.

(**) Nie oznacza to jednak, ze nie można stosować poniższych zapisów:

Naji &ugrave;czb&euml; czy Naji &#249;czb&#235; które to w przeglądarkach wyglądają jak “zwyczajnie” zapisany tekst.

Naji ùczbë - w html jak: Naji &ugrave;czb&euml;
Naji ùczbë - w html jak: Naji &#249;czb&#235;

III. ISO-8859-2 ( ISO - Latin - 2 )

Kod iso-8859-2 (zwany też iso-latin-2) nie zawiera wszystkich kaszubskich znaków (patrz: tabela pierwsza) , nie przedstawia to jednak wielkiego problemu w prezentacji kaszubskojęzycznych stron internetowych. Dzięki alternatywnemu zapisowi brakujących znaków (i nie tylko tych) można i w tym html-kodzie przedstawić poprawnie napisane strony kaszubskojęzyczne.

1. Początek strony

<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”>
<html>
<head>
<meta http-equiv=”Content-Type” content=”text/html; charset=iso-8859-2“>
</head>
</html>
Koniec strony

2. Jak pisać?

a. Litery spójne z polskimi jak: ą, ł, ń, ó, ż - należy wpisać “normalnie” - z klawiatury
b. Kaszubskie “ogonki” - różniące się od polskich- jak: Ã, ã, É, é, Ë, ë, Ò, ò, Ù, ù   jak i wspólną z polskim alfabetem literę Ó , ó.
zapiszcie w HTML tak jak w tabeli drugiej:

Tab. 2 - Alternatywny zapis kaszubskich “ogonków” w html. 

à &Atilde;
ã &atilde;
É &Eacute;
é &eacute;
Ë &Euml;
ë &euml;
Ò &Ograve;
ò &ograve;
Ó &Oacute;
ó &oacute;
Ù &Ugrave;
ù &ugrave;

3.Przykład:

Chcecie, na stronie kodowanej w iso-8859-2, napisac :  Naji ùczbë

Początek już znacie

<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”>
<html>
<head>
<meta http-equiv=”Content-Type” content=”text/html; charset=iso-8859-2″>
<title> Miejsce na tytuł waszej strony</title>
<body>
A tu na wasz tekst, którego zapis będzie wygladał następująco: Naji &ugrave;czb&euml;.
</body>

</head>
</html>

Koniec strony

Uwaga ! ! !

Jak czytaliście wyżej (tabela pierwsza) część kaszubskich znaków jest zawarta w tabeli iso-8859-1 (ã, ò, ù) , poprzez to, a może i z innej przyczyny, tak zapisany tekst jest błednie itnterpretowany przez niektóre starsze przeglądarki.
Tak jest napewno z Netscapem i Operą niżej wersji 6.0 .
Zastępowanie znaków kaszubskich nie zawartych w iso-8859-2 zapisem numerycznym unicodu (pominąłem to celowo w tekście) niczego nie zmienia - takie strony są tak samo dla tych przeglądarek nieczytelne, jak te z “zapisem alternatywnym”.

Warto pamiętać !

1. Netscape 4x używany jest jeszcze przez niektórych internautów.
W związku z tym nie polecam publikacji stron kaszubskojęzycznych w kodzie iso-8859-2, jak i w iso-8859-1, którego możliwości zapisu tu celowo pominąłem, choć jest taki też możliwy (zastępowanie nie zawartych w danym kodzie znaków tymi z utf-8 wydaje mi się bardzo niespójne i nielogiczne). Podobnie ma się to też do Opery do wersji 5x.

2. Netscape 4x, 5x podobnie jak i w IE4x do IE 6.0 cechuje “problematyczna” kompatybilność ze standardami ustalonymi przez World Wide Web Consortium. Jedyny wyjątek z rodziny IE stanowi wersja 5.5 i to, żeby bylo śmieszniej, tylko i wyłącznie ta na MAC’a  :-)

Uwaga : Standardy są lepsze i nie są wymyślane w celu kopmlikacji, tylko ku poprawie komunikacji w sieci !!!