HTML dokumentu kodējums

Last modified by superadmin on 2018-01-12 20:37

HTML un dokumentu kodējums

  • Simbolu repertuārs jeb alfabēts - dažādo simbolu komplekts, kurus var lietot konkrētā dokumentā. Piemēram, ASCII, latviešu burtu, unikoda alfabēti. Simbolu fontus alfabētā neņem vērā, toties vajadzības gadījumā atšķir pēc izskata vienādus, bet loģiski atšķirīgus simbolus, piemēram, latīņu A, grieķu A (jeb "Alpha"), un kiriliskais A vienmēr tiek aplūkoti kā 3 dažādi simboli.
  • Kodu tabula (code, charset) - funkcija no naturāliem skaitļiem uz simboliem no kaut kāda repertuāra.
  • Kodējums (encoding) - algoritms, kā naturālu skaitļu virkni, kuri reprezentē dokumenta simbolus, attēlot par baitu virkni. Piemēram UTF-8 un UTF-16 ir divi dažādi kodējumi Unikoda kodu tabulai.

    Īpaša nozīme Web programmēšanā ir Unikoda kodu tabulai, sk. [Unicode]. Tas ir veiksmīgs risinājums "piešķirt numurus burtiem vienalga kurā platformā, vienalga kurā programmā, vienalga kurā valodā". Latviešu valoda Internetā pārsvarā ir sastopama "windows-1257" kodējumā, tomēr, lai Web lapa būtu pietiekami universāla un latviešu valoda tajā varētu sadarboties ar citām valodām, unikods var būt labs risinājums.

    Piemēri, kā aprakstīt HTML dokumenta kodējumu:

<meta http-equiv="Content-Type"
content="text/html; charset=windows-1257">
  • "windows-1257" - latviešu valoda (Baltic Windows jeb Windows 1257)
  • "windows-1251" - krievu valoda (Cyrillic Windows)
  • "windows-1252" - Latin-1 (dažādas Rietumeiropas valodas)
  • "ISO-8859-1" - Latin-1 (ārpus Windows sistēmām)
  • "UTF-8", "UTF-16" - unikoda kodējumi

    HTML dokumentu ar tekstu fragmentiem dažādās valodās un dažādos alfabētos var veidot 2 visai atšķirīgos veidos:

  • Var lietot kādai valodu grupai optimizētu kodējumu (Baltic Windows, Cyrillic Windows, ISO-8859-1 utml.), bet visus citu valodu fragmentus, kuru burti šajā kodējumā neiekļaujas, var attēlot ar "simbolu referencēm". HTML un XML standarti ļauj kombinēt jebko ar jebko - visas lapas kodējums var būt, teiksim, arābu, bet tajā ar simbolu referencēm var iekļaut īsus fragmentus, kas pierakstīti, teiksim, ar japāņu hieroglifiem.
  • Var lietot UTF-8, kurš tāpat kā valodu grupām specifiskie kodējumi ir draudzīgs attiecībā pret ASCII simboliem (lielajiem un mazajiem latīņu burtiem), un visus ne-ASCII burtus pieraksta ar UTF-8 virknītēm.

    Jāņem vērā, ka pirmais paņēmiens (simbolu referenču lietošana) var būt visai garš un apgrūtinošs. Sk. piemēru (Jņ 3:16 tulkojumi dažādās valodās):

<h2>ENGLISH</h2>
<p>
For God so loved the world...</p>
<h2>GREEK</h2>
<p>
Διότι
τόσον
ηγάπησεν...</p>
<h2>HEBREW</h2>
<p dir="rtl">
כי־ככה
אהב
האלהים...</p>
<h2>JAPANESE</h2>
<p>
神は
そのひとり子を...</p>
<h2>LATVIAN</h2>
<p>
Jo tik ļoti Dievs pasauli mīlējis,...</p>
<h2>RUSSIAN</h2>
<p>
Ибо
так
возлюбил...</p>
#pic("HTML_Multilanguage.jpg", "400") Attēls: Daudzvalodu HTML pārlūkprogrammas logā

Daudzvalodu teksta paraugs

Tags:
Created by Kalvis Apsītis on 2008-04-19 16:26
    
This wiki is licensed under a Creative Commons 2.0 license
XWiki Enterprise 6.4 - Documentation