Home Standaarden voor lettertekens / Standards for character encoding Unicode discussiegroep Back to the future [2]

Back to the future

Niet iedereen is zo gelukkig met de weg die de ISO/Unicode is ingeslagen. Zoals twintig jaar geleden het al moeilijk was om duidelijk te maken dat het toch heel nuttig was als een printer behalve hoofdletters ook kleine letters kon printen - het was immers verspilling van kostbare computeropslag - zo is er thans ook nog steeds een grote groep die meer dan 7 bits per letter al te veel vindt. Zorg ervoor dat iedereen een Latijns schrift gebruikt en dan zijn we van het gezeur af. Goed, een paar miljard mensen die zonodig die CJK schriften moeten gebruiken, die Indische en Arabische talen schrijven die kunnen mooi gebruik maken van de 2 of meer bytes Unicode/ISO grappen. Maar de rest....

En inderdaad, op de discussielijsten voor Unicode wordt er flink gelobbied voor het inperken van wat ze daar noemen de precomposed letters.

Waarom aparte code-points [verwijzingen naar de grote Unicode letterbak] voor b.v. een 'a' met een 'accent grave' als die letter [met accent] ook 'on the fly' gemaakt kan worden door de programmatuur [zonder dat de gebruiker daar erg in heeft!]. Laat de programmatuur het maar uitzoeken dus. En als extra argument wordt dan gegeven dat het aantal code-points in de range voor de Latijnse schriften vol begint te raken en dat het niet fair is om tegen b.v. een Tsjetsjeen te zeggen 'vol is vol' terwijl de Nederlanders, Fransen , Zweden e.d. al netjes op hun wenken bediend zijn. Een ander argument is dat voor de programma's die geen font met Unicode lettertekens [glyphs] kunnen vinden er een 'fall-back' achter de hand moet worden gehouden. M.a.w. dat als de 'l+slash' voor 'Wa³êsa' niet gevonden kan worden er tenminste een 'l' wordt geproduceerd en geen '?' of zoiets.


Dat klinkt heel redelijk - als achter ieders rug om 'a+grave' wordt genoteerd als 'a'+'`' dan zijn we er toch ook? Het begint weer een beetje te lijken op de 'goede oude tijden' van rond 1980 toen ik - noodgedwongen - mijn Poolse teksten op de Digital mini-computers schreef in de vorm 'ax' als 'aogonek' bedoeld werd, 'ex' als 'eogonek' etc. Immers het Pools kende geen 'x', en met een simpele 'zoek en vervang' werden al die 'x'-combinaties later omgezet in 'a'+'backspace'+',' ; 'l'+'backspace'+'/' ; e.d. Dat ging in die tijd nog goed omdat je met de 'backspace' een stapje terug kon zodat twee tekens over elkaar heen konden worden afgedrukt. Zelfs met een 'daisywheel' ging dat goed en de afdruk-kwaliteit kwam in de buurt van die van de laserprinters nu! Toch was mijn baas al gauw zeer ontevreden. Door overmatig gebruik van de 'daisy' [toch alleen bestemd voor beleidsstukken van de afdeling!] braken er steeds vaker 'lettertjes' af.

Maar nu terug naar nu. Zorg ervoor dat de programmatuur het allemaal maar regelt... In deze zeer digitale techneutische visie zijn de meeste 'speciale tekens' niets meer dan letters met één of meer accenten die je dus kunt samenstellen [compose]. Heeft het Berbers een 'p' nodig met een 'comma' eronder dan is dat geen probleem meer... Moet er nog een 'puntje' bovenop? Een backslash er doorheen?

Het wordt lastig als er in het Latijnse schrift sprake is van tekens die geen letter+accent combinatie zijn zoals b.v. de oe-ligatuur of de sz-ligatuur. Deze laatste is dan ook al voordat het nieuwe millenium mocht beginnen officiëel de prullebak in gegooid. En hoe doen de Fransen het??


Copyright © Rein Bakhuizen van den Brink
Last updated on 21 november 2001

Home Standaarden voor lettertekens / Standards for character encoding Unicode discussiegroep Back to the future [2]