Naar aanleiding van een discussie bij de Poolse Atari discussiegroep over de nieuwe Papyrus ben ik gaan kijken hoe de Poolse lettertekens worden opgeslagen. |
After a discussion in a Polish news-group about the new Papyrus I had a closer look at how the Polish characters get stored. |
letterteken / character | hexadecimal | Unicode |
Aogonek | 82 04 | U+0104 |
aogonek | 82 05 | U+0105 |
Cacute | 82 06 | U+0106 |
cacute | 82 07 | U+0107 |
Eogonek | 82 18 | U+0118 |
eogonek | 82 19 | U+0119 |
Lslash | 82 41 | U+0141 |
lslash | 82 42 | U+0142 |
Nacute | 82 43 | U+0143 |
nacute | 82 44 | U+0144 |
Oacute | 81 53 | U+00D3 |
oacute | 81 73 | U+00F3 |
Sacute | 82 5A | U+015A |
sacute | 82 5B | U+015B |
Zacute | 82 79 | U+0179 |
zacute | 82 7A | U+017A |
Zdot | 82 7B | U+017B |
zdot | 82 7C | U+017C |
Met een beetje puzzelen volgt daar uit dat Papyrus een soort UTF-achtige wijze van codering hanteert. Met UTF wordt bedoeld de Unicode Transformation Format. Bij de Unicode / ISO 10646 notaties was oorspronkelijk uitgegaan van een 16-bit codering - in tegenstelling tot de ASCII 7-bit of de uitgebreide ASCII8-bit - met de mogelijkheid van 65536 verschillende tekens. Dit zou genoeg moeten zijn voor alle nog 'levende' talen. Maar ja, een mens is niet snel tevreden dus ook alle Quecha-knopen, muziek-notaties, verkeersborden, firma-logo's enz., enz. dienen een plek te vinden, en dan zijn 16-bits niet voldoende. Bij 16-bit wordt de benodigde ruimte voor lettertekens [we zullen het maar niet hebben over de ruimte die de andere multimediale troep opslokt!] slechts verdubbeld en dat was voor de anglosaksische wereld die eigenlijk aan 7-bits voldoende had een grove verspilling van ruimte. |
It looks like Papyrus is using a UTF-like way of coding. UTF stands for Unicode Transformation Format. The Unicode / ISO 10646 notation depends [originally] on a 16-bits coding as opposed to the 7-bit ASCII or the extended 8-bits ASCII and should provide space for some 65536 different characters. More than enough one would say for all 'living' languages. Alas, nobody gets satisfied that easily so all the traffic signs, Quecha-knots, music bars, firm logos, etc, deserve a place in Unicode space! A 16-bits coding might not be sufficient then. And although a 16-bit [or 2-byte] coding only means a doubling of storage space as far as characters are concerned [the other multimedial garbage swallows so much more space], for our anglosaxon world - that just needs 7-bits - it simply is a complete waste of space. |
Het Papyrus-UTF
Copyright © Rein Bakhuizen van den Brink Last updated on 26 december 2000 |