Home Papyrus Papyrus 6 Papyrus 7 and its UTF - Papyrus interne Unicode

Papyrus 7

Na de laatste per e-mail binnengekomen update van Papyrus: 6.21 was het tijd voor versie 7. Op de Atari Messe in Neuss [3/4 oktober 1998] had R.O.M. logicware de nieuwe versie beschikbaar. Zoals gebruikelijk hadden Ulli Ramps en Christian Nieber de master-files [voor Atari DD of HD, maar ook voor MS-systemen niet klaar. Er bleek zelf tussen zaterdag en zondag nog een klein bugje te zijn weggewerkt! Enfin, toch weer meer dan een half uur in de rij gestaan.

Wat nu echt nieuw is in versie 7 is niet goed duidelijk. Er werd geen nieuw handboek verkocht en het 'Neu in papyrus 7' beslaat een volle pagina van op het oog even belangrijke zaken.

In een vorige aflevering heb ik al verteld hoe een Poolse tekst in Word 97 formaat [=Unicode] verwerkt kon worden met een zelf gemaakt conversie programma. Het zou niet lang duren voordat ik ook de andere richting op moest. Ik heb me echter niet gewaagd aan het 'echte' Word 97 formaat, maar ben uitgegaan wat Papyrus biedt. Papyrus geeft als export-product een 'RTF-file' [Rich Text Format] dat als er voor gezorgd is dat de goede 'codepage' vermeld staat ook weer goed aan de MS kant overkomt. Er is een aparte instellingen dialoog voor RTF waarin de verschillende 'codepages' kunnen worden ingesteld. Het exporteren van teksten gebeurt onder 'Erzeugen' en daar wordt zowel RTF als Word Office 97 aangegeven. Ik heb echter geen verschil gemerkt in het export-resultaat afgezien van de filenaam-extensie: .rtf voor de 'RTF' en .doc voor Office 97. Beide files worden even groot!


Om te zien waar de verschillen zitten qua RTF heb ik een originele - van MSWord 97 afkomstige tekst-file bekeken. Zoals gebruikelijk bij MSWord documenten wordt er een enorme overhead/ballast meegeleverd met de file. Het gedeelte met de 'font-kleuren' e.d. heb er ik maar uitgesloopt. Alle standaard-fonts: Arial, Times New Roman, Courier New, worden nog eens uitgesplitst. Dit is volledig overbodig omdat alles in één font-file [b.v.Arial] zit en omdat duidelijk was gekozen voor Windows 1250 bij het opstellen van de tekst. In de RTF-file is dat te zien als 'ansicpg1250'.

Papyrus herkent een door MSWord 97 als RTF-file geëxporteerde tekst niet standaard als zodanig! Je moet in Papyrus vreemd genoeg toch opgegeven dat je Windows 1250 verwacht. Omdat ik andere fonts in Papyrus gebruik gaat iets van de originele opmaak verloren maar daar zit ik niet echt mee. Als 'font' was in het origineel 'f22' ofwel 'Arial CE' gekozen. Dat heb ik niet d.w.z. ik heb precies hetzelfde font dat ook onder Windows wordt gebruikt alleen MSWord houdt z'n gebruikers voor het lapje door te doen alsof het aparte files zijn. Waarschijnlijk ook omdat in het RTF-formaat [door M$ overigens ontwikkeld] geen rekening is gehouden met ISO10646 / Unicode, maar slechts met diverse 'codepages' van 0-255!

Bij het exporteren maakt het kennelijk niet uit of RTF of WordOffice 97 'erzeugt' wordt. In de header wordt als 'codepage' 'cpg1250' opgeslagen en niet 'ansicpg1250' zoals in het origineel voor Windows 1250', ISO-8859-2 opgeven bij export geeft 'cpg912'. Beide export-files worden naderhand door Papyrus automatisch ingelezen en goed geinterpreteerd. In de onder 'Belegung' te vinden ISO88952.MAP file is ook in de kop het nummer 912 terug te vinden:

CHARSET-NAME=ISO 8859-2 (Latin-2, Eastern Europe)
CHARSET-NAME-GERMAN=ISO 8859-2 (Lateinisch 2, Osteuropa)
CODEPAGE-NUMBER=912
EXPLANATION=Suited for (at least) Albanian, Czech, Hungarian, Polish,
EXPLANATION=Rumanian, (Serbo-)Croatian, Slovak and Slovene.
#
# Characters 20-7F are identical to ASCII (ISO 646)
# Characters 80-9F are unassigned
UNICODE-MAP=
#      0    1    2    3    4    5    6    7    8    9    A    B    C    D    E    F
#    ==============================================================================
A0:   A0  104  2D8  141   A4  13D  15A   A7   A8  160  15E  164  179   AD  17D  17B
B0:   B0  105  2DB  142   B4  13E  15B  2C7   B8  161  15F  165  17A  2DD  17E  17C
C0:  154   C1   C2  102   C4  139  106   C7  10C   C9  118   CB  11A   CD   CE  10E
D0:  110  143  147   D3   D4  150   D6   D7  158  16E   DA  170   DC   DD  162   DF
E0:  155   E1   E2  103   E4  13A  107   E7  10D   E9  119   EB  11B   ED   EE  10F
F0:  111  144  148   F3   F4  151   F6   F7  159  16F   FA  171   FC   FD  163  2D9

Het resultaat is een kort Poolse gedicht van Krzysztof Daukszewicz over 'Europa'. We zien al gauw een aantal verschillen qua codering tussen Windows 1250 en ISO 8859-2 b.v.:

Win1250 ISO-8859-2     decimaal             letterteken       Unicode [hex]

\'9c    \'b6    156     182     s met aigue            15B
\'b9    \'b1    185     177     a met ogonek       105
\'9f    \'bc    159     188     z met aigue        17A

De '9c' e.d. zijn hexadecimale notaties voor de posities binnen de 0-255 reeks.


Fragmenten uit de originele RTF-file

{\rtf1\ansi\ansicpg1250\uc1 \deff0\deflang1033\deflangfe1033{\fonttbl
{\f0\froman\fcharset0\fprq2{\*\panose 02020603050405020304}Times New Roman;}
{\f1\fswiss\fcharset0\fprq2{\*\panose 020b0604020202020204}Arial;}
{\f2\fmodern\fcharset0\fprq1{\*\panose 02070309020205020404}Courier New;}
{\f16\froman\fcharset238\fprq2 Times New Roman CE;}
{\f17\froman\fcharset204\fprq2 Times New Roman Cyr;}
{\f19\froman\fcharset161\fprq2 Times New Roman Greek;}
{\f20\froman\fcharset162\fprq2 Times New Roman Tur;}
{\f21\froman\fcharset186\fprq2 Times New Roman Baltic;}
{\f22\fswiss\fcharset238\fprq2 Arial CE;}
{\f23\fswiss\fcharset204\fprq2 Arial Cyr;}
{\f25\fswiss\fcharset161\fprq2 Arial Greek;}
{\f26\fswiss\fcharset162\fprq2 Arial Tur;}
{\f27\fswiss\fcharset186\fprq2 Arial Baltic;}
{\f28\fmodern\fcharset238\fprq1 Courier New CE;}
{\f29\fmodern\fcharset204\fprq1 Courier New Cyr;}
{\f31\fmodern\fcharset161\fprq1 Courier New Greek;}
{\f32\fmodern\fcharset162\fprq1 Courier New Tur;}
{\f33\fmodern\fcharset186\fprq1 Courier New Baltic;}}

{\f1 Krzysztof Daukszewicz \ldblquote Dobranoc Europo\rdblquote
\par
\par Dobranoc, Europo odpoczywaj
\par }{\f22 Tobie ju\'bf potrzebny sen }{\f1
\par Wszystkiego ci przybywa
\par }{\f22 Pracowity mia\'b3a\'9c dzie\'f1}{\f1
\par A my dopiero dzi}{\f22 \'9c budzimy si\'ea }{\f1
\par Przespali}{\f22 \'9c}{\f1 my tych szans i lat za wiele
\par }{\f22 I wreszcie przysz\'b3a pora wsta\'e6 }{\f1
\par Dobranoc, Europo, moja Europo
\par Dobranoc, Europo ty id}{\f22 \'9f spa\'e6 }{\f1
\par Dobranoc, Europo, moja Europo
\par Dobranoc, Europo ty id}{\f22 \'9f spa\'e6 }{\f1
\par \par Tu nawet dzieci siedz}{\f22 \'b9}{\f1 na walizkach
\par }{\f22 By ruszy\'e6 w tw\'f3j wygodny \'9c}{\f1 wiat
\par }{\f22 Gdzie \'bfycia pe\'b3na miska
\par }{\f1 I nadzi}{\f22 eja t\'b3ustych lat
\par A do nas pierwszy promie\'f1 s\'b3o\'f1ca wpad\'b3
\par I g\'b3owy unosimy znad poduszek:
\par Czy wreszcie przysz\'b3a pora wsta\'e6?
\par }{\f1 Dobranoc, Europo, moja Europo
\par Dobranoc, Europo ty id}{\f22 \'9f spa\'e6
\par }{\f1 Dobranoc, Europo, moja Europo
\par Dobranoc, Europo ty id}{\f22 \'9f spa\'e6


Vanuit Papyrus 7 als RTF geëxporteerd met charset ISO-8859-2

{\rtf1\ansi{\fonttbl{\f1\fnil\cpg912 Arial;}
{\f2\fnil\cpg912 Classical Garamond;}
}{\stylesheet{\sbasedon222\snext0 Normal;}
{+Default Paragraph Font;}
{\s2 Plain Text;}
}\paperw12240\paperh15840\margl1319\margr1319\margt1440\margb1440\pgnstart1
\ftntj\ftnstart1\makeback\widowctrl
\sectd\pgndec\headery709\footery709\cols1\colsx567\pgndec
\s2\f2\fs24 Krzysztof Daukszewicz "Dobranoc Europo"
\par
\par
Dobranoc, Europo odpoczywaj\par
Tobie ju\'bf potrzebny sen\par
Wszystkiego ci przybywa\par
Pracowity mia\'b3a\'b6 dzie\'f1\par
A my dopiero dzi\'b6 budzimy si\'ea\par
Przespali\'b6my tych szans i lat za wiele\par
I wreszcie przysz\'b3a pora wsta\'e6\par
Dobranoc, Europo, moja Europo\par
Dobranoc, Europo ty id\'bc spa\'e6\par
Dobranoc, Europo, moja Europo\par
Dobranoc, Europo ty id\'bc spa\'e6\par

\f1\par
\par
Tu nawet dzieci siedz\'b1 na walizkach\par
By ruszy\'e6 w tw\'f3j wygodny \'b6wiat\par
Gdzie \'bfycia pe\'b3na miska\par
I nadzieja t\'b3ustych lat\par
A do nas pierwszy promie\'f1 s\'b3o\'f1ca wpad\'b3\par
I g\'b3owy unosimy znad poduszek:\par
Czy wreszcie przysz\'b3a pora wsta\'e6?\par
Dobranoc, Europo, moja Europo\par
Dobranoc, Europo ty id\'bc spa\'e6\par
Dobranoc, Europo, moja Europo\par
Dobranoc, Europo ty id\'bc spa\'e6\par


Uit Papyrus 7 geëxporteerd met codepage Windows 1250

{\rtf1\ansi{\fonttbl{\f1\fnil\cpg1250 Arial;}
{\f2\fnil\cpg1250 Classical Garamond;}
}{\stylesheet{\sbasedon222\snext0 Normal;}
{+Default Paragraph Font;}
{\s2 Plain Text;}
}\paperw12240\paperh15840\margl1319\margr1319\margt1440\margb1440\pgnstart1
\ftntj\ftnstart1\makeback\widowctrl
\sectd\pgndec\headery709\footery709\cols1\colsx567\pgndec
\s2\f2\fs24 Krzysztof Daukszewicz \'93Dobranoc Europo\'94 \par
\par Dobranoc, Europo odpoczywaj\par
Tobie ju\'bf potrzebny sen\par
Wszystkiego ci przybywa\par
Pracowity mia\'b3a\'9c dzie\'f1\par
A my dopiero dzi\'9c budzimy si\'ea\par
Przespali\'9cmy tych szans i lat za wiele\par
I wreszcie przysz\'b3a pora wsta\'e6\par
Dobranoc, Europo, moja Europo\par
Dobranoc, Europo ty id\'9f spa\'e6\par
Dobranoc, Europo, moja Europo\par
Dobranoc, Europo ty id\'9f spa\'e6\par
\f1\par
\par

Tu nawet dzieci siedz\'b9 na walizkach\par
By ruszy\'e6 w tw\'f3j wygodny \'9cwiat\par
Gdzie \'bfycia pe\'b3na miska\par
I nadzieja t\'b3ustych lat\par
A do nas pierwszy promie\'f1 s\'b3o\'f1ca wpad\'b3\par
I g\'b3owy unosimy znad poduszek:\par
Czy wreszcie przysz\'b3a pora wsta\'e6?\par
Dobranoc, Europo, moja Europo\par
Dobranoc, Europo ty id\'9f spa\'e6\par
Dobranoc, Europo, moja Europo\par
Dobranoc, Europo ty id\'9f spa\'e6\par


Copyright © Rein Bakhuizen van den Brink
Last updated on 26 december 2000

Home Papyrus Papyrus 6 Papyrus 7 and its UTF - Papyrus interne Unicode