Na de laatste per e-mail binnengekomen update van Papyrus: 6.21 was het tijd voor versie 7. Op de Atari Messe in Neuss [3/4 oktober 1998] had R.O.M. logicware de nieuwe versie beschikbaar. Zoals gebruikelijk hadden Ulli Ramps en Christian Nieber de master-files [voor Atari DD of HD, maar ook voor MS-systemen niet klaar. Er bleek zelf tussen zaterdag en zondag nog een klein bugje te zijn weggewerkt! Enfin, toch weer meer dan een half uur in de rij gestaan. Wat nu echt nieuw is in versie 7 is niet goed duidelijk. Er werd geen nieuw handboek verkocht en het 'Neu in papyrus 7' beslaat een volle pagina van op het oog even belangrijke zaken. |
In een vorige aflevering heb ik al verteld hoe een Poolse tekst in Word 97 formaat [=Unicode] verwerkt kon worden met een zelf gemaakt conversie programma. Het zou niet lang duren voordat ik ook de andere richting op moest. Ik heb me echter niet gewaagd aan het 'echte' Word 97 formaat, maar ben uitgegaan wat Papyrus biedt. Papyrus geeft als export-product een 'RTF-file' [Rich Text Format] dat als er voor gezorgd is dat de goede 'codepage' vermeld staat ook weer goed aan de MS kant overkomt. Er is een aparte instellingen dialoog voor RTF waarin de verschillende 'codepages' kunnen worden ingesteld. Het exporteren van teksten gebeurt onder 'Erzeugen' en daar wordt zowel RTF als Word Office 97 aangegeven. Ik heb echter geen verschil gemerkt in het export-resultaat afgezien van de filenaam-extensie: .rtf voor de 'RTF' en .doc voor Office 97. Beide files worden even groot! |
Om te zien waar de verschillen zitten qua RTF heb ik een originele - van MSWord 97 afkomstige tekst-file bekeken. Zoals gebruikelijk bij MSWord documenten wordt er een enorme overhead/ballast meegeleverd met de file. Het gedeelte met de 'font-kleuren' e.d. heb er ik maar uitgesloopt. Alle standaard-fonts: Arial, Times New Roman, Courier New, worden nog eens uitgesplitst. Dit is volledig overbodig omdat alles in één font-file [b.v.Arial] zit en omdat duidelijk was gekozen voor Windows 1250 bij het opstellen van de tekst. In de RTF-file is dat te zien als 'ansicpg1250'. Papyrus herkent een door MSWord 97 als RTF-file geëxporteerde tekst niet standaard als zodanig! Je moet in Papyrus vreemd genoeg toch opgegeven dat je Windows 1250 verwacht. Omdat ik andere fonts in Papyrus gebruik gaat iets van de originele opmaak verloren maar daar zit ik niet echt mee. Als 'font' was in het origineel 'f22' ofwel 'Arial CE' gekozen. Dat heb ik niet d.w.z. ik heb precies hetzelfde font dat ook onder Windows wordt gebruikt alleen MSWord houdt z'n gebruikers voor het lapje door te doen alsof het aparte files zijn. Waarschijnlijk ook omdat in het RTF-formaat [door M$ overigens ontwikkeld] geen rekening is gehouden met ISO10646 / Unicode, maar slechts met diverse 'codepages' van 0-255! Bij het exporteren maakt het kennelijk niet uit of RTF of WordOffice 97 'erzeugt' wordt. In de header wordt als 'codepage' 'cpg1250' opgeslagen en niet 'ansicpg1250' zoals in het origineel voor Windows 1250', ISO-8859-2 opgeven bij export geeft 'cpg912'. Beide export-files worden naderhand door Papyrus automatisch ingelezen en goed geinterpreteerd. In de onder 'Belegung' te vinden ISO88952.MAP file is ook in de kop het nummer 912 terug te vinden: |
CHARSET-NAME=ISO 8859-2 (Latin-2, Eastern Europe) CHARSET-NAME-GERMAN=ISO 8859-2 (Lateinisch 2, Osteuropa) CODEPAGE-NUMBER=912 EXPLANATION=Suited for (at least) Albanian, Czech, Hungarian, Polish, EXPLANATION=Rumanian, (Serbo-)Croatian, Slovak and Slovene. # # Characters 20-7F are identical to ASCII (ISO 646) # Characters 80-9F are unassigned UNICODE-MAP= # 0 1 2 3 4 5 6 7 8 9 A B C D E F # ============================================================================== A0: A0 104 2D8 141 A4 13D 15A A7 A8 160 15E 164 179 AD 17D 17B B0: B0 105 2DB 142 B4 13E 15B 2C7 B8 161 15F 165 17A 2DD 17E 17C C0: 154 C1 C2 102 C4 139 106 C7 10C C9 118 CB 11A CD CE 10E D0: 110 143 147 D3 D4 150 D6 D7 158 16E DA 170 DC DD 162 DF E0: 155 E1 E2 103 E4 13A 107 E7 10D E9 119 EB 11B ED EE 10F F0: 111 144 148 F3 F4 151 F6 F7 159 16F FA 171 FC FD 163 2D9
Het resultaat is een kort Poolse gedicht van Krzysztof Daukszewicz over 'Europa'. We zien al gauw een aantal verschillen qua codering tussen Windows 1250 en ISO 8859-2 b.v.:
Win1250 ISO-8859-2 decimaal letterteken Unicode [hex] \'9c \'b6 156 182 s met aigue 15B \'b9 \'b1 185 177 a met ogonek 105 \'9f \'bc 159 188 z met aigue 17A
De '9c' e.d. zijn hexadecimale notaties voor de posities binnen de 0-255 reeks. |
Fragmenten uit de originele RTF-file
{\rtf1\ansi\ansicpg1250\uc1
\deff0\deflang1033\deflangfe1033{\fonttbl
|
{\f1 Krzysztof Daukszewicz \ldblquote Dobranoc Europo\rdblquote
|
Vanuit Papyrus 7 als RTF geëxporteerd met charset ISO-8859-2
{\rtf1\ansi{\fonttbl{\f1\fnil\cpg912 Arial;}
|
\f1\par
|
Uit Papyrus 7 geëxporteerd met codepage Windows 1250
{\rtf1\ansi{\fonttbl{\f1\fnil\cpg1250 Arial;}
|
Tu nawet dzieci siedz\'b9 na walizkach\par
|