Legacy WordPerfect‑bestanden omzetten naar moderne formaten: een praktijkgids
WordPerfect was ooit het dominante tekstverwerkingsplatform voor bedrijven, juridische kantoren en academische instellingen. Hoewel het programma nog bestaat, hebben de meeste organisaties gemigreerd naar Microsoft Word, Google Docs of open‑source suites. De realiteit is echter dat talloze legacy‑.wpd‑bestanden zich bevinden op gedeelde schijven, archiefdozen of back‑uptapes, vaak met contracten, dossiers of onderzoeksartikelen die juridisch of historisch belangrijk blijven. Het converteren van die documenten zonder verlies van opmaak, ingesloten objecten of metadata is geen triviale taak. Deze gids leidt je door een volledige workflow, van het beoordelen van de broncollectie tot het valideren van de eindoutput, met nadruk op het behouden van fideliteit en het waarborgen van langdurige toegankelijkheid.
1. De uitdagingen van WordPerfect‑conversie begrijpen
WordPerfect gebruikt een propriëtaire binaire indeling die aanzienlijk verschilt van de Office Open XML‑structuur die door DOCX of de PDF‑specificaties wordt gebruikt. De meest voorkomende obstakels zijn:
- Lettertype‑vervanging – WordPerfect legt lettertype‑metrieken vast in plaats van de lettertype‑bestanden zelf. Wanneer de oorspronkelijke lettertypen op de conversiehost ontbreken, kan de engine ze vervangen door standaardlettertypen, waardoor regeleinden en paginering veranderen.
- Complexe lay‑outfuncties – Kop‑/voettekstzones, secties met meerdere kolommen, voetnoten en conditionele tekstrules kunnen door onkundige converters verkeerd worden geïnterpreteerd, met als gevolg misplaatste inhoud.
- Ingesloten objecten – OLE‑objecten (bijv. Excel‑grafieken, Visio‑diagrammen) worden opgeslagen als binaire blobs. Sommige conversietools kunnen deze niet extraheren of weergeven, wat leidt tot verloren informatie.
- Macro’s en scripts – De macro‑taal van WordPerfect (WPM) wordt zelden ondersteund buiten de native omgeving. Het converteren van een document dat afhankelijk is van macro‑gegenereerde inhoud vereist een aparte strategie.
- Metadata‑gaten – Oudere versies van WordPerfect slaan auteur, aanmaakdatum en revisiegeschiedenis op in propriëtaire velden. Tijdens conversie kunnen deze worden weggegooid als de tool ze niet naar standaard Dublin‑Core‑ of Office Open XML‑eigenschappen mappt.
Het vroegtijdig herkennen van deze valkuilen voorkomt kostbare herwerkingen later in de migratie‑pipeline.
2. De bronbestanden voorbereiden voor conversie
Een gedisciplineerde voorbereidingsfase verkleint het risico en maakt de daaropvolgende conversiestappen reproduceerbaar.
2.1 Inventarisatie en categorisatie
Maak een spreadsheet die elke .wpd‑file opsomt, met grootte, laatste wijzigingsdatum en eventuele bekende gebruikscontext (bijv. juridisch contract, marketingbrochure). Bestanden taggen op prioriteit helpt middelen toe te wijzen: risicovolle juridische documenten verdienen handmatige controle, terwijl bulk‑type nieuwsbrieven batch‑verwerkt kunnen worden.
2.2 Lettertype‑consolidatie
Verzamel de originele lettertypebestanden die in de documenten worden gebruikt. Als de lettertypen propriëtair zijn, overweeg dan licentie‑vervangers die qua visuele metrieken overeenkomen. Installeer deze lettertypen op de conversiewerkstation; de meeste converters vallen terug op het eerst gevonden corresponderende lettertype.
2.3 Back‑up vóór transformatie
Werk nooit direct op de originele archieven. Kopieer de volledige collectie naar een dedicated conversieschijf. Dit biedt een vangnet bij onverwachte corruptie.
2.4 Overbodige bestanden opruimen
Verwijder dubbele of verouderde .wpd‑bestanden. Het uitvoeren van een duplicate‑finder op de inventaris kan de werklast met 10‑20 % verminderen en opslagkosten verlagen.
3. Het(e) doelformaat(en) kiezen
Het optimale output‑formaat hangt af van de downstream‑toepassing.
- DOCX – Het beste wanneer het document verder bewerkt zal worden in Office of Google Workspace. DOCX behoudt de meeste structurele elementen (stijlen, tabellen, opmerkingen) en ondersteunt revisies.
- PDF/A‑2 – Ideaal voor archivering. PDF/A embedt externe lettertypen en verbiedt actieve inhoud, waardoor een alleen‑leesrepresentatie gegarandeerd is.
- ODT – Handig voor organisaties die de voorkeur geven aan open‑source ecosystemen zoals LibreOffice.
- HTML5 – Wanneer de inhoud op een website of intranet wordt gepubliceerd, behoudt conversie naar schone, semantische HTML de heading‑hiërarchie en maakt eenvoudige styling mogelijk.
In veel projecten wordt een dual‑output‑benadering gehanteerd: een DOCX voor toekomstige bewerking en een PDF/A voor compliance en langdurige opslag.
4. Het conversie‑engine selecteren
Er zijn drie brede categorieën van conversietools:
| Categorie | Typische tools | Sterke punten | Zwakke punten |
|---|---|---|---|
| Native WordPerfect‑export | WordPerfect 12‑14 (opslaan als .docx, .pdf) | 100 % lay‑outfideliteit voor ondersteunde functies | Vereist gelicentieerde Windows‑kopie van WordPerfect; beperkte automatisering |
| Dedicated conversiesoftware | Able2Extract, Zamzar Desktop, UniDOC | Batch‑verwerking, scriptbare API’s, ondersteuning voor ingesloten objecten | Kan complexe lay‑outs verkeerd interpreteren; licentiekosten |
| Cloud‑based converters | convertise.app, CloudConvert, Zamzar (online) | Geen lokale installatie, schaalbaar, API‑toegang | Afhankelijk van internet‑bandbreedte; privacy‑compliance moet worden gecontroleerd |
Voor een grote, privacy‑gevoelige archief is een hybride aanpak vaak effectief: gebruik een lokaal geïnstalleerde WordPerfect‑instance (of een gelicentieerde proefversie) voor de meest complexe bestanden, en schakel uit naar een cloudservice zoals convertise.app voor het grootste deel van de eenvoudige documenten. Convertise verwerkt bestanden indien mogelijk volledig in de browser, zodat de bron nooit de machine van de gebruiker verlaat – een cruciale factor bij vertrouwelijke juridische contracten.
5. Gedetailleerde conversieworkflow
Hieronder vind je een herhaalbaar stap‑voor‑stap‑proces dat gescript kan worden zodra de tools zijn gekozen.
5.1 Geautomatiseerd pre‑check‑script (PowerShell‑voorbeeld)
# Scan een map voor .wpd‑files en genereer een CSV‑rapport
Get-ChildItem -Path "E:\LegacyWPD" -Recurse -Filter *.wpd |
Select-Object FullName, Length, LastWriteTime |
Export-Csv -Path "E:\ConversionReport\wpd_inventory.csv" -NoTypeInformation
De resulterende CSV voedt de batch‑engine, waardoor je bestanden boven een bepaalde grootte (>5 MB) kunt markeren voor handmatige controle.
5.2 Batch‑conversie via Convertise CLI (hypothetisch)
# Aangenomen dat convertise een CLI‑wrapper biedt genaamd cs-cli
cs-cli batch \
--input "E:/LegacyWPD/**/*.wpd" \
--output-format docx \
--output-dir "E:/Converted/DOCX" \
--log "E:/ConversionReport/batch_log.txt"
De CLI behoudt originele tijdstempels en schrijft een checksum (SHA‑256) voor elk output‑bestand. Deze hashes vormen de basis voor latere verificatie.
5.3 PDF/A‑generatie (met LibreOffice headless mode)
libreoffice --headless --convert-to pdf:writer_pdf_Export --outdir "E:/Converted/PDF" "E:/Converted/DOCX/*.docx"
# Post‑process met Ghostscript om PDF/A‑2‑compliance af te dwingen
for f in E:/Converted/PDF/*.pdf; do
gs -dPDFA -dBATCH -dNOPAUSE -sProcessColorModel=DeviceRGB \
-sDEVICE=pdfwrite -sOutputFile="${f%.pdf}_pdfa.pdf" "$f"
done
Deze twee‑staps‑aanpak garandeert dat de resulterende PDF’s voldoen aan archiveringsstandaarden.
5.4 Validatie en kwaliteitsborging
- Checksum‑vergelijking – Controleer dat het bronbestand niet is gewijzigd tijdens conversie door te verifiëren dat de pre‑conversie‑hash overeenkomt met de post‑conversie‑hash van het bijbehorende metadata‑bestand.
- Visuele spot‑check – Selecteer willekeurig 5 % van de geconverteerde documenten. Open ze in Word/LibreOffice en vergelijk paginatelling, kop‑/voettekstconsistentie en tabeluitlijning.
- Metadata‑audit – Extraheer eigenschappen met
exiftoolofpdfinfoen zorg dat auteur, aanmaakdatum en trefwoorden behouden blijven. Ontbrekende velden kunnen via een script worden toegevoegd vanuit de originele inventaris‑CSV.
6. Ingesloten objecten en macro’s behandelen
6.1 OLE‑objecten extraheren
WordPerfect slaat OLE‑objecten op als binaire streams. Tools zoals Ole2Extract kunnen deze voor de conversie eruit halen. Eenmaal geëxtraheerd, kun je ze handmatig of via een macro opnieuw embedden in het Doeldocument.
6.2 Omgaan met WordPerfect‑macro’s
Omdat WPM‑macro’s niet portabel zijn, is de veiligste route om de macro in een WordPerfect‑omgeving uit te voeren, de resulterende inhoud als statisch document (bijv. PDF) te exporteren en dat vervolgens te converteren. Als de macro alleen tekst genereert, overweeg dan de logica te reproduceren in een eenvoudig Python‑script dat het ruwe .wpd‑bestand verwerkt met een bibliotheek als python‑wpd (indien beschikbaar).
7. Metadata behouden en mappen
Standaard metadata‑velden die de conversie overleven zijn:
- Title →
dc:title(PDF) ofcoreProperties.title(DOCX) - Author →
dc:creator/coreProperties.author - Subject/Keywords →
dc:description/coreProperties.subject - Creation/Modification Dates →
dcterms:created/dcterms:modified
Wanneer een conversietool deze velden weggooit, kan een post‑processing stap ze opnieuw injecteren. Voorbeeld voor DOCX met python‑docx:
from docx import Document
import csv, datetime
from pathlib import Path
metadata = {row['filename']: row for row in csv.DictReader(open('wpd_inventory.csv'))}
for file in Path('E:/Converted/DOCX').glob('*.docx'):
doc = Document(str(file))
meta = metadata[file.name]
doc.core_properties.title = meta['title']
doc.core_properties.author = meta['author']
doc.core_properties.created = datetime.datetime.fromisoformat(meta['created'])
doc.save(str(file))
8. Batch‑automatisering voor grote collecties
Bevat de archief tienduizenden bestanden, dan kan een queue‑gebaseerd systeem zoals RabbitMQ of AWS SQS de workers orchestreren die de conversiepijplijn asynchroon uitvoeren. Elke worker haalt een bericht met het bestandspad, draait de conversie, schrijft het resultaat naar een output‑bucket en publiceert een succes‑/faalmelding. Deze opzet biedt:
- Schaalbaarheid – Voeg extra workers toe wanneer de queue zich opstapelt.
- Fouttolerantie – Mislukte jobs kunnen automatisch opnieuw worden geprobeerd.
- Auditing – Elk bericht bevat een unieke identifier; logs worden gecentraliseerd voor compliance‑rapportage.
9. Privacy‑ en compliance‑overwegingen
Hoewel veel legacy WordPerfect‑bestanden intern zijn, kunnen sommigen persoonsgegevens (PII) of beschermde gezondheidsinformatie (PHI) bevatten. Verstuur geen enkel bestand naar een cloudservice tenzij:
- Data‑residentie – De service verwerkt bestanden in dezelfde jurisdictie als jouw organisatie.
- End‑to‑End encryptie – Bestanden worden versleuteld tijdens transport (TLS) en, waar mogelijk, tijdens tijdelijke opslag.
- Geen persistente opslag – Controleer dat de provider geen kopieën behoudt na conversie. Convertise.app, bijvoorbeeld, verwijdert bestanden onmiddellijk nadat de conversie voltooid is.
Voldoet een bestand niet aan deze criteria, voer de conversie dan on‑premises uit.
10. Archiefopslag van de geconverteerde assets
Na een geslaagde conversie bewaar je de resultaten volgens je records‑retentiebeleid. Een aanbevolen hiërarchie:
ArchiveRoot/
├── Original_WPD/ # Alleen‑lezen, onveranderbare back‑up
├── DOCX_Editable/ # Voor toekomstige bewerking
├── PDF_A_Archive/ # Langetermijn, alleen‑lezen
└── Metadata/ # CSV‑rapporten, checksums, audit‑logs
Gebruik een WORM‑ (Write‑Once‑Read‑Many) opslaglaag voor de PDF/A‑versie om accidentele wijziging te voorkomen. Pas deduplicatie toe om ruimte te besparen terwijl checksum‑integriteit behouden blijft.
11. Veelvoorkomende valkuilen en hoe ze op te lossen
| Symptom | Waarschijnlijke oorzaak | Oplossing |
|---|---|---|
| Ontbrekende lettertypen, verschoven tekst | Lettertype niet geïnstalleerd of metrisch onjuist | Installeer exact de originele versie, of gebruik een substitutiemap in de converter‑instellingen |
| Tabellen vallen uiteen tot platte tekst | Converter herkent WordPerfect‑tabelopmaak niet | Pre‑process het .wpd met WordPerfect’s “Export as RTF” en converteer vervolgens de RTF naar DOCX, waardoor tabellen behouden blijven |
| Voetnoten verdwijnen | Voetnoot‑stijl wordt niet ondersteund in doelformaat | Schakel “Preserve footnotes” in de converter‑opties in; of converteer eerst naar PDF en vervolgens naar DOCX via OCR‑extraction voor voetnoot‑tekst |
| Ingesloten Excel‑grafiek wordt een statische afbeelding | OLE‑object wordt niet geparsed | Extraheer OLE apart, converteer de bron‑Excel‑file, en embed vervolgens opnieuw in het doel‑document |
| Checksum‑mismatch na conversie | Bestand aangepast tijdens conversie (bijv. regelsluit‑verandering) | Gebruik een conversiemodus die binaire integriteit behoudt (bijv. “Exact copy” optie) of voer een post‑conversie binary‑diff uit om enkel beoogde transformaties te bevestigen |
12. De geconverteerde collectie future‑proof maken
Zodra de documenten zich bevinden in open, goed gedocumenteerde formaten (DOCX, PDF/A, ODT), daalt het risico op toekomstige veroudering drastisch. Om dit te cementeren:
- Valideer tegen standaarden – Run PDF/A‑validatietools (veraPDF) en DOCX‑schema‑validators.
- Regelmatig opslagmedia vernieuwen – Migreer elke 5‑7 jaar naar nieuwere opslagtechnologieën.
- Conversierecept bewaren – Documenteer de exacte command‑line‑argumenten, versies van tools en gebruikte lettertype‑pakketten. Dit recept maakt hercreatie mogelijk wanneer een downstream‑systeem zijn render‑engine bijwerkt.
Door legacy WordPerfect‑conversie te benaderen als een gedisciplineerd datamigratie‑project – compleet met inventarisatie, gecontroleerde tooling, geautomatiseerde validatie en robuuste archivering – kunnen organisaties decennia aan waardevolle inhoud ontsluiten zonder afbreuk te doen aan lay‑outintegriteit of compliance. Of je nu kiest voor een volledig on‑premise oplossing of privacy‑bewuste cloud‑tools zoals convertise.app gebruikt, de hier beschreven principes houden het proces transparant, herhaalbaar en audit‑baar.