Převod starých souborů WordPerfect do moderních formátů: Praktický průvodce

WordPerfect byl kdysi dominantní platformou pro zpracování textu v podnicích, právních kancelářích i akademických institucích. Přestože program stále existuje, většina organizací přešla na Microsoft Word, Google Docs nebo open‑source kancelářské balíky. Realitou je však, že nespočet starých souborů .wpd leží na sdílených discích, v archivních krabicích nebo na záložních páscích a často obsahují smlouvy, spisy nebo výzkumné práce, které jsou právně či historicky důležité. Převod těchto dokumentů bez ztráty formátování, vložených objektů nebo metadat není triviální úkol. Tento návod vás provede kompletním pracovním postupem – od posouzení zdrojové kolekce po ověření finálního výstupu – se zaměřením na zachování věrnosti a zajištění dlouhodobé přístupnosti.

1. Porozumění výzvám při převodu WordPerfect

WordPerfect používá proprietární binární rozvržení, které se výrazně liší od struktury Office Open XML používané v DOCX nebo specifikací PDF. Nejčastější překážky jsou:

  • Náhrada písem – WordPerfect vkládá metriky písem místo samotných souborů písem. Když na hostiteli převodu chybí původní typy, engine je může nahradit výchozími písmy, což mění zalomení řádků a stránkování.
  • Komplexní funkce rozvržení – Zóny záhlaví/zápatí, více‑sloupcové sekce, poznámky pod čarou a podmíněná textová pravidla mohou naivní převaděče interpretovat nesprávně, což vede k špatně umístěnému obsahu.
  • Vložené objekty – OLE objekty (např. grafy Excel, diagramy Visio) jsou uloženy jako binární blob. Některé převodní nástroje je nedokážou extrahovat nebo vykreslit, což vede ke ztrátě informací.
  • Makra a skripty – Makro jazyk WordPerfect (WPM) je mimo nativní prostředí zřídkavě podporován. Převod dokumentu, který spoléhá na obsah generovaný makry, vyžaduje samostatnou strategii.
  • Mezery v metadatech – Starší verze WordPerfect ukládají autora, datum vytvoření a historii revizí do proprietárních polí. Během převodu mohou být tyto informace zahozeny, pokud nástroj neprovádí mapování na standardní Dublin Core nebo vlastnosti Office Open XML.

Včasné rozpoznání těchto úskalí zabraňuje nákladnému opravnému zásahu později v migračním řetězci.

2. Příprava zdrojových souborů na převod

Disciplínovaná přípravná fáze snižuje rizika a umožňuje opakovatelné kroky převodu.

2.1 Inventarizace a kategorizace

Vytvořte tabulkový soubor, který uvádí každý .wpd soubor, jeho velikost, datum poslední úpravy a případný známý kontext použití (např. právní smlouva, marketingová brožura). Označování souborů podle priority pomáhá rozdělit zdroje: vysoce rizikové právní dokumenty vyžadují manuální kontrolu, zatímco hromadné noviny lze zpracovat dávkově.

2.2 Konsolidace písem

Shromážděte původní soubory písem použité v dokumentech. Pokud jsou písma proprietární, zvažte licencování náhrad, které odpovídají vizuálním metrikám. Nainstalujte tato písma na pracovní stanici pro převod; většina převaděčů se vrátí k prvnímu shodnému písmu, které najde.

2.3 Záloha před transformací

Nikdy nepracujte přímo na originálních archivech. Zkopírujte celou kolekci na dedikovaný převodový disk. To poskytuje bezpečnostní síť pro případ neočekávané korupce.

2.4 Vyčištění nadbytečných souborů

Odstraňte duplicitní nebo zastaralé .wpd soubory. Spuštěním nástroje pro hledání duplicit v inventáři lze zmenšit pracovní zátěž o 10‑20 % a snížit náklady na úložiště.

3. Výběr cílového formátu(ů)

Optimální výstupní formát závisí na následném scénáři využití.

  • DOCX – Nejlepší, když bude dokument nadále editován v Office nebo Google Workspace. DOCX zachovává většinu strukturálních prvků (styly, tabulky, komentáře) a podporuje sledování změn.
  • PDF/A‑2 – Ideální pro archivaci. PDF/A eliminuje závislost na externích písmenech jejich vložením a zakazuje aktivní obsah, čímž zaručuje pouze‑pro‑čtení reprezentaci.
  • ODT – Užitečné pro organizace upřednostňující open‑source ekosystémy jako LibreOffice.
  • HTML5 – Když bude obsah publikován na webu nebo intranetu, převod na čistý, sémantický HTML zachovává hierarchii nadpisů a umožňuje snadné stylování.

V mnoha projektech se používá duální výstup: DOCX pro budoucí úpravy a PDF/A pro shodu a dlouhodobé uložení.

4. Výběr převodního motoru

Existují tři široké kategorie převodních nástrojů:

KategorieTypické nástrojeSilné stránkySlabé stránky
Nativní export z WordPerfectWordPerfect 12‑14 (uložit jako .docx, .pdf)100 % věrnost rozvržení pro podporované funkceVyžaduje licencovanou Windows kopii WordPerfect; omezená automatizace
Specializovaný konverzní softwareAble2Extract, Zamzar Desktop, UniDOCDávkové zpracování, skriptovatelné API, podpora vložených objektůMůže špatně interpretovat komplexní rozvržení; náklady na licence
Cloud‑based převodníkyconvertise.app, CloudConvert, Zamzar (online)Žádná lokální instalace, škálovatelnost, API přístupZávislost na internetovém připojení; nutnost ověřit soulad s ochranou soukromí

Pro velký, citlivý archiv se dobře osvědčí hybridní přístup: použijte lokálně nainstalovanou instanci WordPerfect (nebo licencovanou zkušební verzi) pro nejnáročnější soubory a pro zbytek se přepněte na cloudovou službu, např. convertise.app. Convertise zpracovává soubory zcela v prohlížeči, pokud je to možné, což zajišťuje, že zdroj nikdy neopustí uživatelův počítač – klíčový faktor při práci s důvěrnými právními smlouvami.

5. Detailní pracovní postup převodu

Níže je opakovatelný, krok‑za‑krokem proces, který lze po výběru nástrojů zautomatizovat.

5.1 Automatický předkontrolní skript (příklad PowerShell)

# Prohledej složku na .wpd soubory a vytvoř CSV zprávu
Get-ChildItem -Path "E:\LegacyWPD" -Recurse -Filter *.wpd |
Select-Object FullName, Length, LastWriteTime |
Export-Csv -Path "E:\ConversionReport\wpd_inventory.csv" -NoTypeInformation

Výsledný CSV se předá dávkovému motoru, což umožní označit soubory nad určitou velikost (>5 MB) k ruční revizi.

5.2 Dávkový převod pomocí Convertise CLI (hypotetické)

# Předpokládáme, že convertise poskytuje CLI wrapper nazvaný cs-cli
cs-cli batch \
  --input "E:/LegacyWPD/**/*.wpd" \
  --output-format docx \
  --output-dir "E:/Converted/DOCX" \
  --log "E:/ConversionReport/batch_log.txt"

CLI zachovává původní časové razítka a zapisuje kontrolní součet (SHA‑256) pro každý výstupní soubor. Tyto hash hodnoty tvoří základ pozdější verifikace.

5.3 Generování PDF/A (pomocí LibreOffice v headless režimu)

libreoffice --headless --convert-to pdf:writer_pdf_Export --outdir "E:/Converted/PDF" "E:/Converted/DOCX/*.docx"
# Post‑process s Ghostscriptem pro vynucení shody s PDF/A‑2
for f in E:/Converted/PDF/*.pdf; do
  gs -dPDFA -dBATCH -dNOPAUSE -sProcessColorModel=DeviceRGB \
     -sDEVICE=pdfwrite -sOutputFile="${f%.pdf}_pdfa.pdf" "$f"
 done

Tento dvoustupňový přístup zaručuje, že výsledné PDF splňují archivní standardy.

5.4 Validace a kontrola kvality

  1. Porovnání kontrolních součtů – Ověřte, že zdrojový soubor nebyl během převodu změněn, tím, že potvrdíte, že před‑konverzní hash odpovídá hash souboru s doprovodnými metadaty.
  2. Vizuální výběrová kontrola – Náhodně vyberte 5 % převedených dokumentů. Otevřete je ve Word/LibreOffice a porovnejte počet stránek, konzistenci záhlaví/zápatí a zarovnání tabulek.
  3. Audit metadat – Extrahujte vlastnosti pomocí exiftool nebo pdfinfo a ujistěte se, že autor, datum vytvoření a klíčová slova jsou zachována. Pokud některá pole chybí, skript je může doplnit z původního inventárního CSV.

6. Zpracování vložených objektů a maker

6.1 Extrakce OLE objektů

WordPerfect ukládá OLE objekty jako binární proudy. Nástroje jako Ole2Extract je dokáží před převodem vyjmout. Po extrakci je můžete znovu vložit do cílového dokumentu ručně nebo pomocí makra.

6.2 Práce s makry WordPerfect

Protože WPM makra nejsou přenosná, nejbezpečnější cesta je spustit makro v prostředí WordPerfect, exportovat vzniklý obsah jako statický dokument (např. PDF) a poté převést tento statický výstup. Pokud makro generuje pouze text, zvažte reprodukci logiky v jednoduchém Python skriptu, který zpracuje surový .wpd soubor pomocí knihovny jako python‑wpd (pokud je k dispozici).

7. Zachování a mapování metadat

Standardní pole metadat, která přežijí převod, zahrnují:

  • Titledc:title (PDF) nebo coreProperties.title (DOCX)
  • Authordc:creator / coreProperties.author
  • Subject/Keywordsdc:description / coreProperties.subject
  • Creation/Modification Datesdcterms:created / dcterms:modified

Když převodní nástroj tyto pole ztratí, lze je po‑zpracovat a znovu vložit. Příklad pro DOCX pomocí python‑docx:

from docx import Document
import csv, datetime
from pathlib import Path

metadata = {row['filename']: row for row in csv.DictReader(open('wpd_inventory.csv'))}
for file in Path('E:/Converted/DOCX').glob('*.docx'):
    doc = Document(str(file))
    meta = metadata.get(file.name, {})
    doc.core_properties.title = meta.get('title', '')
    doc.core_properties.author = meta.get('author', '')
    if meta.get('created'):
        doc.core_properties.created = datetime.datetime.fromisoformat(meta['created'])
    doc.save(str(file))

8. Dávková automatizace pro velké kolekce

Když archiv obsahuje desítky tisíc souborů, systém založený na frontě, např. RabbitMQ nebo AWS SQS, může orchestracovat pracovníky, kteří asynchronně provádějí kroky převodu. Každý pracovník získá zprávu s cestou k souboru, spustí převodní pipeline, zapíše výsledek do výstupního bucketu a publikuje událost úspěchu/selhání. Tento design poskytuje:

  • Škálovatelnost – Přidáním dalších pracovníků se rychle vyřeší zádrhel ve frontě.
  • Odolnost vůči chybám – Selhané úlohy lze automaticky opakovat.
  • Auditovatelnost – Každá zpráva obsahuje jedinečný identifikátor; logy jsou centralizovány pro soulad s požadavky na reportování.

9. Ochrana soukromí a soulad s předpisy

I když jsou mnohé staré soubory WordPerfect interní, některé mohou obsahovat osobní údaje (PII) nebo chráněné zdravotní informace (PHI). Před odesláním jakéhokoli souboru do cloudu se ujistěte, že:

  1. Rezidenci dat – Služba zpracovává soubory ve stejné jurisdikci jako vaše organizace.
  2. End‑to‑End šifrování – Soubor je šifrován během přenosu (TLS) a pokud možno i v klidu během krátké doby zpracování.
  3. Žádné trvalé úložiště – Ověřte, že poskytovatel neuchovává kopie po dokončení převodu. Convertise.app například soubory po konverzi okamžitě zahodí.

Pokud soubor nesplňuje tyto podmínky, provádějte převod lokálně.

10. Archivní uložení převedených aktiv

Po úspěšném převodu uložte výsledky podle vaší politiky uchovávání záznamů. Doporučená hierarchie:

ArchiveRoot/
├── Original_WPD/        # Pouze‑pro‑čtení, neměnná záloha
├── DOCX_Editable/       # Pro budoucí úpravy
├── PDF_A_Archive/       # Dlouhodobé, pouze‑pro‑čtení
└── Metadata/            # CSV zprávy, kontrolní součty, auditní logy

Pro vrstvu PDF/A použijte úložiště typu WORM (Write‑Once‑Read‑Many), aby se zabránilo náhodným změnám. Aplikujte deduplikaci, abyste ušetřili místo, a zároveň zachovejte integritu kontrolních součtů.

11. Časté úskalí a jejich řešení

PříznakPravděpodobná příčinaOprava
Chybějící písma, posunutý textPísmo není nainstalováno nebo neodpovídá metrikámNainstalujte přesnou verzi původního písma, nebo použijte mapu substituce písem v nastavení převodníku
Tabulky se rozpadnou na prostý textPřevaděč nepozná WordPerfect značkování tabulekPředzpracujte .wpd pomocí „Export as RTF“ ve WordPerfect a pak převádějte RTF na DOCX, což zachová strukturu tabulek
Poznámky pod čarou zmizíStyl poznámek není podporován v cílovém formátuAktivujte volbu „Preserve footnotes“ v konvertoru; alternativně převádějte nejprve na PDF a poté na DOCX pomocí OCR‑extrakce poznámek
Vložený Excel‑graf se změní na statický obrázekOLE objekt není parsovánExtrahujte OLE samostatně, převádějte zdrojový Excel soubor a poté jej znovu vložte do cílového dokumentu
Kontrolní součet se po převodu neshodujeSoubor byl během převodu upraven (např. konverze koncových znaků řádku)Použijte režim převodu, který zachovává binární integritu (např. volba „Exact copy“), nebo proveďte post‑konverzní binární diff k potvrzení, že změny jsou jen zamýšlené

12. Budoucí zajištění konvertovaného korpusu

Jakmile jsou dokumenty uloženy v otevřených, dobře zdokumentovaných formátech (DOCX, PDF/A, ODT), riziko budoucí nečitelnosti dramaticky klesá. Pro posílení tohoto stavu:

  • Validace vůči standardům – Spusťte nástroje pro ověření PDF/A (veraPDF) a validátory schématu DOCX.
  • Pravidelná obnova úložného média – Přesuňte data na novější úložnou technologii každých 5‑7 let.
  • Uchování převodního receptu – Uložte přesné příkazy řádku, verze nástrojů a použité balíky písem. Tento recept umožní opětovné vytvoření, pokud dojde k aktualizaci renderovacího enginu v downstream systémech.

Přístup k převodu starých souborů WordPerfect jako k disciplinovanému projektu migrace dat – s kompletní inventarizací, kontrolovaným nástrojem, automatizovanou validací a robustním archivováním – umožňuje organizacím odemknout desetiletí cenného obsahu bez ztráty vzhledu nebo souladu s předpisy. Ať už zvolíte plně lokální řešení nebo využijete nástroj respektující soukromí, jako je convertise.app, principy zde popsané udržují proces transparentní, opakovatelné a auditovatelné.