Konverze LaTeX dokumentů pro akademické publikování

LaTeX zůstává de‑facto standardem pro vědecké rukopisy, konferenční příspěvky a diplomové práce. Jeho síla spočívá v přesném sazebním zpracování matematiky, bibliografií a složitých struktur. Přesto často vydavatelé, institucionální repozitáře i čtenáři požadují stejný materiál v alternativních formátech — PDF/A pro archivaci, HTML pro webové čtení nebo EPUB pro e‑čtečky. Krok konverze je plný skrytých úskalí: chybějící fonty, nefunkční křížové odkazy nebo změněné mezery, které mohou ohrozit vědecký záznam.

Tento článek provádí systematickým pracovním postupem, který zachová autorovu záměr a zároveň vytvoří soubory připravené k distribuci. Zaměřuje se na praktická rozhodnutí, výběr nástrojů a ověřovací metody, které fungují jak pro jeden rukopis, tak pro dávku podání.


1. Pochopte cílové formáty a jejich omezení

Než spustíte jakoukoli konverzi, definujte přesné požadavky na výstup. Různé distribuční kanály uvalují odlišná technická omezení:

  • PDF/A‑1b – ISO‑standard pro dlouhodobou archivaci. Zakazuje šifrování, vyžaduje vložené fonty a neumožňuje nepoužívané barevné prostory.
  • PDF/UA – varianta PDF splňující standardy přístupnosti (správné značky, pořadí čtení, alt‑texty u obrázků).
  • HTML5 – ideální pro webové portály; vyžaduje sémantické značkování, responzivní obrázky a MathML nebo záložní obrázky pro rovnice.
  • EPUB 3 – formát e‑knih podporující plynulé rozvržení textu, vložené fonty a MathML; vhodný pro tablety a e‑čtečky.

Každý formát stanovuje konkrétní přepínače kompilace nebo kroky post‑processingu. Jejich mapování v časném stádiu šetří čas a zabraňuje nákladnému přepracování.


2. Vyberte robustní LaTeX engine

Engine, který spustíte, určuje, jak věrně bude zdroj vykreslen a jaké pomocné soubory vzniknou.

EngineSilné stránkyTypické použití
pdfLaTeXPřímý výstup PDF, zralý ekosystém, široká podpora balíčků.Jednoduché články, konferenční příspěvky, kde lze PDF/A přidat později.
XeLaTeXNativní Unicode, snadný výběr fontů ze systému, vhodný pro vícejazyčné texty.Dokumenty s nelineárními skripty nebo vlastními OpenType fonty.
LuaLaTeXRozšiřitelný pomocí Lua skriptování, jemná kontrola fontů a PDF.Složité rozvržení, programovatelné styly bibliografie nebo přísná kontrola PDF metadat.

Pro archivní PDF (PDF/A) je spolehlivou bází pdfLaTeX v kombinaci s balíčkem pdfx. Pro HTML či EPUB později předáte LaTeXový zdroj konverznímu nástroji, který očekává čistý mezilehlý PDF nebo DVI.


3. Připravte zdroj pro konverzi

3.1 Udržujte balíčky minimální a dobře zdokumentované

Přebytečné či zastaralé balíčky zvyšují šanci na chyby při přepínání engine. Projděte všechny \usepackage{} příkazy a odstraňte ty, které nejsou nezbytné pro finální vzhled.

3.2 Vkládejte fonty explicitně

Když finální PDF musí obsahovat každý znak, deklarujte rodinu písma pomocí \setmainfont{} (XeLaTeX/LuaLaTeX) nebo mechanismu \pdfmapfile{} (pdfLaTeX). Ověřte, že vybrané fonty jsou licencovány k distribuci; jinak konverze tichým způsobem nahradí výchozími fonty a naruší vizuální konzistenci.

3.3 Používejte standardní bibliografické nástroje

Udržujte bibliografická data v jediném souboru .bib a spoléhejte na biblatex s biber pro moderní citační styly. Tento přístup zachová citační klíče napříč formáty, což usnadňuje generování seznamů odkazů v HTML nebo EPUB.


4. Vytvoření kvalitní PDF základny

Čisté PDF je klíčové pro většinu následných konverzí. Postupujte takto:

  1. Zkompilujte dvakrát, aby se vyřešily křížové odkazy a obsah.

  2. Spusťte biber (nebo bibtex, pokud používáte starší styly) mezi kompilacemi.

  3. Přidejte balíček pdfx:

    \usepackage[x-1a]{pdfx}
    

    Tento balíček vloží požadovaná PDF/A metadata a vynutí vložení fontů.

  4. Zkontrolujte log na varování Missing font. Pokud se objeví, přidejte chybějící fonty do mapovacího souboru nebo přejděte na XeLaTeX.

Použijte PDF validátor (např. veraPDF) a potvrďte soulad s PDF/A před dalším krokem.


5. Konverze PDF na HTML a EPUB

Existují dvě hlavní strategie:

5.1 Přímé nástroje LaTeX → HTML/EPUB

  • pandoc – univerzální konvertor, který čte LaTeX a vytváří HTML5 nebo EPUB. Zvládá citace, obrázky a jednoduché rovnice pomocí MathJax.
  • latex2html – starší, lehčí, ale má problémy s moderními balíčky a složitou matematikou.

Pandoc workflow:

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.html

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.epub

Klíčové volby:

  • --pdf-engine zajistí, že libovolné vlastní fonty budou respektovány.
  • --citeproc nechá pandoc zpracovat soubor .bib a vykreslit bibliografii.
  • -s vytváří samostatný dokument s vloženým CSS.

5.2 Přístup „PDF‑first“

Pokud PDF již splňuje standardy PDF/A/UA, můžete jeho strukturu extrahovat pomocí pdf2htmlEX (pro HTML) nebo Calibre (pro EPUB). Tato metoda zachová přesnou stránkovou strukturu a vykreslení fontů, ale často vloží velké rastrové obrázky rovnic.

Výhody: téměř identická vizuální věrnost.
Nevýhody: větší velikost výstupu, omezená přístupnost, protože text je často reprezentován jako obrázek.


6. Zachování matematiky napříč formáty

Rovnice jsou nejkřehčí prvek během konverze.

  • MathML – nativní podpora v moderních prohlížečích a EPUB 3. Pandoc může generovat MathML pomocí přepínače --mathml.
  • LaTeXML – specializovaný LaTeX‑to‑XML řetězec, který produkuje vysoce kvalitní MathML a XHTML.
  • Záložní obrázek – pro prostředí, která MathML neumějí, nakonfigurujte pandoc tak, aby generoval SVG (--webtex). SVG zachovává škálovatelnost bez rasterizace rovnice.

Typický pandoc příkaz, který kombinuje oba přístupy:

pandoc manuscript.tex \
  --webtex=https://latex.codecogs.com/svg.latex? \
  --mathml \
  -s -o manuscript.html

Výsledné HTML obsahuje MathML pro kompatibilní prohlížeče a SVG jako záložní variantu.


7. Správa obrázků a externích médií

Obrázky často pocházejí z samostatných PDF, PNG nebo EPS souborů. Pro zajištění konzistence:

  1. Vkládejte obrázky jako PDF při použití pdfLaTeX. To udržuje vektorovou kvalitu ve finálním PDF.
  2. Převádějte obrázky na SVG pro HTML/EPUB. Nástroje jako Inkscape (inkscape -l fig.svg fig.pdf) zachovají ostrost a umožní stylování pomocí CSS.
  3. Poskytujte alt‑text v LaTeXovém zdroji pomocí \caption[Alt text]{Plný popisek}. Pandoc tento volitelný argument použije pro přístupnost.

Vyhněte se velkým rastrovým obrázkům, pokud obrázek není inherentně pixelový (např. mikroskopické fotografie). Pro takové případy je před vložením komprimujte pomocí optipng nebo jpegoptim.


8. Validace výstupu

8.1 Validace PDF

  • veraPDF – kontroluje soulad s PDF/A.
  • PDF/UA‑Validator – ověřuje přístupnostní značky.

Spusťte oba nástroje na finální PDF a opravte všechny zaznamenané problémy (chybějící alt‑text, neoznačené tabulky atd.).

8.2 Validace HTML

  • W3C HTML validator – zajišťuje syntaktickou správnost.
  • axe‑core – skenuje porušení přístupnosti (chybějící ARIA štítky, nesprávný pořadí nadpisů).

8.3 Validace EPUB

  • epubcheck – referenční validátor od International Digital Publishing Forum (IDPF). Flagguje chybějící metadata, neplatné navigační soubory nebo špatné MathML.

Automatizujte tyto kontroly v CI pipeline (např. GitHub Actions), aby každá nová revize prošla kvalitativními bránami před vydáním.


9. Automatizace workflow pro více rukopisů

Výzkumníci často zpracovávají desítky diplomových prací nebo konferenčních příspěvků ročně. Lehký automatizační skript může orchestraci výše popsaných kroků.

#!/usr/bin/env bash
set -euo pipefail

DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
  cd "$d"
  # 1. Build PDF/A
  latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
  # 2. Validate PDF/A
  verapdf "${d}.pdf"
  # 3. Convert to HTML & EPUB with pandoc
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
  # 4. Validate HTML & EPUB
  html5validator "${d}.html"
  epubcheck "${d}.epub"
  cd ..
done

Skript používá latexmk pro inkrementální kompilaci a po každé konverzi spouští tři validátory. Přizpůsobte pole DOCS podle své struktury adresářů.


10. Kdy použít online konverzní službu

Cloud‑based nástroj jako convertise.app může být užitečný pro jednorázové konverze, zejména pokud na pracovním stanovišti nemáte plnou TeX instalaci. Služba zpracuje LaTeXové zdroje v sandboxu, vrátí PDF/A, HTML nebo EPUB a respektuje stejná soukromí‑principy uvedená v dokumentaci. Pro citlivá výzkumná data však upřednostněte vlastní infrastrukturu nebo lokální konverzi, aby byl rukopis pod vaší kontrolou.


11. Časté úskalí a jak se jim vyhnout

ÚskalíPříznakNáprava
Chybějící fonty v PDF/AText se zobrazuje jako generický Times nebo validátor hlásí varováníVložte fonty explicitně; použijte \setmainfont{} s XeLaTeX/LuaLaTeX nebo balíček pdfx s pdfLaTeX
Rozbité citace po exportu do HTMLVe výsledném HTML se objevují placeholdery [?]Ujistěte se, že bibliografický soubor je přístupný a použijte --citeproc (pandoc) nebo biber před konverzí
Rovnice vykreslené jen jako obrázkyNelze vybrat text, velikost souboru rostePovolit výstup MathML (--mathml) a poskytnout SVG záložní variantu (--webtex)
Popisky obrázků bez alt‑textuNedostatek popisků pro čtečky obrazovkyDodávejte volitelný krátký popisek (\caption[Alt]{Dlouhý}), který pandoc extrahuje
Přehnaně velké EPUB souboryPomalé stahování, pády čtečkyOptimalizujte rastrové obrázky (jpegoptim/optipng) a upřednostňujte vektorové SVG, kde je to možné

Kontrolou každé položky včas zabráníte řetězci přepracování později v publikačním řetězci.


12. Integrace procesu do institucionálních repozitářů

Mnoho univerzit provozuje repozitáře, které přijímají příspěvky v různých formátech. Pro zjednodušení ingestu:

  1. Standardizujte na PDF/A‑1b jako archivní master. Vytvořte jej přímo z LaTeXu podle sekce 4.
  2. Generujte HTML abstrakty ze stejného LaTeXového zdroje; uložte je jako samostatná metadata pro indexaci vyhledávači.
  3. Nabídněte EPUB jako doplňkový download pro čtenáře preferující e‑čtečky; udržujte velikost souboru pod 5 MB kompresí obrázků.
  4. Zaznamenejte provenance konverze (verze engine, seznam balíčků, výsledky validátorů) v metadatovém schématu repozitáře. To splňuje auditní požadavky a usnadňuje budoucí reprodukovatelnost.

13. Shrnutí

Konverze LaTeXových rukopisů do více distribučních formátů není jednoduchý „klikni‑a‑hotovo“ úkol. Vyžaduje jasné pochopení cílových standardů, úmyslnou přípravu zdrojů a důkladnou validaci každého výstupu. Výběrem vhodného engine, vložením fontů, robustním PDF/A workflow a využitím nástrojů jako pandoc, LaTeXML a specializovaných validátorů může autor publikovat jediný zdroj, který bezpečně dorazí k tradičním časopisům, webovým portálům i e‑čtečkám. Automatizační skripty zajistí opakovatelnost, zatímco občasné využití soukromých online služeb, například convertise.app, může vyplnit díry bez kompromisu na bezpečnosti dat. Implementujte tyto praktiky a vaše vědecká práce si udrží věrnost i přístupnost po celou digitální životní dráhu.