Konverze LaTeX dokumentů pro akademické publikování
LaTeX zůstává de‑facto standardem pro vědecké rukopisy, konferenční příspěvky a diplomové práce. Jeho síla spočívá v přesném sazebním zpracování matematiky, bibliografií a složitých struktur. Přesto často vydavatelé, institucionální repozitáře i čtenáři požadují stejný materiál v alternativních formátech — PDF/A pro archivaci, HTML pro webové čtení nebo EPUB pro e‑čtečky. Krok konverze je plný skrytých úskalí: chybějící fonty, nefunkční křížové odkazy nebo změněné mezery, které mohou ohrozit vědecký záznam.
Tento článek provádí systematickým pracovním postupem, který zachová autorovu záměr a zároveň vytvoří soubory připravené k distribuci. Zaměřuje se na praktická rozhodnutí, výběr nástrojů a ověřovací metody, které fungují jak pro jeden rukopis, tak pro dávku podání.
1. Pochopte cílové formáty a jejich omezení
Než spustíte jakoukoli konverzi, definujte přesné požadavky na výstup. Různé distribuční kanály uvalují odlišná technická omezení:
- PDF/A‑1b – ISO‑standard pro dlouhodobou archivaci. Zakazuje šifrování, vyžaduje vložené fonty a neumožňuje nepoužívané barevné prostory.
- PDF/UA – varianta PDF splňující standardy přístupnosti (správné značky, pořadí čtení, alt‑texty u obrázků).
- HTML5 – ideální pro webové portály; vyžaduje sémantické značkování, responzivní obrázky a MathML nebo záložní obrázky pro rovnice.
- EPUB 3 – formát e‑knih podporující plynulé rozvržení textu, vložené fonty a MathML; vhodný pro tablety a e‑čtečky.
Každý formát stanovuje konkrétní přepínače kompilace nebo kroky post‑processingu. Jejich mapování v časném stádiu šetří čas a zabraňuje nákladnému přepracování.
2. Vyberte robustní LaTeX engine
Engine, který spustíte, určuje, jak věrně bude zdroj vykreslen a jaké pomocné soubory vzniknou.
| Engine | Silné stránky | Typické použití |
|---|---|---|
| pdfLaTeX | Přímý výstup PDF, zralý ekosystém, široká podpora balíčků. | Jednoduché články, konferenční příspěvky, kde lze PDF/A přidat později. |
| XeLaTeX | Nativní Unicode, snadný výběr fontů ze systému, vhodný pro vícejazyčné texty. | Dokumenty s nelineárními skripty nebo vlastními OpenType fonty. |
| LuaLaTeX | Rozšiřitelný pomocí Lua skriptování, jemná kontrola fontů a PDF. | Složité rozvržení, programovatelné styly bibliografie nebo přísná kontrola PDF metadat. |
Pro archivní PDF (PDF/A) je spolehlivou bází pdfLaTeX v kombinaci s balíčkem pdfx. Pro HTML či EPUB později předáte LaTeXový zdroj konverznímu nástroji, který očekává čistý mezilehlý PDF nebo DVI.
3. Připravte zdroj pro konverzi
3.1 Udržujte balíčky minimální a dobře zdokumentované
Přebytečné či zastaralé balíčky zvyšují šanci na chyby při přepínání engine. Projděte všechny \usepackage{} příkazy a odstraňte ty, které nejsou nezbytné pro finální vzhled.
3.2 Vkládejte fonty explicitně
Když finální PDF musí obsahovat každý znak, deklarujte rodinu písma pomocí \setmainfont{} (XeLaTeX/LuaLaTeX) nebo mechanismu \pdfmapfile{} (pdfLaTeX). Ověřte, že vybrané fonty jsou licencovány k distribuci; jinak konverze tichým způsobem nahradí výchozími fonty a naruší vizuální konzistenci.
3.3 Používejte standardní bibliografické nástroje
Udržujte bibliografická data v jediném souboru .bib a spoléhejte na biblatex s biber pro moderní citační styly. Tento přístup zachová citační klíče napříč formáty, což usnadňuje generování seznamů odkazů v HTML nebo EPUB.
4. Vytvoření kvalitní PDF základny
Čisté PDF je klíčové pro většinu následných konverzí. Postupujte takto:
Zkompilujte dvakrát, aby se vyřešily křížové odkazy a obsah.
Spusťte
biber(nebobibtex, pokud používáte starší styly) mezi kompilacemi.Přidejte balíček
pdfx:\usepackage[x-1a]{pdfx}Tento balíček vloží požadovaná PDF/A metadata a vynutí vložení fontů.
Zkontrolujte log na varování
Missing font. Pokud se objeví, přidejte chybějící fonty do mapovacího souboru nebo přejděte na XeLaTeX.
Použijte PDF validátor (např. veraPDF) a potvrďte soulad s PDF/A před dalším krokem.
5. Konverze PDF na HTML a EPUB
Existují dvě hlavní strategie:
5.1 Přímé nástroje LaTeX → HTML/EPUB
- pandoc – univerzální konvertor, který čte LaTeX a vytváří HTML5 nebo EPUB. Zvládá citace, obrázky a jednoduché rovnice pomocí MathJax.
- latex2html – starší, lehčí, ale má problémy s moderními balíčky a složitou matematikou.
Pandoc workflow:
pandoc manuscript.tex \
--pdf-engine=xelatex \
--citeproc \
-s -o manuscript.html
pandoc manuscript.tex \
--pdf-engine=xelatex \
--citeproc \
-s -o manuscript.epub
Klíčové volby:
--pdf-enginezajistí, že libovolné vlastní fonty budou respektovány.--citeprocnechá pandoc zpracovat soubor.biba vykreslit bibliografii.-svytváří samostatný dokument s vloženým CSS.
5.2 Přístup „PDF‑first“
Pokud PDF již splňuje standardy PDF/A/UA, můžete jeho strukturu extrahovat pomocí pdf2htmlEX (pro HTML) nebo Calibre (pro EPUB). Tato metoda zachová přesnou stránkovou strukturu a vykreslení fontů, ale často vloží velké rastrové obrázky rovnic.
Výhody: téměř identická vizuální věrnost.
Nevýhody: větší velikost výstupu, omezená přístupnost, protože text je často reprezentován jako obrázek.
6. Zachování matematiky napříč formáty
Rovnice jsou nejkřehčí prvek během konverze.
- MathML – nativní podpora v moderních prohlížečích a EPUB 3. Pandoc může generovat MathML pomocí přepínače
--mathml. - LaTeXML – specializovaný LaTeX‑to‑XML řetězec, který produkuje vysoce kvalitní MathML a XHTML.
- Záložní obrázek – pro prostředí, která MathML neumějí, nakonfigurujte pandoc tak, aby generoval SVG (
--webtex). SVG zachovává škálovatelnost bez rasterizace rovnice.
Typický pandoc příkaz, který kombinuje oba přístupy:
pandoc manuscript.tex \
--webtex=https://latex.codecogs.com/svg.latex? \
--mathml \
-s -o manuscript.html
Výsledné HTML obsahuje MathML pro kompatibilní prohlížeče a SVG jako záložní variantu.
7. Správa obrázků a externích médií
Obrázky často pocházejí z samostatných PDF, PNG nebo EPS souborů. Pro zajištění konzistence:
- Vkládejte obrázky jako PDF při použití pdfLaTeX. To udržuje vektorovou kvalitu ve finálním PDF.
- Převádějte obrázky na SVG pro HTML/EPUB. Nástroje jako Inkscape (
inkscape -l fig.svg fig.pdf) zachovají ostrost a umožní stylování pomocí CSS. - Poskytujte alt‑text v LaTeXovém zdroji pomocí
\caption[Alt text]{Plný popisek}. Pandoc tento volitelný argument použije pro přístupnost.
Vyhněte se velkým rastrovým obrázkům, pokud obrázek není inherentně pixelový (např. mikroskopické fotografie). Pro takové případy je před vložením komprimujte pomocí optipng nebo jpegoptim.
8. Validace výstupu
8.1 Validace PDF
- veraPDF – kontroluje soulad s PDF/A.
- PDF/UA‑Validator – ověřuje přístupnostní značky.
Spusťte oba nástroje na finální PDF a opravte všechny zaznamenané problémy (chybějící alt‑text, neoznačené tabulky atd.).
8.2 Validace HTML
- W3C HTML validator – zajišťuje syntaktickou správnost.
- axe‑core – skenuje porušení přístupnosti (chybějící ARIA štítky, nesprávný pořadí nadpisů).
8.3 Validace EPUB
- epubcheck – referenční validátor od International Digital Publishing Forum (IDPF). Flagguje chybějící metadata, neplatné navigační soubory nebo špatné MathML.
Automatizujte tyto kontroly v CI pipeline (např. GitHub Actions), aby každá nová revize prošla kvalitativními bránami před vydáním.
9. Automatizace workflow pro více rukopisů
Výzkumníci často zpracovávají desítky diplomových prací nebo konferenčních příspěvků ročně. Lehký automatizační skript může orchestraci výše popsaných kroků.
#!/usr/bin/env bash
set -euo pipefail
DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
cd "$d"
# 1. Build PDF/A
latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
# 2. Validate PDF/A
verapdf "${d}.pdf"
# 3. Convert to HTML & EPUB with pandoc
pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
# 4. Validate HTML & EPUB
html5validator "${d}.html"
epubcheck "${d}.epub"
cd ..
done
Skript používá latexmk pro inkrementální kompilaci a po každé konverzi spouští tři validátory. Přizpůsobte pole DOCS podle své struktury adresářů.
10. Kdy použít online konverzní službu
Cloud‑based nástroj jako convertise.app může být užitečný pro jednorázové konverze, zejména pokud na pracovním stanovišti nemáte plnou TeX instalaci. Služba zpracuje LaTeXové zdroje v sandboxu, vrátí PDF/A, HTML nebo EPUB a respektuje stejná soukromí‑principy uvedená v dokumentaci. Pro citlivá výzkumná data však upřednostněte vlastní infrastrukturu nebo lokální konverzi, aby byl rukopis pod vaší kontrolou.
11. Časté úskalí a jak se jim vyhnout
| Úskalí | Příznak | Náprava |
|---|---|---|
| Chybějící fonty v PDF/A | Text se zobrazuje jako generický Times nebo validátor hlásí varování | Vložte fonty explicitně; použijte \setmainfont{} s XeLaTeX/LuaLaTeX nebo balíček pdfx s pdfLaTeX |
| Rozbité citace po exportu do HTML | Ve výsledném HTML se objevují placeholdery [?] | Ujistěte se, že bibliografický soubor je přístupný a použijte --citeproc (pandoc) nebo biber před konverzí |
| Rovnice vykreslené jen jako obrázky | Nelze vybrat text, velikost souboru roste | Povolit výstup MathML (--mathml) a poskytnout SVG záložní variantu (--webtex) |
| Popisky obrázků bez alt‑textu | Nedostatek popisků pro čtečky obrazovky | Dodávejte volitelný krátký popisek (\caption[Alt]{Dlouhý}), který pandoc extrahuje |
| Přehnaně velké EPUB soubory | Pomalé stahování, pády čtečky | Optimalizujte rastrové obrázky (jpegoptim/optipng) a upřednostňujte vektorové SVG, kde je to možné |
Kontrolou každé položky včas zabráníte řetězci přepracování později v publikačním řetězci.
12. Integrace procesu do institucionálních repozitářů
Mnoho univerzit provozuje repozitáře, které přijímají příspěvky v různých formátech. Pro zjednodušení ingestu:
- Standardizujte na PDF/A‑1b jako archivní master. Vytvořte jej přímo z LaTeXu podle sekce 4.
- Generujte HTML abstrakty ze stejného LaTeXového zdroje; uložte je jako samostatná metadata pro indexaci vyhledávači.
- Nabídněte EPUB jako doplňkový download pro čtenáře preferující e‑čtečky; udržujte velikost souboru pod 5 MB kompresí obrázků.
- Zaznamenejte provenance konverze (verze engine, seznam balíčků, výsledky validátorů) v metadatovém schématu repozitáře. To splňuje auditní požadavky a usnadňuje budoucí reprodukovatelnost.
13. Shrnutí
Konverze LaTeXových rukopisů do více distribučních formátů není jednoduchý „klikni‑a‑hotovo“ úkol. Vyžaduje jasné pochopení cílových standardů, úmyslnou přípravu zdrojů a důkladnou validaci každého výstupu. Výběrem vhodného engine, vložením fontů, robustním PDF/A workflow a využitím nástrojů jako pandoc, LaTeXML a specializovaných validátorů může autor publikovat jediný zdroj, který bezpečně dorazí k tradičním časopisům, webovým portálům i e‑čtečkám. Automatizační skripty zajistí opakovatelnost, zatímco občasné využití soukromých online služeb, například convertise.app, může vyplnit díry bez kompromisu na bezpečnosti dat. Implementujte tyto praktiky a vaše vědecká práce si udrží věrnost i přístupnost po celou digitální životní dráhu.