LaTeX-documenten omzetten voor academische publicatie
LaTeX blijft de de‑facto standaard voor wetenschappelijke manuscripten, conferentie‑papers en proefschriften. De kracht ligt in precieze opmaak van wiskunde, bibliografieën en complexe structuren. Toch vragen uitgevers, institutionele repositories en lezers vaak hetzelfde materiaal in alternatieve formaten — PDF/A voor archivering, HTML voor web‑gebaseerd lezen, of EPUB voor e‑readers. De conversiestap zit vol met verborgen valkuilen: ontbrekende lettertypen, kapotte kruiskreferenties, of gewijzigde spatiëring die het wetenschappelijke verslag ondermijnt.
Dit artikel loopt een systematische workflow door die de auteursintentie intact houdt terwijl distributieklaar bestanden worden geproduceerd. De nadruk ligt op praktische beslissingen, tool‑keuze en verificatiemethoden die werken voor één manuscript of een batch van inzendingen.
1. Begrijp de doelformaten en hun beperkingen
Definieer vóór het uitvoeren van een conversie de exacte output‑eisen. Verschillende leveringskanalen stellen verschillende technische beperkingen:
- PDF/A‑1b – de ISO‑norm voor langdurige bewaring. Het verbiedt encryptie, vereist ingesloten lettertypen en staat ongebruikte kleur‑ruimtes niet toe.
- PDF/UA – een PDF‑variant die voldoet aan toegankelijkheidsnormen (juiste tags, leesvolgorde, alt‑tekst voor afbeeldingen).
- HTML5 – ideaal voor webportalen; vereist semantische markup, responsieve afbeeldingen en MathML of fallback‑afbeeldingen voor vergelijkingen.
- EPUB 3 – het e‑book‑formaat dat doorlopende tekst, ingesloten lettertypen en MathML ondersteunt; geschikt voor tablets en e‑readers.
Elk formaat dicteert specifieke compilatie‑flags of post‑processing‑stappen. Deze beperkingen vroeg in kaart brengen bespaart tijd en voorkomt kostbaar her‑werken.
2. Kies een robuuste LaTeX‑engine
De engine die je aanroept bepaalt hoe getrouw de bron wordt gerenderd en welke hulpgbestanden er worden aangemaakt.
| Engine | Sterke punten | Typische gebruikssituaties |
|---|---|---|
| pdfLaTeX | Directe PDF‑output, volwassen ecosysteem, brede pakketondersteuning. | Simpele artikelen, conferentie‑inzendingen waarbij PDF/A‑compliance later kan worden toegevoegd. |
| XeLaTeX | Native Unicode‑verwerking, eenvoudige lettertype‑selectie via systeemlettertypen, goed voor meertalige teksten. | Documenten met niet‑Latijnse scripts of aangepaste OpenType‑lettertypen. |
| LuaLaTeX | Uitbreidbaar via Lua‑scripting, fijnmazige controle over lettertypen en PDF‑s. | Complexe lay‑outs, programmeerbare bibliografie‑stijlen, of wanneer strakke PDF‑metadata‑controle nodig is. |
Voor archiverings‑PDF’s (PDF/A) is pdfLaTeX in combinatie met het pdfx‑pakket een betrouwbaar uitgangspunt. Voor HTML of EPUB kun je later de LaTeX‑bron door een conversietool laten verwerken die een schone tussen‑PDF of DVI verwacht.
3. Bereid de bron voor conversie voor
3.1 Houd pakketten minimaal en goed gedocumenteerd
Redundante of verouderde pakketten verhogen de kans op compileer‑fouten wanneer je van engine wisselt. Controleer de \usepackage{}‑regels en verwijder alles wat niet essentieel is voor het uiteindelijke uiterlijk.
3.2 Sluit lettertypen expliciet in
Wanneer de eind‑PDF elk glyph moet inbedden, declareer je de lettertype‑familie met \setmainfont{} (XeLaTeX/LuaLaTeX) of via het \pdfmapfile{}‑mechanisme (pdfLaTeX). Verifieer dat de gekozen lettertypen licentie hebben voor distributie; anders zal de conversie stilzwijgend standaarden gebruiken, waardoor de visuele consistentie breekt.
3.3 Gebruik standaard bibliografie‑tools
Beheer de bibliografische gegevens in één .bib‑bestand en vertrouw op biblatex met biber voor moderne citatiestijlen. Deze aanpak behoudt citatiesleutels over formaten heen, waardoor het genereren van referentielijsten in HTML of EPUB eenvoudiger wordt.
4. Een hoogwaardige PDF‑basis genereren
Een schone PDF is de hoeksteen voor de meeste downstream‑conversies. Volg deze stappen:
- Compileer twee keer om kruiskreferenties en de inhoudsopgave op te lossen.
- Voer
biberuit (ofbibtexals je bij legacy‑stijlen blijft) tussen de compilaties. - Pas het
pdfx‑pakket toe:
Dit voegt de benodigde PDF/A‑metadata toe en dwingt het insluiten van lettertypen af.\usepackage[x-1a]{pdfx} - Controleer de log op
Missing font‑waarschuwingen. Zo ja, voeg de ontbrekende lettertypen toe aan het map‑bestand of schakel over naar XeLaTeX.
Gebruik een PDF‑validator (bijv. veraPDF) om PDF/A‑conformiteit te bevestigen vóór je verdergaat.
5. PDF naar HTML en EPUB omzetten
Er bestaan twee hoofdstrategieën:
5.1 Directe LaTeX‑naar‑HTML/EPUB‑tools
- pandoc – een universele converter die LaTeX leest en HTML5 of EPUB uitstuurt. Hij verwerkt citaties, figuren en eenvoudige vergelijkingen via MathJax.
- latex2html – ouder, lichter, maar worstelt met moderne pakketten en complexe wiskunde.
Pandoc‑workflow:
pandoc manuscript.tex \
--pdf-engine=xelatex \
--citeproc \
-s -o manuscript.html
pandoc manuscript.tex \
--pdf-engine=xelatex \
--citeproc \
-s -o manuscript.epub
Belangrijke opties:
--pdf-enginezorgt dat eventuele aangepaste lettertypen worden gerespecteerd.--citeproclaat pandoc het.bib‑bestand verwerken en een bibliografie renderen.-sproduceert een zelf‑voorzien document met ingebedde CSS.
5.2 PDF‑eerst‑benadering
Als de PDF al voldoet aan PDF/A/UA‑normen, kun je de structuur eruit halen met pdf2htmlEX (voor HTML) of Calibre (voor EPUB). Deze methode behoudt de exacte paginering en lettertype‑weergave, maar kan grote rasterafbeeldingen voor vergelijkingen insluiten.
Voordelen: Nauwkeurige visuele getrouwheid.
Nadelen: Grotere output‑grootte, beperkte toegankelijkheid omdat de onderliggende tekst vaak als afbeeldingen wordt weergegeven.
6. Wiskunde behouden over formaten heen
Vergelijkingen zijn het meest breekbare element tijdens conversie.
- MathML – native ondersteuning in moderne browsers en EPUB 3. Pandoc kan MathML uitgeven via de
--mathml‑vlag. - LaTeXML – een toegewijde LaTeX‑naar‑XML‑pipeline die hoogwaardige MathML en XHTML produceert.
- Afbeeldings‑fallback – voor omgevingen die geen MathML kunnen renderen, configureer pandoc om SVG‑afbeeldingen te genereren (
--webtex). SVG behoudt schaalbaarheid zonder rasterisatie van de formule.
Een typische pandoc‑opdracht die beide balanseert:
pandoc manuscript.tex \
--webtex=https://latex.codecogs.com/svg.latex? \
--mathml \
-s -o manuscript.html
De resulterende HTML bevat MathML voor capabele browsers en SVG voor de rest.
7. Beheer van figuren en extern media
Figuren komen vaak uit losse PDF‑, PNG‑ of EPS‑bronnen. Voor consistentie:
- Sluit figuren in als PDF wanneer je pdfLaTeX gebruikt. Dit behoudt vector‑kwaliteit in de uiteindelijke PDF.
- Converteer figuren naar SVG voor HTML/EPUB. Tools als Inkscape (
inkscape -l fig.svg fig.pdf) behouden scherpte en laten CSS‑styling toe. - Voorzie alt‑tekst in de LaTeX‑bron via
\caption[Alt‑tekst]{Volledige bijschrift}. Pandoc haalt het optionele argument eruit voor toegankelijkheid.
Vermijd grote raster‑afbeeldingen tenzij de figuur per definitie pixel‑gebaseerd is (bijv. microscopiefoto’s). Comprimeer die dan met optipng of jpegoptim vóór opname.
8. Validatie van de output
8.1 PDF‑validatie
- veraPDF – controleert PDF/A‑conformiteit.
- PDF/UA‑Validator – controleert toegankelijkheidstags.
Voer beide uit op de eind‑PDF en verhelp eventuele gemelde problemen (ontbrekende alt‑tekst, niet‑getagde tabellen, enz.).
8.2 HTML‑validatie
- W3C HTML validator – zorgt voor syntactische correctheid.
- axe‑core – scant op toegankelijkheidsschendingen (missende ARIA‑labels, onjuiste heading‑volgorde).
8.3 EPUB‑validatie
- epubcheck – de referentie‑validator van het International Digital Publishing Forum (IDPF). Hij geeft ontbrekende metadata, ongeldige navigatie‑bestanden of misvormde MathML door.
Automatiseer deze controles in een CI‑pipeline (bijv. GitHub Actions) zodat elke nieuwe revisie kwaliteits‑poorten passeert vóór publicatie.
9. Workflow automatiseren voor meerdere manuscripten
Onderzoekers moeten vaak tientallen proefschriften of conferentie‑papers per jaar verwerken. Een lichtgewicht automatiseringsscript kan de hierboven beschreven stappen aansturen.
#!/usr/bin/env bash
set -euo pipefail
DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
cd "$d"
# 1. PDF/A bouwen
latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
# 2. PDF/A valideren
verapdf "${d}.pdf"
# 3. Converteren naar HTML & EPUB met pandoc
pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
# 4. HTML & EPUB valideren
html5validator "${d}.html"
epubcheck "${d}.epub"
cd ..
done
Het script gebruikt latexmk voor incrementele compilatie en voert na elke conversie de drie validators uit. Pas de DOCS‑array aan op jouw mapstructuur.
10. Wanneer een online conversieservice te gebruiken
Een cloud‑gebaseerde tool zoals convertise.app kan handig zijn voor eenmalige conversies, vooral als je geen volledige TeX‑installatie op een werkstation hebt. De dienst verwerkt LaTeX‑bronnen in een sandbox, levert PDF/A, HTML of EPUB op, en volgt dezelfde privacy‑principes als in de documentatie beschreven. Voor gevoelige onderzoeksdata is het echter beter een zelf‑gehoste pipeline te gebruiken of de conversie lokaal uit te voeren zodat het manuscript onder jouw controle blijft.
11. Veelvoorkomende valkuilen en hoe ze te vermijden
| Valkuil | Symptoom | Oplossing |
|---|---|---|
| Ontbrekende lettertypen in PDF/A | Tekst verschijnt als generiek Times of geeft waarschuwingen in validator | Sluit lettertypen expliciet in; gebruik \setmainfont{} met XeLaTeX/LuaLaTeX of het pdfx‑pakket met pdfLaTeX |
| Gebroken citaties na HTML‑export | [?]‑plaatsaanduidingen in de uiteindelijke HTML | Zorg dat het bibliografiebestand bereikbaar is en gebruik --citeproc (pandoc) of biber vóór conversie |
| Vergelijkingen alleen als afbeeldingen | Geen selecteerbare tekst, grote bestandsgrootte | Schakel MathML‑output in (--mathml) en bied SVG‑fallback (--webtex) |
| Onduidelijke figuur‑bijschriften | Alt‑tekst ontbreekt voor schermlezers | Voorzie een optioneel kort bijschrift (`\caption[Alt]{Lang}) dat pandoc extrahert |
| Te grote EPUB‑bestanden | Trage download, crashende lezer | Optimaliseer raster‑afbeeldingen (jpegoptim/optipng) en kies bij voorkeur vector‑SVG waar mogelijk |
Door elk van deze punten vroeg te checken, voorkom je een cascade van her‑werk later in de publicatie‑pipeline.
12. Integratie van het proces in institutionele repositories
Veel universiteiten draaien institutionele repositories die inzendingen in diverse formaten opnemen. Om de ingestroomde workflow te stroomlijnen:
- Standaardiseer op PDF/A‑1b als het bewaar‑master. Produceer deze direct vanuit LaTeX zoals beschreven in sectie 4.
- Genereer HTML‑abstracts met dezelfde LaTeX‑bron; sla ze op als afzonderlijke metadata‑velden voor zoekmachine‑indexering.
- Bied EPUB aan als extra download voor lezers die e‑readers prefereren; houd de bestandsgrootte onder 5 MB door afbeeldingen te comprimeren.
- Leg de conversie‑provenance vast (engine‑versie, pakketlijst, validatorresultaten) in het metadata‑schema van de repository. Dit voldoet aan audit‑vereisten en vergemakkelijkt toekomstige reproduceerbaarheid.
13. Samenvatting
Het omzetten van LaTeX‑manuscripten naar meerdere leveringsformaten is geen eenvoudige “klik‑en‑ga‑door” taak. Het vereist een helder beeld van de doel‑standaarden, bewuste voorbereiding van de bron, en rigoureuze validatie van elke output. Door de juiste engine te kiezen, lettertypen in te sluiten, een robuuste PDF/A‑workflow te gebruiken, en tools als pandoc, LaTeXML en dedicated validators in te zetten, kan een auteur één enkele bron publiceren die veilig terechtkomt in traditionele tijdschriften, webportalen en e‑readers. Automatiserings‑scripts maken het proces herhaalbaar, terwijl af en toe gebruik van privacy‑gerichte online services zoals convertise.app gaten kan opvullen zonder de databeveiliging te schaden. Pas deze werkwijzen toe, en uw wetenschappelijke werk behoudt zijn getrouwheid en toegankelijkheid gedurende de volledige digitale levenscyclus.