LaTeX‑Dokumente für die akademische Veröffentlichung konvertieren
LaTeX bleibt der de‑facto‑Standard für wissenschaftliche Manuskripte, Konferenzbeiträge und Abschlussarbeiten. Seine Stärke liegt in der präzisen Satzgestaltung von Mathematik, Bibliografien und komplexen Strukturen. Dennoch verlangen Verlage, institutionelle Repositorien und Leser häufig dasselbe Material in alternativen Formaten — PDF/A für die Archivierung, HTML für das web‑basierte Lesen oder EPUB für e‑Reader. Der Konvertierungsschritt ist voller versteckter Fallstricke: fehlende Schriften, kaputte Querverweise oder veränderte Abstände, die den wissenschaftlichen Nachweis gefährden können.
Dieser Beitrag führt durch einen systematischen Workflow, der die Autor*innen‑Intention bewahrt und gleichzeitig distributionsfertige Dateien erzeugt. Der Fokus liegt auf praktischen Entscheidungen, Werkzeugwahl und Verifikationsmethoden, die für ein einzelnes Manuskript oder einen Stapel von Einreichungen funktionieren.
1. Zielformate und ihre Einschränkungen verstehen
Bevor irgendeine Konvertierung gestartet wird, müssen die genauen Ausgabespezifikationen definiert werden. Unterschiedliche Auslieferungskanäle bringen verschiedene technische Vorgaben mit sich:
- PDF/A‑1b – der ISO‑Standard für langfristige Erhaltung. Er verbietet Verschlüsselung, verlangt eingebettete Schriften und lässt nicht referenzierte Farbräume nicht zu.
- PDF/UA – eine PDF‑Variante, die Barrierefreiheits‑Normen erfüllt (richtige Tags, Lesereihenfolge, Alt‑Text für Grafiken).
- HTML5 – ideal für Webportale; erfordert semantisches Markup, responsive Bilder und MathML oder Fallback‑Bilder für Formeln.
- EPUB 3 – das E‑Book‑Format, das fließbaren Text, eingebettete Schriften und MathML unterstützt; geeignet für Tablets und e‑Reader.
Jedes Format verlangt spezifische Kompilierungs‑Flags oder Nachbearbeitungsschritte. Diese Einschränkungen frühzeitig zuzuordnen spart Zeit und verhindert teure Nacharbeiten.
2. Einen robusten LaTeX‑Engine wählen
Der aufgerufene Engine bestimmt, wie getreu die Quelle gerendert wird und welche Hilfsdateien erzeugt werden.
| Engine | Stärken | Typische Anwendungsfälle |
|---|---|---|
| pdfLaTeX | Direkter PDF‑Output, reifes Ökosystem, breiter Paket‑Support. | Einfache Artikel, Konferenzbeiträge, bei denen PDF/A‑Konformität später hinzugefügt werden kann. |
| XeLaTeX | Nativer Unicode‑Support, einfache Schriftauswahl über Systemschriften, gut für mehrsprachige Texte. | Dokumente mit nicht‑lateinischen Skripten oder benutzerdefinierten OpenType‑Schriften. |
| LuaLaTeX | Erweiterbar durch Lua‑Scripting, feinkörnige Kontrolle von Schriften und PDFs. | Komplexe Layouts, programmierbare Bibliographiestile oder wenn eine strenge PDF‑Metadaten‑Steuerung nötig ist. |
Für archivierungs‑geeignete PDFs (PDF/A) ist pdfLaTeX kombiniert mit dem Paket pdfx ein zuverlässiger Ausgangspunkt. Für HTML oder EPUB wird das LaTeX‑Quellfile später durch ein Konvertierungstool geleitet, das einen sauberen Zwischenschritt‑PDF oder DVI erwartet.
3. Die Quelle für die Konvertierung vorbereiten
3.1 Pakete minimal und gut dokumentiert halten
Redundante oder veraltete Pakete erhöhen die Wahrscheinlichkeit von Kompilierfehlern, wenn man den Engine wechselt. Auditiere die \usepackage{}‑Anweisungen und entferne alles, was nicht essentiell für das End‑Layout ist.
3.2 Schriften explizit einbetten
Wenn das finale PDF jede Glyphe einbetten muss, deklariere die Schriftfamilie mit \setmainfont{} (XeLaTeX/LuaLaTeX) bzw. dem Mechanismus \pdfmapfile{} (pdfLaTeX). Prüfe, dass die gewählten Schriften für die Verteilung lizenziert sind; sonst substituiert die Konvertierung stillschweigend Standardschriften und zerstört die visuelle Konsistenz.
3.3 Standard‑Bibliographie‑Tools verwenden
Pflege Bibliographiedaten in einer einzelnen .bib‑Datei und nutze biblatex mit biber für moderne Zitierstile. Dieser Ansatz bewahrt Zitatschlüssel über alle Formate hinweg, was die Erzeugung von Literaturverzeichnissen in HTML oder EPUB erleichtert.
4. Einen qualitativ hochwertigen PDF‑Baseline erzeugen
Ein sauberer PDF ist das Fundament für die meisten nachfolgenden Konvertierungen. Vorgehen:
- Zweimal kompilieren, um Querverweise und das Inhaltsverzeichnis aufzulösen.
biberausführen (oderbibtex, falls du bei Legacy‑Stilen bleibst) zwischen den Kompilierungen.- Das Paket
pdfxeinbinden:
\usepackage[x-1a]{pdfx}
Damit werden die erforderlichen PDF/A‑Metadaten eingefügt und die Schrifteinbettung erzwungen.
4. Das Log prüfen auf Missing font‑Warnungen. Falls solche auftreten, die fehlenden Schriften zur Map‑Datei hinzufügen oder zu XeLaTeX wechseln.
Verwende einen PDF‑Validator (z. B. veraPDF), um die PDF/A‑Konformität vor dem nächsten Schritt zu bestätigen.
5. PDF nach HTML und EPUB konvertieren
Es gibt zwei Hauptstrategien:
5.1 Direkt‑LaTeX‑zu‑HTML/EPUB‑Werkzeuge
- pandoc – ein universeller Konverter, der LaTeX liest und HTML5 oder EPUB ausgibt. Er verarbeitet Zitate, Figuren und einfache Gleichungen über MathJax.
- latex2html – älter, leichter, hat aber Probleme mit modernen Paketen und komplexer Mathematik.
Pandoc‑Workflow:
pandoc manuscript.tex \
--pdf-engine=xelatex \
--citeproc \
-s -o manuscript.html
pandoc manuscript.tex \
--pdf-engine=xelatex \
--citeproc \
-s -o manuscript.epub
Wichtige Optionen:
--pdf-enginesorgt dafür, dass benutzerdefinierte Schriften beachtet werden.--citeproclässt pandoc die.bib‑Datei verarbeiten und ein Literaturverzeichnis rendern.-serzeugt ein eigenständiges Dokument mit eingebettetem CSS.
5.2 PDF‑first‑Ansatz
Wenn das PDF bereits PDF/A/UA‑Standards erfüllt, kann seine Struktur mit pdf2htmlEX (für HTML) bzw. Calibre (für EPUB) extrahiert werden. Diese Methode bewahrt die exakte Seitennummerierung und Schriftdarstellung, erzeugt jedoch häufig große Rasterbilder für Formeln.
Vorteile: Nahezu identische visuelle Treue.
Nachteile: Größere Ausgabedateien, eingeschränkte Barrierefreiheit, weil Text häufig als Bild vorliegt.
6. Mathematik über Formate hinweg bewahren
Formeln sind das empfindlichste Element bei Konvertierungen.
- MathML – native Unterstützung in modernen Browsern und EPUB 3. Pandoc kann MathML über den Schalter
--mathmlausgeben. - LaTeXML – eine dedizierte LaTeX‑zu‑XML‑Pipeline, die hochqualitatives MathML und XHTML erzeugt.
- Bild‑Fallback – für Umgebungen, die MathML nicht rendern können, konfiguriere pandoc zur Erzeugung von SVG‑Bildern (
--webtex). SVG bleibt skalierbar, ohne zu rasterisieren.
Ein typischer pandoc‑Befehl, der beides balanciert:
pandoc manuscript.tex \
--webtex=https://latex.codecogs.com/svg.latex? \
--mathml \
-s -o manuscript.html
Das resultierende HTML enthält MathML für fähige Browser und SVG für den Rest.
7. Figuren und externe Medien verwalten
Figuren stammen häufig aus separaten PDF‑, PNG‑ oder EPS‑Dateien. Für Konsistenz:
- Figuren als PDF einbetten, wenn pdfLaTeX genutzt wird. So bleibt die Vektor‑Qualität im finalen PDF erhalten.
- Figuren zu SVG konvertieren für HTML/EPUB. Werkzeuge wie Inkscape (
inkscape -l fig.svg fig.pdf) bewahren Schärfe und erlauben CSS‑Styling. - Alt‑Text im LaTeX‑Quelltext bereitstellen mittels
\caption[Alt‑Text]{Vollständige Beschriftung}. Pandoc extrahiert das optionale Argument für Barrierefreiheit.
Vermeide große Rasterbilder, es sei denn, die Abbildung ist von Natur aus pixelbasiert (z. B. Mikroskopaufnahmen). Für solche Fälle vor dem Einbinden mit optipng oder jpegoptim komprimieren.
8. Ausgabe validieren
8.1 PDF‑Validierung
- veraPDF – prüft PDF/A‑Konformität.
- PDF/UA‑Validator – verifiziert Barrierefreiheits‑Tags.
Beide Tools auf das finale PDF anwenden und gemeldete Probleme (fehlender Alt‑Text, ungetaggte Tabellen usw.) beheben.
8.2 HTML‑Validierung
- W3C HTML‑Validator – stellt syntaktische Korrektheit sicher.
- axe‑core – scannt auf Barrierefreiheits‑Verstöße (fehlende ARIA‑Labels, falsche Überschriften‑Reihenfolge).
8.3 EPUB‑Validierung
- epubcheck – der Referenz‑Validator des International Digital Publishing Forum (IDPF). Er meldet fehlende Metadaten, ungültige Navigationsdateien oder fehlerhaftes MathML.
Durch Automatisierung dieser Checks in einer CI‑Pipeline (z. B. GitHub Actions) wird garantiert, dass jede neue Revision Qualitäts‑Gateways passiert, bevor sie veröffentlicht wird.
9. Workflow für mehrere Manuskripte automatisieren
Forscher*innen müssen häufig Dutzende von Abschlussarbeiten oder Konferenzbeiträgen pro Jahr verarbeiten. Ein leichtgewichtiges Automatisierungsskript kann die oben beschriebenen Schritte orchestrieren.
#!/usr/bin/env bash
set -euo pipefail
DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
cd "$d"
# 1. PDF/A bauen
latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
# 2. PDF/A validieren
verapdf "${d}.pdf"
# 3. Mit pandoc zu HTML & EPUB konvertieren
pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
# 4. HTML & EPUB validieren
html5validator "${d}.html"
epubcheck "${d}.epub"
cd ..
done
Das Skript nutzt latexmk für inkrementelle Kompilierung und führt nach jeder Konvertierung die drei Validatoren aus. Passe das Array DOCS an deine Verzeichnisstruktur an.
10. Wann ein Online‑Konvertierungs‑Service sinnvoll ist
Ein cloud‑basiertes Tool wie convertise.app kann für Einmal‑Konvertierungen praktisch sein, besonders wenn auf einem Rechner keine vollständige TeX‑Installation vorhanden ist. Der Service verarbeitet LaTeX‑Quellen in einer Sandbox, liefert PDF/A, HTML oder EPUB und beachtet dieselben Datenschutzprinzipien, die in seiner Dokumentation beschrieben werden. Für sensible Forschungsdaten empfiehlt sich jedoch eine selbst gehostete Pipeline oder die lokale Ausführung, um das Manuskript unter voller Kontrolle zu behalten.
11. Häufige Fallstricke und wie man sie vermeidet
| Fallstrick | Symptom | Gegenmaßnahme |
|---|---|---|
| Fehlende Schriften im PDF/A | Text erscheint als generisches Times oder es gibt Warnungen im Validator | Schriften explizit einbetten; \setmainfont{} mit XeLaTeX/LuaLaTeX oder das pdfx‑Paket mit pdfLaTeX verwenden |
| Kaputte Zitate nach HTML‑Export | [?]‑Platzhalter im fertigen HTML | Sicherstellen, dass die Bibliographie‑Datei erreichbar ist und --citeproc (pandoc) bzw. biber vor der Konvertierung eingesetzt wird |
| Gleichungen nur als Bilder | Kein auswählbarer Text, große Dateigröße | MathML‑Ausgabe aktivieren (--mathml) und SVG‑Fallback (--webtex) bereitstellen |
| Fehlende Alt‑Texte bei Abbildungen | Barrierefreiheits‑Validator meldet Lücken | Optionale Kurzbeschriftung (\caption[Alt]{Lang}) angeben, die pandoc extrahiert |
| Übermäßig große EPUB‑Dateien | Langsamer Download, Reader‑Abstürze | Rasterbilder mit jpegoptim/optipng optimieren und nach Möglichkeit vektorielle SVGs verwenden |
Durch frühzeitiges Prüfen jedes Punkts lässt sich ein Kaskaden‑Nacharbeitsaufwand vermeiden.
12. Integration des Prozesses in institutionelle Repositorien
Viele Universitäten betreiben institutionelle Repositorien, die Einreichungen in verschiedenen Formaten aufnehmen. Zur Vereinfachung der Aufnahme:
- Standardisiere PDF/A‑1b als archiviertes Master‑Dokument und erzeuge es direkt aus LaTeX (siehe Abschnitt 4).
- HTML‑Abstracts aus derselben LaTeX‑Quelle generieren und als separate Metadaten‑Felder für Suchmaschinen‑Indexierung speichern.
- EPUB als Zusatz‑Download für Leser*innen, die e‑Reader bevorzugen; Dateigröße unter 5 MB halten, indem Bilder komprimiert werden.
- Konvertierungs‑Provenienz (Engine‑Version, Paketliste, Validator‑Ergebnisse) im Metadatenschema des Repositoriums festhalten. Das erfüllt Prüfungs‑ und Reproduzierbarkeits‑Anforderungen.
13. Zusammenfassung
LaTeX‑Manuskripte in mehrere Auslieferungsformate zu überführen ist kein einfacher „Klick‑und‑Fertig“-Vorgang. Er erfordert ein klares Verständnis der Zielstandards, eine bewusste Vorbereitung der Quelle und rigorose Validierung jedes Outputs. Durch die Wahl des passenden Engines, das explizite Einbetten von Schriften, einen robusten PDF/A‑Workflow und den Einsatz von Werkzeugen wie pandoc, LaTeXML sowie spezialisierten Validatoren können Autor*innen eine einzige Quelle publizieren, die sowohl traditionelle Fachzeitschriften, Webportale als auch e‑Reader zuverlässig erreicht. Automatisierungsskripte machen den Prozess wiederholbar, während gelegentliche Einsätze datenschutz‑konformer Online‑Dienste wie convertise.app gelegentliche Lücken schließen, ohne die Kontrolle über das Manuskript zu verlieren. Implementieren Sie diese Praktiken, und Ihre wissenschaftliche Arbeit bleibt über den gesamten digitalen Lebenszyklus hinweg treu, zugänglich und nachhaltig.