LaTeX‑Dokumente für die akademische Veröffentlichung konvertieren

LaTeX bleibt der de‑facto‑Standard für wissenschaftliche Manuskripte, Konferenzbeiträge und Abschlussarbeiten. Seine Stärke liegt in der präzisen Satz­gestaltung von Mathematik, Bibliografien und komplexen Strukturen. Dennoch verlangen Verlage, institutionelle Repositorien und Leser häufig dasselbe Material in alternativen Formaten — PDF/A für die Archivierung, HTML für das web‑basierte Lesen oder EPUB für e‑Reader. Der Konvertierungsschritt ist voller versteckter Fallstricke: fehlende Schriften, kaputte Querverweise oder veränderte Abstände, die den wissenschaftlichen Nachweis gefährden können.

Dieser Beitrag führt durch einen systematischen Workflow, der die Autor*innen‑Intention bewahrt und gleichzeitig distributionsfertige Dateien erzeugt. Der Fokus liegt auf praktischen Entscheidungen, Werkzeugwahl und Verifikationsmethoden, die für ein einzelnes Manuskript oder einen Stapel von Einreichungen funktionieren.


1. Ziel­formate und ihre Einschränkungen verstehen

Bevor irgendeine Konvertierung gestartet wird, müssen die genauen Ausgabespezifikationen definiert werden. Unterschiedliche Auslieferungs­kanäle bringen verschiedene technische Vorgaben mit sich:

  • PDF/A‑1b – der ISO‑Standard für langfristige Erhaltung. Er verbietet Verschlüsselung, verlangt eingebettete Schriften und lässt nicht referenzierte Farbräume nicht zu.
  • PDF/UA – eine PDF‑Variante, die Barrierefreiheits‑Normen erfüllt (richtige Tags, Lesereihenfolge, Alt‑Text für Grafiken).
  • HTML5 – ideal für Webportale; erfordert semantisches Markup, responsive Bilder und MathML oder Fallback‑Bilder für Formeln.
  • EPUB 3 – das E‑Book‑Format, das fließbaren Text, eingebettete Schriften und MathML unterstützt; geeignet für Tablets und e‑Reader.

Jedes Format verlangt spezifische Kompilierungs‑Flags oder Nachbearbeitungsschritte. Diese Einschränkungen frühzeitig zuzuordnen spart Zeit und verhindert teure Nacharbeiten.


2. Einen robusten LaTeX‑Engine wählen

Der aufgerufene Engine bestimmt, wie getreu die Quelle gerendert wird und welche Hilfsdateien erzeugt werden.

EngineStärkenTypische Anwendungsfälle
pdfLaTeXDirekter PDF‑Output, reifes Ökosystem, breiter Paket‑Support.Einfache Artikel, Konferenzbeiträge, bei denen PDF/A‑Konformität später hinzugefügt werden kann.
XeLaTeXNativer Unicode‑Support, einfache Schriftauswahl über Systemschriften, gut für mehrsprachige Texte.Dokumente mit nicht‑lateinischen Skripten oder benutzerdefinierten OpenType‑Schriften.
LuaLaTeXErweiterbar durch Lua‑Scripting, feinkörnige Kontrolle von Schriften und PDFs.Komplexe Layouts, programmierbare Bibliographiestile oder wenn eine strenge PDF‑Metadaten‑Steuerung nötig ist.

Für archivierungs‑geeignete PDFs (PDF/A) ist pdfLaTeX kombiniert mit dem Paket pdfx ein zuverlässiger Ausgangspunkt. Für HTML oder EPUB wird das LaTeX‑Quellfile später durch ein Konvertierungstool geleitet, das einen sauberen Zwischenschritt‑PDF oder DVI erwartet.


3. Die Quelle für die Konvertierung vorbereiten

3.1 Pakete minimal und gut dokumentiert halten

Redundante oder veraltete Pakete erhöhen die Wahrscheinlichkeit von Kompilierfehlern, wenn man den Engine wechselt. Auditiere die \usepackage{}‑Anweisungen und entferne alles, was nicht essentiell für das End‑Layout ist.

3.2 Schriften explizit einbetten

Wenn das finale PDF jede Glyphe einbetten muss, deklariere die Schriftfamilie mit \setmainfont{} (XeLaTeX/LuaLaTeX) bzw. dem Mechanismus \pdfmapfile{} (pdfLaTeX). Prüfe, dass die gewählten Schriften für die Verteilung lizenziert sind; sonst substituiert die Konvertierung stillschweigend Standardschriften und zerstört die visuelle Konsistenz.

3.3 Standard‑Bibliographie‑Tools verwenden

Pflege Bibliographiedaten in einer einzelnen .bib‑Datei und nutze biblatex mit biber für moderne Zitierstile. Dieser Ansatz bewahrt Zitatschlüssel über alle Formate hinweg, was die Erzeugung von Literaturverzeichnissen in HTML oder EPUB erleichtert.


4. Einen qualitativ hochwertigen PDF‑Baseline erzeugen

Ein sauberer PDF ist das Fundament für die meisten nachfolgenden Konvertierungen. Vorgehen:

  1. Zweimal kompilieren, um Querverweise und das Inhaltsverzeichnis aufzulösen.
  2. biber ausführen (oder bibtex, falls du bei Legacy‑Stilen bleibst) zwischen den Kompilierungen.
  3. Das Paket pdfx einbinden:
\usepackage[x-1a]{pdfx}

Damit werden die erforderlichen PDF/A‑Metadaten eingefügt und die Schrift­einbettung erzwungen.
4. Das Log prüfen auf Missing font‑Warnungen. Falls solche auftreten, die fehlenden Schriften zur Map‑Datei hinzufügen oder zu XeLaTeX wechseln.

Verwende einen PDF‑Validator (z. B. veraPDF), um die PDF/A‑Konformität vor dem nächsten Schritt zu bestätigen.


5. PDF nach HTML und EPUB konvertieren

Es gibt zwei Hauptstrategien:

5.1 Direkt‑LaTeX‑zu‑HTML/EPUB‑Werkzeuge

  • pandoc – ein universeller Konverter, der LaTeX liest und HTML5 oder EPUB ausgibt. Er verarbeitet Zitate, Figuren und einfache Gleichungen über MathJax.
  • latex2html – älter, leichter, hat aber Probleme mit modernen Paketen und komplexer Mathematik.

Pandoc‑Workflow:

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.html

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.epub

Wichtige Optionen:

  • --pdf-engine sorgt dafür, dass benutzerdefinierte Schriften beachtet werden.
  • --citeproc lässt pandoc die .bib‑Datei verarbeiten und ein Literaturverzeichnis rendern.
  • -s erzeugt ein eigenständiges Dokument mit eingebettetem CSS.

5.2 PDF‑first‑Ansatz

Wenn das PDF bereits PDF/A/UA‑Standards erfüllt, kann seine Struktur mit pdf2htmlEX (für HTML) bzw. Calibre (für EPUB) extrahiert werden. Diese Methode bewahrt die exakte Seitennummerierung und Schrift­darstellung, erzeugt jedoch häufig große Rasterbilder für Formeln.

Vorteile: Nahezu identische visuelle Treue.
Nachteile: Größere Ausgabedateien, eingeschränkte Barrierefreiheit, weil Text häufig als Bild vorliegt.


6. Mathematik über Formate hinweg bewahren

Formeln sind das empfindlichste Element bei Konvertierungen.

  • MathML – native Unterstützung in modernen Browsern und EPUB 3. Pandoc kann MathML über den Schalter --mathml ausgeben.
  • LaTeXML – eine dedizierte LaTeX‑zu‑XML‑Pipeline, die hochqualitatives MathML und XHTML erzeugt.
  • Bild‑Fallback – für Umgebungen, die MathML nicht rendern können, konfiguriere pandoc zur Erzeugung von SVG‑Bildern (--webtex). SVG bleibt skalierbar, ohne zu rasterisieren.

Ein typischer pandoc‑Befehl, der beides balanciert:

pandoc manuscript.tex \
  --webtex=https://latex.codecogs.com/svg.latex? \
  --mathml \
  -s -o manuscript.html

Das resultierende HTML enthält MathML für fähige Browser und SVG für den Rest.


7. Figuren und externe Medien verwalten

Figuren stammen häufig aus separaten PDF‑, PNG‑ oder EPS‑Dateien. Für Konsistenz:

  1. Figuren als PDF einbetten, wenn pdfLaTeX genutzt wird. So bleibt die Vektor‑Qualität im finalen PDF erhalten.
  2. Figuren zu SVG konvertieren für HTML/EPUB. Werkzeuge wie Inkscape (inkscape -l fig.svg fig.pdf) bewahren Schärfe und erlauben CSS‑Styling.
  3. Alt‑Text im LaTeX‑Quelltext bereitstellen mittels \caption[Alt‑Text]{Vollständige Beschriftung}. Pandoc extrahiert das optionale Argument für Barrierefreiheit.

Vermeide große Rasterbilder, es sei denn, die Abbildung ist von Natur aus pixelbasiert (z. B. Mikroskopaufnahmen). Für solche Fälle vor dem Einbinden mit optipng oder jpegoptim komprimieren.


8. Ausgabe validieren

8.1 PDF‑Validierung

  • veraPDF – prüft PDF/A‑Konformität.
  • PDF/UA‑Validator – verifiziert Barrierefreiheits‑Tags.

Beide Tools auf das finale PDF anwenden und gemeldete Probleme (fehlender Alt‑Text, ungetaggte Tabellen usw.) beheben.

8.2 HTML‑Validierung

  • W3C HTML‑Validator – stellt syntaktische Korrektheit sicher.
  • axe‑core – scannt auf Barrierefreiheits‑Verstöße (fehlende ARIA‑Labels, falsche Überschriften‑Reihenfolge).

8.3 EPUB‑Validierung

  • epubcheck – der Referenz‑Validator des International Digital Publishing Forum (IDPF). Er meldet fehlende Metadaten, ungültige Navigationsdateien oder fehlerhaftes MathML.

Durch Automatisierung dieser Checks in einer CI‑Pipeline (z. B. GitHub Actions) wird garantiert, dass jede neue Revision Qualitäts‑Gateways passiert, bevor sie veröffentlicht wird.


9. Workflow für mehrere Manuskripte automatisieren

Forscher*innen müssen häufig Dutzende von Abschlussarbeiten oder Konferenzbeiträgen pro Jahr verarbeiten. Ein leichtgewichtiges Automatisierungsskript kann die oben beschriebenen Schritte orchestrieren.

#!/usr/bin/env bash
set -euo pipefail

DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
  cd "$d"
  # 1. PDF/A bauen
  latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
  # 2. PDF/A validieren
  verapdf "${d}.pdf"
  # 3. Mit pandoc zu HTML & EPUB konvertieren
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
  # 4. HTML & EPUB validieren
  html5validator "${d}.html"
  epubcheck "${d}.epub"
  cd ..
done

Das Skript nutzt latexmk für inkrementelle Kompilierung und führt nach jeder Konvertierung die drei Validatoren aus. Passe das Array DOCS an deine Verzeichnisstruktur an.


10. Wann ein Online‑Konvertierungs‑Service sinnvoll ist

Ein cloud‑basiertes Tool wie convertise.app kann für Einmal‑Konvertierungen praktisch sein, besonders wenn auf einem Rechner keine vollständige TeX‑Installation vorhanden ist. Der Service verarbeitet LaTeX‑Quellen in einer Sandbox, liefert PDF/A, HTML oder EPUB und beachtet dieselben Datenschutzprinzipien, die in seiner Dokumentation beschrieben werden. Für sensible Forschungsdaten empfiehlt sich jedoch eine selbst gehostete Pipeline oder die lokale Ausführung, um das Manuskript unter voller Kontrolle zu behalten.


11. Häufige Fallstricke und wie man sie vermeidet

FallstrickSymptomGegenmaßnahme
Fehlende Schriften im PDF/AText erscheint als generisches Times oder es gibt Warnungen im ValidatorSchriften explizit einbetten; \setmainfont{} mit XeLaTeX/LuaLaTeX oder das pdfx‑Paket mit pdfLaTeX verwenden
Kaputte Zitate nach HTML‑Export[?]‑Platzhalter im fertigen HTMLSicherstellen, dass die Bibliographie‑Datei erreichbar ist und --citeproc (pandoc) bzw. biber vor der Konvertierung eingesetzt wird
Gleichungen nur als BilderKein auswählbarer Text, große DateigrößeMathML‑Ausgabe aktivieren (--mathml) und SVG‑Fallback (--webtex) bereitstellen
Fehlende Alt‑Texte bei AbbildungenBarrierefreiheits‑Validator meldet LückenOptionale Kurzbeschriftung (\caption[Alt]{Lang}) angeben, die pandoc extrahiert
Übermäßig große EPUB‑DateienLangsamer Download, Reader‑AbstürzeRasterbilder mit jpegoptim/optipng optimieren und nach Möglichkeit vektorielle SVGs verwenden

Durch frühzeitiges Prüfen jedes Punkts lässt sich ein Kaskaden‑Nacharbeitsaufwand vermeiden.


12. Integration des Prozesses in institutionelle Repositorien

Viele Universitäten betreiben institutionelle Repositorien, die Einreichungen in verschiedenen Formaten aufnehmen. Zur Vereinfachung der Aufnahme:

  1. Standardisiere PDF/A‑1b als archiviertes Master‑Dokument und erzeuge es direkt aus LaTeX (siehe Abschnitt 4).
  2. HTML‑Abstracts aus derselben LaTeX‑Quelle generieren und als separate Metadaten‑Felder für Suchmaschinen‑Indexierung speichern.
  3. EPUB als Zusatz‑Download für Leser*innen, die e‑Reader bevorzugen; Dateigröße unter 5 MB halten, indem Bilder komprimiert werden.
  4. Konvertierungs‑Provenienz (Engine‑Version, Paketliste, Validator‑Ergebnisse) im Metadatenschema des Repositoriums festhalten. Das erfüllt Prüfungs‑ und Reproduzierbarkeits‑Anforderungen.

13. Zusammenfassung

LaTeX‑Manuskripte in mehrere Auslieferungsformate zu überführen ist kein einfacher „Klick‑und‑Fertig“-Vorgang. Er erfordert ein klares Verständnis der Ziel­standards, eine bewusste Vorbereitung der Quelle und rigorose Validierung jedes Outputs. Durch die Wahl des passenden Engines, das explizite Einbetten von Schriften, einen robusten PDF/A‑Workflow und den Einsatz von Werkzeugen wie pandoc, LaTeXML sowie spezialisierten Validatoren können Autor*innen eine einzige Quelle publizieren, die sowohl traditionelle Fachzeitschriften, Webportale als auch e‑Reader zuverlässig erreicht. Automatisierungsskripte machen den Prozess wiederholbar, während gelegentliche Einsätze datenschutz‑konformer Online‑Dienste wie convertise.app gelegentliche Lücken schließen, ohne die Kontrolle über das Manuskript zu verlieren. Implementieren Sie diese Praktiken, und Ihre wissenschaftliche Arbeit bleibt über den gesamten digitalen Lebenszyklus hinweg treu, zugänglich und nachhaltig.