Conversion de documents LaTeX pour la publication académique
LaTeX reste le standard de facto pour les manuscrits scientifiques, les communications de conférences et les thèses. Sa force réside dans la composition précise des mathématiques, des bibliographies et des structures complexes. Pourtant, les éditeurs, les dépôts institutionnels et les lecteurs exigent souvent le même contenu dans des formats alternatifs — PDF/A pour l’archivage, HTML pour la lecture Web, ou EPUB pour les liseuses. L’étape de conversion est semée d’embûches cachées : polices manquantes, références croisées cassées ou espacement modifié qui compromettent le registre scientifique.
Cet article décrit un flux de travail systématique qui préserve l’intention de l’auteur tout en produisant des fichiers prêts à être diffusés. L’accent est mis sur les décisions pratiques, le choix des outils et les méthodes de vérification qui fonctionnent pour un seul manuscrit ou pour un lot de soumissions.
1. Comprendre les formats cibles et leurs contraintes
Avant d’exécuter une conversion, définissez les exigences exactes de sortie. Les différents canaux de diffusion imposent des contraintes techniques distinctes :
- PDF/A‑1b – la norme ISO pour la préservation à long terme. Elle interdit le chiffrement, exige l’incorporation des polices et proscrit les espaces colorimétriques non référencés.
- PDF/UA – une variante PDF qui répond aux normes d’accessibilité (balises appropriées, ordre de lecture, texte alternatif pour les images).
- HTML5 – idéal pour les portails Web ; nécessite un balisage sémantique, des images responsives et MathML ou des images de secours pour les formules.
- EPUB 3 – le format d’e‑book qui supporte le texte reformatable, les polices embarquées et MathML ; adapté aux tablettes et liseuses.
Chaque format impose des drapeaux de compilation ou des étapes de post‑traitement spécifiques. Cartographier ces contraintes dès le départ fait gagner du temps et évite des retouches coûteuses.
2. Choisir un moteur LaTeX robuste
Le moteur que vous invoquez détermine la fidélité du rendu et les fichiers auxiliaires produits.
| Moteur | Points forts | Cas d’usage typiques |
|---|---|---|
| pdfLaTeX | Production directe de PDF, écosystème mature, large prise en charge des paquets. | Articles simples, soumissions de conférence où la conformité PDF/A peut être ajoutée ultérieurement. |
| XeLaTeX | Gestion native de l’Unicode, sélection facile des polices système, bon pour les textes multilingues. | Documents contenant des scripts non latins ou des polices OpenType personnalisées. |
| LuaLaTeX | Extensible via le scripting Lua, contrôle fin des polices et du PDF. | Mises en page complexes, styles de bibliographie programmables, ou lorsque vous avez besoin d’un contrôle serré des métadonnées PDF. |
Pour les PDF d’archivage (PDF/A), pdfLaTeX combiné avec le paquet pdfx constitue une base fiable. Pour HTML ou EPUB, vous passerez ensuite le source LaTeX à un outil de conversion qui attend un PDF ou DVI intermédiaire propre.
3. Préparer la source pour la conversion
3.1 Garder les paquets minimalistes et bien documentés
Les paquets redondants ou obsolètes augmentent le risque d’erreurs de compilation lorsqu’on change de moteur. Passez en revue les déclarations \usepackage{} et supprimez tout ce qui n’est pas indispensable à l’apparence finale.
3.2 Incorporer explicitement les polices
Lorsque le PDF final doit embarquer chaque glyphe, déclarez la famille de police avec \setmainfont{} (XeLaTeX/LuaLaTeX) ou le mécanisme \pdfmapfile{} (pdfLaTeX). Vérifiez que les polices sélectionnées sont licenciées pour la distribution ; sinon, la conversion remplacera silencieusement les polices par défaut, rompant la cohérence visuelle.
3.3 Utiliser des outils de bibliographie standards
Conservez les données bibliographiques dans un seul fichier .bib et recourez à biblatex avec biber pour des styles de citation modernes. Cette approche préserve les clés de citation entre les formats, facilitant la génération des listes de références en HTML ou EPUB.
4. Générer une base PDF de haute qualité
Un PDF propre constitue le socle de la plupart des conversions en aval. Suivez ces étapes :
- Compiler deux fois pour résoudre les références croisées et la table des matières.
- Exécuter
biber(oubibtexsi vous restez avec des styles hérités) entre les compilations. - Appliquer le paquet
pdfx:
Cela injecte les métadonnées PDF/A requises et force l’incorporation des polices.\usepackage[x-1a]{pdfx} - Vérifier le log pour tout avertissement
Missing font. S’il y en a, ajoutez les polices manquantes au fichier de map ou passez à XeLaTeX.
Utilisez un validateur PDF (par ex. veraPDF) pour confirmer la conformité PDF/A avant de poursuivre.
5. Conversion du PDF vers HTML et EPUB
Deux stratégies principales sont possibles :
5.1 Outils directs LaTeX → HTML/EPUB
- pandoc – convertisseur universel qui lit le LaTeX et produit HTML5 ou EPUB. Il gère les citations, les figures et les équations simples via MathJax.
- latex2html – plus ancien, plus léger, mais a du mal avec les paquets modernes et les mathématiques complexes.
Flux de travail pandoc :
pandoc manuscript.tex \
--pdf-engine=xelatex \
--citeproc \
-s -o manuscript.html
pandoc manuscript.tex \
--pdf-engine=xelatex \
--citeproc \
-s -o manuscript.epub
Options clés :
--pdf-enginegarantit que les polices personnalisées sont respectées.--citeprocfait que pandoc traite le fichier.bibet génère la bibliographie.-sproduit un document autonome avec CSS intégré.
5.2 Approche « PDF‑first »
Si le PDF satisfait déjà aux normes PDF/A/UA, vous pouvez en extraire la structure avec pdf2htmlEX (pour HTML) ou Calibre (pour EPUB). Cette méthode préserve exactement la pagination et le rendu des polices, mais peut intégrer de grandes images raster pour les équations.
Avantages : fidélité visuelle quasi‑identique.
Inconvénients : taille de sortie plus importante, accessibilité limitée car le texte sous‑jacent est souvent représenté sous forme d’images.
6. Préserver les mathématiques entre les formats
Les équations sont l’élément le plus fragile lors de la conversion.
- MathML – prise en charge native dans les navigateurs modernes et EPUB 3. Pandoc peut émettre du MathML avec le drapeau
--mathml. - LaTeXML – pipeline dédié LaTeX → XML qui produit du MathML et du XHTML de haute qualité.
- Fallback image – pour les environnements qui ne supportent pas MathML, configurez pandoc pour générer des images SVG (
--webtex). SVG conserve la scalabilité sans rasteriser la formule.
Une commande pandoc typique qui équilibre les deux :
pandoc manuscript.tex \
--webtex=https://latex.codecogs.com/svg.latex? \
--mathml \
-s -o manuscript.html
Le HTML résultant contient du MathML pour les navigateurs compatibles et du SVG pour les autres.
7. Gestion des figures et des médias externes
Les figures proviennent souvent de fichiers PDF, PNG ou EPS distincts. Pour assurer la cohérence :
- Incorporez les figures en PDF avec pdfLaTeX. Cela conserve la qualité vectorielle dans le PDF final.
- Convertissez les figures en SVG pour HTML/EPUB. Des outils comme Inkscape (
inkscape -l fig.svg fig.pdf) préservent la netteté et permettent le style CSS. - Fournissez du texte alternatif dans le source LaTeX avec
\caption[Texte alt]{Légende complète}. Pandoc extrait l’argument optionnel pour l’accessibilité.
Évitez les images raster volumineuses sauf si la figure est intrinsèquement pixel‑based (par ex. photographies de microscopie). Dans ce cas, compressez‑les avec optipng ou jpegoptim avant l’inclusion.
8. Validation des sorties
8.1 Validation du PDF
- veraPDF – vérifie la conformité PDF/A.
- PDF/UA‑Validator – contrôle les balises d’accessibilité.
Exécutez les deux sur le PDF final et corrigez les problèmes signalés (texte alternatif manquant, tableaux non balisés, etc.).
8.2 Validation du HTML
- W3C HTML validator – assure la conformité syntaxique.
- axe-core – recherche les violations d’accessibilité (labels ARIA manquants, ordre de titres incorrect).
8.3 Validation de l’EPUB
- epubcheck – le validateur de référence de l’International Digital Publishing Forum (IDPF). Il signale les métadonnées manquantes, les fichiers de navigation invalides ou le MathML mal formé.
Automatiser ces contrôles dans une pipeline CI (ex. GitHub Actions) garantit que chaque nouvelle révision franchit les portes de qualité avant la publication.
9. Automatiser le flux de travail pour plusieurs manuscrits
Les chercheurs doivent souvent traiter des dizaines de thèses ou de communications chaque année. Un script d’automatisation léger peut orchestrer les étapes décrites ci‑dessus.
#!/usr/bin/env bash
set -euo pipefail
DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
cd "$d"
# 1. Construire le PDF/A
latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
# 2. Valider le PDF/A
verapdf "${d}.pdf"
# 3. Convertir en HTML & EPUB avec pandoc
pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
# 4. Valider le HTML & l'EPUB
html5validator "${d}.html"
epubcheck "${d}.epub"
cd ..
done
Le script utilise latexmk pour une compilation incrémentale et lance les trois validateurs après chaque conversion. Ajustez le tableau DOCS selon votre arborescence.
10. Quand recourir à un service de conversion en ligne
Un outil cloud tel que convertise.app peut être pratique pour des conversions ponctuelles, surtout si vous ne disposez pas d’une installation TeX complète sur votre poste. Le service traite les sources LaTeX dans un bac à sable, renvoie PDF/A, HTML ou EPUB, et respecte les principes de confidentialité décrits dans sa documentation. Pour des données de recherche sensibles, privilégiez toutefois une chaîne locale auto‑hébergée ou exécutez la conversion en local afin de garder le contrôle sur le manuscrit.
11. Pièges courants et comment les éviter
| Piège | Symptom | Remède |
|---|---|---|
| Polices manquantes dans le PDF/A | Le texte apparaît en Times générique ou des avertissements apparaissent dans le validateur | Incorporer explicitement les polices ; utiliser \setmainfont{} avec XeLaTeX ou le paquet pdfx avec pdfLaTeX |
| Citations cassées après export HTML | Placeholders [?] dans le HTML final | S’assurer que le fichier de bibliographie est accessible et employer --citeproc (pandoc) ou biber avant la conversion |
| Équations rendues uniquement en images | Aucun texte sélectionnable, taille de fichier importante | Activer la sortie MathML (--mathml) et fournir un fallback SVG (--webtex) |
| Légendes de figures non nommées | Texte alternatif absent pour les lecteurs d’écran | Ajouter une légende courte optionnelle (\caption[Alt]{Longue}) que pandoc extrait |
| Fichiers EPUB excessivement gros | Téléchargement lent, plantages du lecteur | Optimiser les images raster (jpegoptim/optipng) et privilégier le vecteur SVG lorsqu’il est possible |
En vérifiant chacun de ces points dès le départ, vous évitez une cascade de retouches plus tard dans le pipeline de publication.
12. Intégrer le processus dans les dépôts institutionnels
De nombreuses universités exploitent des dépôts institutionnels qui ingèrent des dépôts dans divers formats. Pour rationaliser l’ingestion :
- Standardiser le PDF/A‑1b comme maître d’archivage. Le produire directement depuis LaTeX comme expliqué à la section 4.
- Générer des résumés HTML à partir de la même source LaTeX ; les stocker comme champs de métadonnées séparés pour l’indexation par les moteurs de recherche.
- Proposer l’EPUB en téléchargement auxiliaire pour les lecteurs qui préfèrent les liseuses ; maintenir la taille du fichier en dessous de 5 Mo en compressant les images.
- Enregistrer la provenance de la conversion (version du moteur, liste des paquets, résultats des validateurs) dans le schéma de métadonnées du dépôt. Cela satisfait les exigences d’audit et facilite la reproductibilité future.
13. Résumé
Convertir des manuscrits LaTeX en plusieurs formats de diffusion n’est pas une simple opération « clic‑et‑go ». Cela requiert une compréhension claire des normes cibles, une préparation délibérée de la source et une validation rigoureuse de chaque sortie. En choisissant le moteur adéquat, en incorporant les polices, en adoptant un flux PDF/A robuste et en s’appuyant sur des outils comme pandoc, LaTeXML et les validateurs dédiés, les auteurs peuvent publier à partir d’une source unique qui atteint en toute sécurité les revues traditionnelles, les portails Web et les liseuses. Des scripts d’automatisation rendent le processus réplicable, tandis que l’utilisation occasionnelle de services en ligne respectueux de la vie privée comme convertise.app peut combler les besoins ponctuels sans compromettre la sécurité des données. Mettez en œuvre ces bonnes pratiques, et votre travail scientifique préservera sa fidélité et son accessibilité tout au long du cycle de vie numérique.