تبدیل اسناد LaTeX برای انتشار علمی

LaTeX همچنان استاندارد دِ‌فاکتو برای دست‌نوشته‌های علمی، مقالات کنفرانسی و پایان‌نامه‌ها است. قوت آن در تنظیم دقیق ریاضیات، کتاب‌نامه‌ها و ساختارهای پیچیده نهفته است. با این حال، ناشران، مخازن سازمانی و خوانندگان اغلب نیازمند همان محتوا در فرمت‌های جایگزین هستند — PDF/A برای بایگانی، HTML برای مطالعه وب‌محور یا EPUB برای دستگاه‌های خواندن الکترونیکی. گام تبدیل پر از مشکلات پنهان است: قلم‌های گمشده، ارجاع‌های شکسته یا فاصله‌های تغییر یافته که سوابق علمی را تحت‌اثر قرار می‌دهند.

این مقاله یک جریان کاری سیستماتیک را مرور می‌کند که قصد نویسنده را حفظ کرده و در عین حال فایل‌های آماده توزیع را تولید می‌کند. تمرکز بر تصمیمات عملی، انتخاب ابزار و روش‌های اعتبارسنجی است که برای یک دست‌نوشته یا بسته‌ای از مقالات کار می‌کند.


۱. درک فرمت‌های هدف و محدودیت‌های آن‌ها

قبل از انجام هر تبدیل، الزامات خروجی دقیق را تعریف کنید. کانال‌های مختلف تحویل محدودیت‌های فنی متمایزی اعمال می‌کنند:

  • PDF/A‑1b – استاندارد ISO برای نگهداری بلندمدت. رمزگذاری را ممنوع می‌کند، نیاز به تعبیه قلم‌ها دارد و فضاهای رنگی بدون مرجع را نادیده می‌گیرد.
  • PDF/UA – یک گونهٔ PDF که با استانداردهای دسترس‌پذیری مطابقت دارد (برچسب‌های مناسب، ترتیب خواندن، متن‌جایگزین برای تصاویر).
  • HTML5 – مناسب برای پرتال‌های وب؛ نیاز به نشانه‌گذاری معنایی، تصاویر واکنش‌گرا و MathML یا تصاویر جایگزین برای معادلات دارد.
  • EPUB 3 – فرمت کتاب الکترونیکی که متن‌ها را بازپخش‌پذیر می‌کند، قلم‌های تعبیه‌شده و MathML را پشتیبانی می‌کند؛ مناسب برای تبلت‌ها و کتاب‌خوان‌های الکترونیکی.

هر فرمت پرچم‌های ترکیبی یا گام‌های پس‌پردازشی خاص خود را دارد. شناسایی این محدودیت‌ها در مراحل اولیه زمان صرفه‌جویی می‌کند و از بازکاری پرهزینه جلوگیری می‌نماید.


۲. انتخاب یک موتور LaTeX مقاوم

موتوری که فراخوانی می‌کنید، تعیین می‌کند که منبع تا چه حد وفادار به نمایش است و چه فایل‌های کمکی تولید می‌شود.

موتورقوت‌هاموارد استفاده معمول
pdfLaTeXخروجی مستقیم PDF، اکوسیستم بالغ، پشتیبانی گسترده از بسته‌ها.مقالات ساده، ارسال‌های کنفرانسی که سازگاری PDF/A می‌تواند بعدها اضافه شود.
XeLaTeXپشتیبانی بومی Unicode، انتخاب قلم راحت از طریق قلم‌های سیستم، مناسب برای متون چندزبانه.اسناد حاوی اسکریپت‌های غیرلاتین یا قلم‌های OpenType سفارشی.
LuaLaTeXقابلیت گسترش با اسکریپت‌نویسی Lua، کنترل دقیق بر قلم‌ها و PDFها.طرح‌بندی‌های پیچیده، سبک‌های کتاب‌نامهٔ برنامه‌پذیر، یا نیاز به کنترل دقیق متادیتای PDF.

برای PDFهای بایگانی (PDF/A)، ترکیب pdfLaTeX با بستهٔ pdfx یک پایهٔ قابل اطمینان است. برای HTML یا EPUB، پس از این مرحله معمولاً منبع LaTeX را از طریق ابزاری که انتظار یک PDF یا DVI میانی دارد، عبور می‌دهید.


۳. آماده‌سازی منبع برای تبدیل

۳.۱ حفظ بسته‌ها به‌صورت حداقل و مستند

بسته‌های تکراری یا منسوخ شانس خطاهای کامپایل را هنگام تغییر موتور افزایش می‌دهند. دستورات \usepackage{} را بازبینی کنید و هر بسته غیرضروری را حذف کنید.

۳.۲ تعبیهٔ صریح قلم‌ها

هنگامی که PDF نهایی باید هر گلیف را تعبیه کند، خانوادهٔ قلم را با \setmainfont{} (XeLaTeX/LuaLaTeX) یا مکانیزم \pdfmapfile{} (pdfLaTeX) اعلام کنید. اطمینان حاصل کنید که قلم‌های انتخاب‌شده دارای مجوز توزیع هستند؛ در غیر این صورت، تبدیل به‌صورت خاموش قلم‌های پیش‌فرض را جایگزین می‌کند و هماهنگی بصری را از بین می‌برد.

۳.۳ استفاده از ابزارهای کتاب‌نامهٔ استاندارد

داده‌های کتاب‌نامه را در یک فایل .bib نگهداری کنید و برای سبک‌های استنادی مدرن از biblatex به همراه biber استفاده کنید. این روش کلیدهای استنادی را در همهٔ فرمت‌ها حفظ می‌کند و تولید فهرست مراجع در HTML یا EPUB را ساده می‌سازد.


۴. تولید یک PDF پایهٔ با کیفیت بالا

یک PDF تمیز، سنگ بنا برای اکثر تبدیل‌های پسین است. این گام‌ها را دنبال کنید:

  1. دو بار کامپایل کنید تا ارجاع‌های متقابل و فهرست مطالب حل شوند.
  2. biber را اجرا کنید (یا bibtex اگر از سبک‌های قدیمی استفاده می‌کنید) بین کامپایل‌ها.
  3. بستهٔ pdfx را اعمال کنید:
    \usepackage[x-1a]{pdfx}
    
    این بسته متادیتای لازم برای PDF/A را اضافه می‌کند و تعبیهٔ قلم‌ها را اجباری می‌سازد.
  4. لاگ را بررسی کنید برای هر گونه هشدار Missing font. اگر رخ داد، قلم‌های گمشده را به فایل نقشه اضافه کنید یا به XeLaTeX سوئیچ کنید.

از یک اعتبارسنجی‌گر PDF (مثلاً veraPDF) برای تأیید سازگاری PDF/A پیش از ادامه استفاده کنید.


۵. تبدیل PDF به HTML و EPUB

دو استراتژی اصلی وجود دارد:

۵.۱ ابزارهای مستقیم LaTeX‑به‑HTML/EPUB

  • pandoc – مبدل جامع که LaTeX را می‌خواند و HTML5 یا EPUB می‌سازد. استنادات، شکل‌ها و معادلات ساده را از طریق MathJax مدیریت می‌کند.
  • latex2html – قدیمی‌تر، سبک‌تر، اما با بسته‌های مدرن و ریاضیات پیچیده مشکل دارد.

جریان کاری Pandoc:

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.html

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.epub

گزینه‌های کلیدی:

  • --pdf-engine تضمین می‌کند که قلم‌های سفارشی رعایت شوند.
  • --citeproc pandoc را وادار به پردازش فایل .bib و تولید کتاب‌نامه می‌کند.
  • -s سندی خودمحافظ با CSS تعبیه‌شده می‌سازد.

۵.۲ رویکرد «PDF‑اول»

اگر PDF از قبل با استانداردهای PDF/A/UA سازگار است، می‌توانید ساختار آن را با pdf2htmlEX (برای HTML) یا Calibre (برای EPUB) استخراج کنید. این روش صفحه‌بندی و رندر قلم دقیق را حفظ می‌کند اما ممکن است معادلات را به‌عنوان تصویر رستری جاسازی کند.

مزایا: وفاداری بصری تقریباً کامل.
معایب: اندازه خروجی بزرگ‌تر، دسترس‌پذیری محدود چون متن زیرین غالباً به صورت تصویر است.


۶. حفظ ریاضیات در همهٔ فرمت‌ها

معادلات شکننده‌ترین عنصر در هنگام تبدیل هستند.

  • MathML – پشتیبانی بومی در مرورگرهای مدرن و EPUB 3. Pandoc می‌تواند MathML تولید کند با پرچم --mathml.
  • LaTeXML – خط لولهٔ اختصاصی LaTeX‑به‑XML که MathML و XHTML با کیفیت بالا می‌سازد.
  • پشتیبان تصویری – برای محیط‌هایی که MathML را پشتیبانی نمی‌کنند، pandoc را طوری پیکربندی کنید که تصاویر SVG تولید کند (--webtex). SVG مقیاس‌پذیری را بدون رستری کردن فرمول حفظ می‌کند.

یک دستور pandoc متعادل می‌تواند این‌گونه باشد:

pandoc manuscript.tex \
  --webtex=https://latex.codecogs.com/svg.latex? \
  --mathml \
  -s -o manuscript.html

HTML حاصل شامل MathML برای مرورگرهای توانمند و SVG برای بقیه است.


۷. مدیریت شکل‌ها و رسانه‌های خارجی

شکل‌ها معمولاً از منابع PDF، PNG یا EPS جداگانه می‌آیند. برای اطمینان از سازگاری:

  1. شکل‌ها را به‌صورت PDF هنگام استفاده از pdfLaTeX تعبیه کنید. این کار کیفیت بردار را در PDF نهایی حفظ می‌کند.
  2. شکل‌ها را به SVG برای HTML/EPUB تبدیل کنید. ابزارهایی مثل Inkscape (inkscape -l fig.svg fig.pdf) وضوح را حفظ کرده و امکان استایل‌دهی CSS را می‌دهند.
  3. متن جایگزین را در منبع LaTeX با \caption[Alt text]{Full caption} فراهم کنید. Pandoc این آرگومان اختیاری را برای دسترس‌پذیری استخراج می‌کند.

از تصاویر رستری بزرگ خودداری کنید مگر اینکه شکل ذاتاً پیکسل‌محور باشد (مثلاً عکس‌های میکروسکوپی). برای این موارد قبل از گنجاندن، با optipng یا jpegoptim فشرده‌سازی کنید.


۸. اعتبارسنجی خروجی

۸.۱ اعتبارسنجی PDF

  • veraPDF – بررسی سازگاری PDF/A.
  • PDF/UA‑Validator – تگ‌های دسترس‌پذیری را تأیید می‌کند.

هر دو را بر روی PDF نهایی اجرا کنید و مشکلات گزارش‌شده (متن جایگزین گمشده، جداول بدون تگ و غیره) را رفع نمایید.

۸.۲ اعتبارسنجی HTML

  • W3C HTML validator – صحت نحوی را تضمین می‌کند.
  • axe‑core – نقایص دسترس‌پذیری (برچسب‌های ARIA گمشده، ترتیب سرفصل نادرست) را اسکن می‌کند.

۸.۳ اعتبارسنجی EPUB

  • epubcheck – اعتبارسنجی مرجع از IDPF. متادیتای گمشده، فایل‌های ناوبری نامعتبر یا MathML خراب را پرچم می‌زند.

اتوماتیک‌کردن این بررسی‌ها در یک خط لوله CI (مثلاً GitHub Actions) تضمین می‌کند که هر نسخهٔ جدید پیش از انتشار از درهای کیفیت عبور کند.


۹. خودکارسازی جریان کاری برای چندین دست‌نوشته

پژوهشگران اغلب نیاز به پردازش ده‌ها پایان‌نامه یا مقالهٔ کنفرانسی در هر سال دارند. یک اسکریپت سبک می‌تواند گام‌های ذکرشده را هماهنگ کند.

#!/usr/bin/env bash
set -euo pipefail

DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
  cd "$d"
  # 1. ساخت PDF/A
  latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
  # 2. اعتبارسنجی PDF/A
  verapdf "${d}.pdf"
  # 3. تبدیل به HTML & EPUB با pandoc
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
  # 4. اعتبارسنجی HTML & EPUB
  html5validator "${d}.html"
  epubcheck "${d}.epub"
  cd ..
done

اسکریپت از latexmk برای کامپایل افزایشی استفاده می‌کند و پس از هر تبدیل، سه اعتبارسنجی را اجرا می‌نماید. آرایهٔ DOCS را مطابق ساختار پوشهٔ خود تنظیم کنید.


۱۰. استفاده از سرویس‌های تبدیل آنلاین کی‑وقت

ابزاری ابری مانند convertise.app می‌تواند برای تبدیل‌های یک‌بار مصرف مفید باشد، به‌ویژه هنگامی که در یک ایستگاه کاری نصب کامل TeX ندارید. این سرویس منابع LaTeX را در یک سند‌بندی ساندباکس پردازش می‌کند، PDF/A، HTML یا EPUB باز می‌گرداند و اصول حریم خصوصی ذکرشده در مستندات خود را رعایت می‌کند. برای داده‌های پژوهشی حساس، however، یک خط لولهٔ میزبانی‑محلی یا تبدیل محلی را ترجیح دهید تا دست‌نوشته تحت کنترل شما بماند.


۱۱. مشکلات رایج و راه‌حل‌های پیشگیری

مشکلعلامتراه‌حل
قلم‌های گمشده در PDF/Aمتن به صورت Times عمومی ظاهر می‌شود یا هشدارهای اعتبارسنجیقلم‌ها را صریحاً تعبیه کنید؛ با XeLaTeX \setmainfont{} یا بستهٔ pdfx در pdfLaTeX استفاده کنید
ارجاع‌های شکسته پس از خروجی HTMLمکان‌گیرهای [?] در HTML نهاییاطمینان حاصل کنید فایل کتاب‌نامه در دسترس است و هنگام تبدیل از --citeproc (pandoc) یا biber استفاده کنید
معادلات فقط به‌صورت تصویر رندر می‌شوندمتن انتخاب‌پذیر نیست، حجم فایل بزرگخروجی MathML (--mathml) را فعال کنید و fallback SVG (--webtex) فراهم کنید
عنوان‌های شکل بدون ناممتن جایگزین برای خوانندگان صفحه‌خوانی موجود نیستعنوان کوتاه اختیاری (\caption[Alt]{Long}) را فراهم کنید تا pandoc استخراج کند
فایل‌های EPUB بیش از حد بزرگدانلود کند، برنامهٔ کتاب‌خوان می‌خراب شودتصاویر رستری را بهینه کنید (jpegoptim/optipng) و در صورت امکان از SVG برداری استفاده کنید

با بررسی هر یک از این موارد در مراحل اولیه، از زنجیره‌ای از بازکاری‌های بعدی جلوگیری می‌کنید.


۱۲. یکپارچه‌سازی فرایند در مخازن سازمانی

بسیاری از دانشگاه‌ها مخازن سازمانی دارند که ارسال‌ها را در فرمت‌های مختلف می‌پذیرند. برای ساده‌سازی ورود:

  1. استانداردسازی بر روی PDF/A‑1b به‌عنوان نسخهٔ بایگانی اصلی. آن را مستقیماً از LaTeX همان‌طور که در بخش ۴ توضیح شد، تولید کنید.
  2. تولید چکیده‌های HTML با استفاده از همان منبع LaTeX؛ آن‌ها را به‌صورت فیلدهای متادیتا جداگانه برای ایندکس‌کردن موتورهای جستجو ذخیره کنید.
  3. ارائه EPUB به‌عنوان دانلود کمکی برای خوانندگانی که ترجیح می‌دهند از کتاب‌خوان‌های الکترونیکی استفاده کنند؛ اندازهٔ فایل را زیر 5 MB نگه دارید با فشرده‌سازی تصویر.
  4. ثبت پایهٔ تبدیل (نسخهٔ موتور، فهرست بسته‌ها، نتایج اعتبارسنجی) را در طرح‌وارهٔ متادیتای مخزن ثبت کنید. این کار نیازمندی‌های حسابرسی را برآورده می‌کند و در بازتولید آینده کمک می‌کند.

۱۳. جمع‌بندی

تبدیل دست‌نوشته‌های LaTeX به چندین فرمت تحویل، کاری فراتر از «کلیک و رها کردن» نیست. این کار نیازمند درک واضحی از استانداردهای هدف، آماده‌سازی عمدی منبع و اعتبارسنجی سختگیرانهٔ هر خروجی است. با انتخاب موتور مناسب، تعبیهٔ قلم‌ها، استفاده از جریان کاری PDF/A مستحکم و بهره‌گیری از ابزارهایی مثل pandoc، LaTeXML و اعتبارسنجی‌کننده‌های اختصاصی، نویسندگان می‌توانند یک منبع واحد داشته باشند که به‌صورت ایمن به ژورنال‌های سنتی، پورتال‌های وب و کتاب‌خوان‌های الکترونیکی می‌رسد. اسکریپت‌های خودکار روند را تکرارپذیر نگه می‌دارند، در حالی که استفاده گاه‑به‌گاه از خدمات آنلاین متمرکز بر حریم خصوصی مانند convertise.app می‌تواند خلاهای موقتی را پر کند بدون به خطر افتادن امنیت داده‌ها. این شیوه‌ها را اجرا کنید تا کار علمی‌تان در طول چرخهٔ دیجیتالی خود، وفاداری و دسترس‌پذیری خود را حفظ کند.