การแปลงเอกสาร LaTeX สำหรับการเผยแพร่ทางวิชาการ

LaTeX ยังคงเป็นมาตรฐานที่ใช้กันอย่างแพร่หลายในงานวิทยาศาสตร์, เอกสารการประชุม, และวิทยานิพนธ์. จุดแข็งของมันอยู่ที่การจัดพิมพ์คณิตศาสตร์, บรรณานุกรม, และโครงสร้างที่ซับซ้อนอย่างแม่นยำ. อย่างไรก็ตาม, ผู้จัดพิมพ์, ที่เก็บข้อมูลสถาบัน, และผู้อ่านมักต้องการวัสดุเดียวกันในรูปแบบอื่น — PDF/A สำหรับการเก็บถาวร, HTML สำหรับการอ่านแบบเว็บ, หรือ EPUB สำหรับเครื่องอ่านอี‑บุ๊ค. ขั้นตอนการแปลงมักเต็มไปด้วยอุปสรรคที่ซ่อนอยู่: แบบอักษรหาย, การอ้างอิงข้ามไม่ทำงาน, หรือการจัดวางที่เปลี่ยนแปลงทำให้บันทึกทางวิชาการเสียหาย.

บทความนี้จะอธิบายขั้นตอนการทำงานแบบระบบที่คงไว้ซึ่งเจตนารมณ์ของผู้เขียนพร้อมกับสร้างไฟล์ที่พร้อมจัดจำหน่าย. เน้นที่การตัดสินใจเชิงปฏิบัติ, การเลือกเครื่องมือ, และวิธีตรวจสอบที่ใช้ได้ทั้งเอกสารเดี่ยวหรือชุดของการส่งหลายฉบับ.

1. ทำความเข้าใจรูปแบบเป้าหมายและข้อจำกัดของแต่ละรูปแบบ

ก่อนเริ่มแปลงใด ๆ ให้กำหนดความต้องการของผลลัพธ์อย่างชัดเจน. ช่องทางการเผยแพร่ที่ต่างกันมีข้อจำกัดทางเทคนิคที่แตกต่างกัน:

PDF/A‑1b – มาตรฐาน ISO สำหรับการเก็บรักษาระยะยาว. ไม่อนุญาตให้มีการเข้ารหัส, ต้องฝังแบบอักษรทั้งหมด, และห้ามใช้พื้นที่สีที่ไม่ได้อ้างอิง.
PDF/UA – รูปแบบ PDF ที่ตอบสนองมาตรฐานการเข้าถึง (tags ที่ถูกต้อง, ลำดับการอ่าน, ข้อความแทนภาพสำหรับรูปภาพ).
HTML5 – เหมาะสำหรับพอร์ทัลเว็บ; ต้องการ markup เชิงความหมาย, รูปภาพตอบสนอง, และ MathML หรือภาพสำรองสำหรับสมการ.
EPUB 3 – รูปแบบอี‑บุ๊คที่รองรับข้อความที่จัดเรียงใหม่ได้, ฝังแบบอักษร, และ MathML; เหมาะสำหรับแท็บเล็ตและเครื่องอ่านอี‑บุ๊ค.

แต่ละรูปแบบกำหนดแฟล็กการคอมไพล์หรือขั้นตอนการประมวลผลหลังการแปลงที่เฉพาะเจาะจหมาย. การกำหนดข้อจำกัดเหล่านี้ตั้งแต่แรกจะช่วยประหยัดเวลาและหลีกเลี่ยงการทำงานซ้ำที่เสียค่าใช้จ่าย.

2. เลือกเอนจิน LaTeX ที่มั่นคง

เอนจินที่คุณเรียกใช้กำหนดว่าต้นฉบับจะถูกเรนเดอร์อย่างไรและไฟล์ช่วยเหลือใดบ้างที่ถูกสร้าง.

เอนจิน	จุดแข็ง	กรณีใช้งานทั่วไป
pdfLaTeX	ส่งออก PDF โดยตรง, ระบบนิเวศที่มีความเสถียร, รองรับแพ็กเกจหลากหลาย.	บทความง่าย ๆ, การส่งงานประชุมที่สามารถเพิ่มความสอดคล้อง PDF/A ได้ภายหลัง.
XeLaTeX	จัดการ Unicode อย่างเป็นธรรมชาติ, เลือกแบบอักษรจากระบบได้ง่าย, เหมาะกับข้อความหลายภาษา.	เอกสารที่มีสคริปต์ที่ไม่ใช่ละตินหรือแบบอักษร OpenType ที่กำหนดเอง.
LuaLaTeX	ขยายได้ด้วยสคริปต์ Lua, ควบคุมแบบอักษรและ PDF อย่างละเอียด.	เค้าโครงที่ซับซ้อน, สไตล์บรรณานุกรมที่โปรแกรมได้, หรือเมื่อจำเป็นต้องจัดการเมทาดาต้า PDF อย่างใกล้ชิด.

สำหรับ PDF ที่ต้องการเก็บถาวร (PDF/A), pdfLaTeX ร่วมกับแพ็กเกจ pdfx เป็นฐานที่เชื่อถือได้. สำหรับ HTML หรือ EPUB, คุณจะต้องส่งต้นฉบับ LaTeX ผ่านเครื่องมือแปลงที่ต้องการ PDF หรือ DVI เป็นตัวกลางที่สะอาด.

3. เตรียมต้นฉบับสำหรับการแปลง

3.1 รักษาแพ็กเกจให้เหลือน้อยที่สุดและอธิบายอย่างชัดเจน

แพ็กเกจซ้ำหรือที่ล้าสมัยเพิ่มความเสี่ยงของข้อผิดพลาดในการคอมไพล์เมื่อเปลี่ยนเอนจิน. ตรวจสอบคำสั่ง \usepackage{} และลบแพ็กเกจที่ไม่จำเป็นต่อรูปลักษณ์สุดท้าย.

3.2 ฝังแบบอักษรอย่างชัดเจน

เมื่อ PDF สุดท้ายต้องฝังทุก glyph, กำหนดตระกูลแบบอักษรด้วย \setmainfont{} (XeLaTeX/LuaLaTeX) หรือกลไก \pdfmapfile{} (pdfLaTeX). ตรวจสอบว่าแบบอักษรที่เลือกได้รับอนุญาตให้แจกจ่าย; มิฉะนั้นการแปลงอาจแทนที่ด้วยแบบอักษรค่าเริ่มต้นโดยไม่แจ้งให้ทราบ ทำให้ความสอดคล้องของภาพเสีย.

3.3 ใช้เครื่องมือบรรณานุกรมมาตรฐาน

เก็บข้อมูลบรรณานุกรมไว้ในไฟล์ .bib เดียวและใช้ biblatex ร่วมกับ biber สำหรับสไตล์การอ้างอิงสมัยใหม่. วิธีนี้ทำให้คีย์อ้างอิงคงที่ข้ามรูปแบบต่าง ๆ ทำให้การสร้างรายการอ้างอิงใน HTML หรือ EPUB ง่ายขึ้น.

4. สร้าง PDF คุณภาพสูงเป็นฐาน

PDF ที่สะอาดเป็นศูนย์กลางของการแปลงส่วนใหญ่. ทำตามขั้นตอนต่อไปนี้:

คอมไพล์สองครั้ง เพื่อให้การอ้างอิงข้ามและสารบัญถูกแก้ไข.
รัน biber (หรือ bibtex หากใช้สไตล์เก่า) ระหว่างการคอมไพล์.
ใช้แพ็กเกจ pdfx:
```
\usepackage[x-1a]{pdfx}
```
สิ่งนี้จะใส่เมทาดาต้า PDF/A ที่จำเป็นและบังคับให้ฝังแบบอักษร.
ตรวจสอบ log ว่ามีคำเตือน Missing font หรือไม่. หากมี, ให้เพิ่มแบบอักษรที่หายไปในไฟล์แมพหรือสลับไปใช้ XeLaTeX.

ใช้ตัวตรวจสอบ PDF (เช่น veraPDF) เพื่อยืนยันความสอดคล้องกับ PDF/A ก่อนดำเนินการต่อ.

5. แปลง PDF เป็น HTML และ EPUB

มีสองกลยุทธ์หลัก:

5.1 เครื่องมือ LaTeX‑to‑HTML/EPUB โดยตรง

pandoc – ตัวแปลงสากลที่อ่าน LaTeX แล้วสร้าง HTML5 หรือ EPUB. รองรับการอ้างอิง, รูปภาพ, และสมการง่าย ๆ ผ่าน MathJax.
latex2html – เก่าและเบา แต่ทำงานได้ยากกับแพ็กเกจสมัยใหม่และคณิตศาสตร์ที่ซับซ้อน.

ขั้นตอนการทำงานด้วย Pandoc:

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.html

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.epub

ตัวเลือกที่สำคัญ:

--pdf-engine ทำให้แบบอักษรที่กำหนดเองถูกนำมาใช้.
--citeproc ให้ pandoc ประมวลผลไฟล์ .bib และสร้างบรรณานุกรม.
-s สร้างเอกสารที่เป็นอิสระพร้อม CSS ฝังอยู่.

5.2 วิธีแบบ PDF‑First

หาก PDF 已符合 PDF/A/UA, สามารถสกัดโครงสร้างด้วย pdf2htmlEX (สำหรับ HTML) หรือ Calibre (สำหรับ EPUB). วิธีนี้รักษาการจัดหน้าและการแสดงผลแบบฟอนต์เดิมอย่างแม่นยำ แต่บางครั้งอาจฝังภาพเรสเตอร์สำหรับสมการ.

ข้อดี: ความสอดคล้องทางภาพเกือบเทียบเท่า.

ข้อเสีย: ขนาดผลลัพธ์ใหญ่กว่า, การเข้าถึงในระดับข้อความจำกัดเพราะข้อความมักถูกแทนด้วยภาพ.

6. รักษาคณิตศาสตร์ข้ามรูปแบบ

สมการเป็นส่วนที่เปราะบางที่สุดในการแปลง.

MathML – รองรับโดยเบราว์เซอร์รุ่นใหม่และ EPUB 3. Pandoc สามารถส่งออก MathML ด้วยแฟล็ก --mathml.
LaTeXML – สายการทำงาน LaTeX‑to‑XML เฉพาะที่สร้าง MathML และ XHTML คุณภาพสูง.
Image fallback – สำหรับสภาพแวดล้อมที่ไม่รองรับ MathML, ตั้งค่า pandoc ให้สร้างภาพ SVG (--webtex). SVG รักษาความคมชัดโดยไม่ทำให้เป็นพิกเซล.

คำสั่ง pandoc ที่ให้สมดุลระหว่างสองวิธี:

pandoc manuscript.tex \
  --webtex=https://latex.codecogs.com/svg.latex? \
  --mathml \
  -s -o manuscript.html

HTML ที่ได้จะมี MathML สำหรับเบราว์เซอร์ที่รองรับและ SVG สำหรับกรณีอื่น ๆ.

7. จัดการรูปภาพและสื่อภายนอก

รูปภาพมักมาจากไฟล์ PDF, PNG, หรือ EPS แยกต่างหาก. เพื่อความสอดคล้องทำตามขั้นตอนต่อไป:

ฝังรูปเป็น PDF เมื่อใช้ pdfLaTeX. นี้ทำให้คุณภาพเวกเตอร์คงอยู่ใน PDF สุดท้าย.
แปลงรูปเป็น SVG สำหรับ HTML/EPUB. เครื่องมืออย่าง Inkscape (inkscape -l fig.svg fig.pdf) รักษาความคมชัดและให้ CSS ปรับสไตล์ได้.
ใส่ alt‑text ในต้นฉบับ LaTeX ด้วย \caption[Alt text]{Full caption}. Pandoc จะดึงข้อความในวงเล็บตัวเลือกเป็นข้อความแทนสำหรับการเข้าถึง.

หลีกเลี่ยงรูปภาพ raster ขนาดใหญ่ เว้นแต่รูปนั้นเป็นข้อมูลพิกเซลโดยธรรมชาติ (เช่น ภาพจากกล้องจุลทรรศน์). สำหรับกรณีนั้นให้บีบอัดด้วย optipng หรือ jpegoptim ก่อนนำเข้า.

8. การตรวจสอบผลลัพธ์

8.1 การตรวจสอบ PDF

veraPDF – ตรวจสอบความสอดคล้องกับ PDF/A.
PDF/UA‑Validator – ตรวจสอบแท็กการเข้าถึง.

รันทั้งสองบน PDF สุดท้ายและแก้ไขปัญหาที่รายงาน (เช่น alt‑text หาย, ตารางที่ไม่มีแท็ก, ฯลฯ).

8.2 การตรวจสอบ HTML

W3C HTML validator – ตรวจสอบความถูกต้องตามไวยากรณ์.
axe-core – ตรวจหาการละเมิดการเข้าถึง (ARIA ที่หาย, ลำดับหัวข้อไม่ถูกต้อง).

8.3 การตรวจสอบ EPUB

epubcheck – ตัวตรวจสอบอ้างอิงจาก International Digital Publishing Forum (IDPF). จะบ่งชี้เมตาดาต้าที่หาย, ไฟล์นำทางที่ไม่ถูกต้อง, หรือ MathML ที่รูปแบบไม่ถูกต้อง.

การทำอัตโนมัติของการตรวจสอบเหล่านี้ใน pipeline CI (เช่น GitHub Actions) จะทำให้ทุกการแก้ไขใหม่ผ่านเกตคุณภาพก่อนปล่อย.

9. อัตโนมัติกระบวนการสำหรับหลายเอกสาร

นักวิจัยมักต้องประมวลผลวิทยานิพนธ์หรือบทความประชุมหลายสิบฉบับต่อปี. สคริปต์อัตโนมัติขนาดเบาสามารถจัดการขั้นตอนทั้งหมดที่อธิบายไว้ข้างต้น.

#!/usr/bin/env bash
set -euo pipefail

DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
  cd "$d"
  # 1. สร้าง PDF/A
  latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
  # 2. ตรวจสอบ PDF/A
  verapdf "${d}.pdf"
  # 3. แปลงเป็น HTML & EPUB ด้วย pandoc
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
  # 4. ตรวจสอบ HTML & EPUB
  html5validator "${d}.html"
  epubcheck "${d}.epub"
  cd ..
done

สคริปต์ใช้ latexmk สำหรับการคอมไพล์แบบเพิ่มขึ้นทีละน้อยและรันตัวตรวจสอบสามชนิดหลังจากการแปลงแต่ละครั้ง. ปรับอาร์เรย์ DOCS ให้ตรงกับโครงสร้างไดเรกทอรีของคุณ.

10. เมื่อใดควรใช้บริการแปลงออนไลน์

เครื่องมือบนคลาวด์เช่น convertise.app มีประโยชน์สำหรับการแปลงครั้งเดียว, โดยเฉพาะเมื่อคุณไม่มีการติดตั้ง TeX เต็มรูปแบบบนเครื่องทำงาน. บริการนี้ประมวลผลต้นฉบับ LaTeX ใน sandbox, ส่งคืน PDF/A, HTML, หรือ EPUB, และเคารพหลักความเป็นส่วนตัวตามที่ระบุในเอกสารคู่มือ. อย่างไรก็ตามสำหรับข้อมูลวิจัยที่สำคัญ, ควรใช้ pipeline ที่โฮสต์ด้วยตนเองหรือทำการแปลงแบบโลคัลเพื่อควบคุมต้นฉบับอยู่ในมือคุณ.

11. ปัญหาที่พบบ่อยและวิธีหลีกเลี่ยง

ปัญหา	ลักษณะ	วิธีแก้
แบบอักษรหายใน PDF/A	ตัวอักษรแสดงเป็น Times ธรรมดาหรือมีคำเตือนในตัวตรวจสอบ	ฝังแบบอักษรอย่างชัดเจน; ใช้ `\setmainfont{}` กับ XeLaTeX หรือแพ็กเกจ `pdfx` กับ pdfLaTeX
การอ้างอิงเสียหลังจากส่งออก HTML	แสดงเป็น `[?]` ใน HTML สุดท้าย	ตรวจสอบว่าไฟล์บรรณานุกรมเข้าถึงได้และใช้ `--citeproc` (pandoc) หรือรัน `biber` ก่อนแปลง
สมการแสดงเป็นภาพเท่านั้น	ไม่สามารถเลือกข้อความได้, ไฟล์ใหญ่	เปิดใช้งานการส่งออก MathML (`--mathml`) และภาพ SVG สำรอง (`--webtex`)
คำอธิบายรูปภาพไม่มีชื่อ	ขาด alt‑text สำหรับเครื่องอ่านหน้าจอ	ใส่คำอธิบายสั้นในวงเล็บตัวเลือก (`\caption[Alt]{Long}`) ซึ่ง pandoc จะดึง
EPUB มีขนาดใหญ่เกินไป	ดาวน์โหลดช้า, เครื่องอ่านอาจค้าง	ปรับภาพ raster (`jpegoptim`/`optipng`) และเลือกเวกเตอร์ SVG wherever possible

การตรวจสอบแต่ละรายการตั้งแต่แรกจะป้องกันการทำงานซ้ำที่ตามมาในขั้นตอนการเผยแพร่.

12. การรวมกระบวนการเข้าสู่คลังเก็บข้อมูลของสถาบัน

หลายมหาวิทยาลัยดำเนินคลังข้อมูลสถาบันที่รับไฟล์หลายรูปแบบ. เพื่อทำให้การนำเข้าเป็นไปอย่างราบรื่น:

กำหนด PDF/A‑1b เป็นมาสเตอร์เพื่อการเก็บถาวร ผลิตโดยตรงจาก LaTeX ตามที่อธิบายในส่วน 4.
สร้างบทคัดย่อเป็น HTML จากต้นฉบับเดียวกัน; เก็บเป็นฟิลด์เมตาดาต้าแยกสำหรับการทำดัชนีโดยเครื่องมือค้นหา.
จัดหา EPUB เป็นไฟล์เสริม สำหรับผู้อ่านที่ชอบอี‑บุ๊ค; ควบคุมขนาดไฟล์ไม่เกิน 5 MB ด้วยการบีบอัดภาพ.
บันทึกแหล่งที่มาของการแปลง (รุ่นเอนจิน, รายการแพ็กเกจ, ผลลัพธ์การตรวจสอบ) ในสคีมเมตาดาต้าของคลัง. สิ่งนี้ตอบสนองความต้องการตรวจสอบและช่วยให้การทำซ้ำในอนาคตง่ายขึ้น.

13. สรุป

การแปลงต้นฉบับ LaTeX ให้เป็นหลายรูปแบบการจัดจำหน่ายไม่ใช่งาน “คลิก‑แล้ว‑เสร็จ”. ต้องอาศัยความเข้าใจที่ชัดเจนเกี่ยวกับมาตรฐานเป้าหมาย, การเตรียมต้นฉบับอย่างตั้งใจ, และการตรวจสอบผลลัพธ์อย่างเข้มงวด. ด้วยการเลือกเอนจินที่เหมาะสม, ฝังแบบอักษร, ทำงานผ่านกระบวนการ PDF/A ที่แข็งแรง, และใช้เครื่องมือเช่น pandoc, LaTeXML, และตัวตรวจสอบเฉพาะรูปแบบ, ผู้เขียนสามารถเผยแพร่ต้นฉบับเดียวที่คงความถูกต้องและเข้าถึงได้ทั้งในวารสารแบบดั้งเดิม, พอร์ทัลเว็บ, และเครื่องอ่านอี‑บุ๊ค. สคริปต์อัตโนมัติทำให้กระบวนการทำซ้ำได้, ในขณะที่การใช้บริการออนไลน์ที่คำนึงถึงความเป็นส่วนตัวเช่น convertise.app สามารถเติมเต็มช่องว่างที่เกิดขึ้นเป็นครั้งคราวโดยไม่ละเมิดความปลอดภัยของข้อมูล. นำแนวปฏิบัติเหล่านี้ไปใช้, งานวิชาการของคุณจะคงความสมบูรณ์และการเข้าถึงตลอดวงจรดิจิทัล.

การแปลงเอกสาร LaTeX เพื่อการตีพิมพ์ทางวิชาการ: คุณภาพ, ความเข้ากันได้, และเคล็ดลับการทำงาน