การแปลงเอกสาร LaTeX สำหรับการเผยแพร่ทางวิชาการ

LaTeX ยังคงเป็นมาตรฐานที่ใช้กันอย่างแพร่หลายในงานวิทยาศาสตร์, เอกสารการประชุม, และวิทยานิพนธ์. จุดแข็งของมันอยู่ที่การจัดพิมพ์คณิตศาสตร์, บรรณานุกรม, และโครงสร้างที่ซับซ้อนอย่างแม่นยำ. อย่างไรก็ตาม, ผู้จัดพิมพ์, ที่เก็บข้อมูลสถาบัน, และผู้อ่านมักต้องการวัสดุเดียวกันในรูปแบบอื่น — PDF/A สำหรับการเก็บถาวร, HTML สำหรับการอ่านแบบเว็บ, หรือ EPUB สำหรับเครื่องอ่านอี‑บุ๊ค. ขั้นตอนการแปลงมักเต็มไปด้วยอุปสรรคที่ซ่อนอยู่: แบบอักษรหาย, การอ้างอิงข้ามไม่ทำงาน, หรือการจัดวางที่เปลี่ยนแปลงทำให้บันทึกทางวิชาการเสียหาย.

บทความนี้จะอธิบายขั้นตอนการทำงานแบบระบบที่คงไว้ซึ่งเจตนารมณ์ของผู้เขียนพร้อมกับสร้างไฟล์ที่พร้อมจัดจำหน่าย. เน้นที่การตัดสินใจเชิงปฏิบัติ, การเลือกเครื่องมือ, และวิธีตรวจสอบที่ใช้ได้ทั้งเอกสารเดี่ยวหรือชุดของการส่งหลายฉบับ.


1. ทำความเข้าใจรูปแบบเป้าหมายและข้อจำกัดของแต่ละรูปแบบ

ก่อนเริ่มแปลงใด ๆ ให้กำหนดความต้องการของผลลัพธ์อย่างชัดเจน. ช่องทางการเผยแพร่ที่ต่างกันมีข้อจำกัดทางเทคนิคที่แตกต่างกัน:

  • PDF/A‑1b – มาตรฐาน ISO สำหรับการเก็บรักษาระยะยาว. ไม่อนุญาตให้มีการเข้ารหัส, ต้องฝังแบบอักษรทั้งหมด, และห้ามใช้พื้นที่สีที่ไม่ได้อ้างอิง.
  • PDF/UA – รูปแบบ PDF ที่ตอบสนองมาตรฐานการเข้าถึง (tags ที่ถูกต้อง, ลำดับการอ่าน, ข้อความแทนภาพสำหรับรูปภาพ).
  • HTML5 – เหมาะสำหรับพอร์ทัลเว็บ; ต้องการ markup เชิงความหมาย, รูปภาพตอบสนอง, และ MathML หรือภาพสำรองสำหรับสมการ.
  • EPUB 3 – รูปแบบอี‑บุ๊คที่รองรับข้อความที่จัดเรียงใหม่ได้, ฝังแบบอักษร, และ MathML; เหมาะสำหรับแท็บเล็ตและเครื่องอ่านอี‑บุ๊ค.

แต่ละรูปแบบกำหนดแฟล็กการคอมไพล์หรือขั้นตอนการประมวลผลหลังการแปลงที่เฉพาะเจาะจหมาย. การกำหนดข้อจำกัดเหล่านี้ตั้งแต่แรกจะช่วยประหยัดเวลาและหลีกเลี่ยงการทำงานซ้ำที่เสียค่าใช้จ่าย.


2. เลือกเอนจิน LaTeX ที่มั่นคง

เอนจินที่คุณเรียกใช้กำหนดว่าต้นฉบับจะถูกเรนเดอร์อย่างไรและไฟล์ช่วยเหลือใดบ้างที่ถูกสร้าง.

เอนจินจุดแข็งกรณีใช้งานทั่วไป
pdfLaTeXส่งออก PDF โดยตรง, ระบบนิเวศที่มีความเสถียร, รองรับแพ็กเกจหลากหลาย.บทความง่าย ๆ, การส่งงานประชุมที่สามารถเพิ่มความสอดคล้อง PDF/A ได้ภายหลัง.
XeLaTeXจัดการ Unicode อย่างเป็นธรรมชาติ, เลือกแบบอักษรจากระบบได้ง่าย, เหมาะกับข้อความหลายภาษา.เอกสารที่มีสคริปต์ที่ไม่ใช่ละตินหรือแบบอักษร OpenType ที่กำหนดเอง.
LuaLaTeXขยายได้ด้วยสคริปต์ Lua, ควบคุมแบบอักษรและ PDF อย่างละเอียด.เค้าโครงที่ซับซ้อน, สไตล์บรรณานุกรมที่โปรแกรมได้, หรือเมื่อจำเป็นต้องจัดการเมทาดาต้า PDF อย่างใกล้ชิด.

สำหรับ PDF ที่ต้องการเก็บถาวร (PDF/A), pdfLaTeX ร่วมกับแพ็กเกจ pdfx เป็นฐานที่เชื่อถือได้. สำหรับ HTML หรือ EPUB, คุณจะต้องส่งต้นฉบับ LaTeX ผ่านเครื่องมือแปลงที่ต้องการ PDF หรือ DVI เป็นตัวกลางที่สะอาด.


3. เตรียมต้นฉบับสำหรับการแปลง

3.1 รักษาแพ็กเกจให้เหลือน้อยที่สุดและอธิบายอย่างชัดเจน

แพ็กเกจซ้ำหรือที่ล้าสมัยเพิ่มความเสี่ยงของข้อผิดพลาดในการคอมไพล์เมื่อเปลี่ยนเอนจิน. ตรวจสอบคำสั่ง \usepackage{} และลบแพ็กเกจที่ไม่จำเป็นต่อรูปลักษณ์สุดท้าย.

3.2 ฝังแบบอักษรอย่างชัดเจน

เมื่อ PDF สุดท้ายต้องฝังทุก glyph, กำหนดตระกูลแบบอักษรด้วย \setmainfont{} (XeLaTeX/LuaLaTeX) หรือกลไก \pdfmapfile{} (pdfLaTeX). ตรวจสอบว่าแบบอักษรที่เลือกได้รับอนุญาตให้แจกจ่าย; มิฉะนั้นการแปลงอาจแทนที่ด้วยแบบอักษรค่าเริ่มต้นโดยไม่แจ้งให้ทราบ ทำให้ความสอดคล้องของภาพเสีย.

3.3 ใช้เครื่องมือบรรณานุกรมมาตรฐาน

เก็บข้อมูลบรรณานุกรมไว้ในไฟล์ .bib เดียวและใช้ biblatex ร่วมกับ biber สำหรับสไตล์การอ้างอิงสมัยใหม่. วิธีนี้ทำให้คีย์อ้างอิงคงที่ข้ามรูปแบบต่าง ๆ ทำให้การสร้างรายการอ้างอิงใน HTML หรือ EPUB ง่ายขึ้น.


4. สร้าง PDF คุณภาพสูงเป็นฐาน

PDF ที่สะอาดเป็นศูนย์กลางของการแปลงส่วนใหญ่. ทำตามขั้นตอนต่อไปนี้:

  1. คอมไพล์สองครั้ง เพื่อให้การอ้างอิงข้ามและสารบัญถูกแก้ไข.
  2. รัน biber (หรือ bibtex หากใช้สไตล์เก่า) ระหว่างการคอมไพล์.
  3. ใช้แพ็กเกจ pdfx:
    \usepackage[x-1a]{pdfx}
    
    สิ่งนี้จะใส่เมทาดาต้า PDF/A ที่จำเป็นและบังคับให้ฝังแบบอักษร.
  4. ตรวจสอบ log ว่ามีคำเตือน Missing font หรือไม่. หากมี, ให้เพิ่มแบบอักษรที่หายไปในไฟล์แมพหรือสลับไปใช้ XeLaTeX.

ใช้ตัวตรวจสอบ PDF (เช่น veraPDF) เพื่อยืนยันความสอดคล้องกับ PDF/A ก่อนดำเนินการต่อ.


5. แปลง PDF เป็น HTML และ EPUB

มีสองกลยุทธ์หลัก:

5.1 เครื่องมือ LaTeX‑to‑HTML/EPUB โดยตรง

  • pandoc – ตัวแปลงสากลที่อ่าน LaTeX แล้วสร้าง HTML5 หรือ EPUB. รองรับการอ้างอิง, รูปภาพ, และสมการง่าย ๆ ผ่าน MathJax.
  • latex2html – เก่าและเบา แต่ทำงานได้ยากกับแพ็กเกจสมัยใหม่และคณิตศาสตร์ที่ซับซ้อน.

ขั้นตอนการทำงานด้วย Pandoc:

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.html

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.epub

ตัวเลือกที่สำคัญ:

  • --pdf-engine ทำให้แบบอักษรที่กำหนดเองถูกนำมาใช้.
  • --citeproc ให้ pandoc ประมวลผลไฟล์ .bib และสร้างบรรณานุกรม.
  • -s สร้างเอกสารที่เป็นอิสระพร้อม CSS ฝังอยู่.

5.2 วิธีแบบ PDF‑First

หาก PDF 已符合 PDF/A/UA, สามารถสกัดโครงสร้างด้วย pdf2htmlEX (สำหรับ HTML) หรือ Calibre (สำหรับ EPUB). วิธีนี้รักษาการจัดหน้าและการแสดงผลแบบฟอนต์เดิมอย่างแม่นยำ แต่บางครั้งอาจฝังภาพเรสเตอร์สำหรับสมการ.

ข้อดี: ความสอดคล้องทางภาพเกือบเทียบเท่า.

ข้อเสีย: ขนาดผลลัพธ์ใหญ่กว่า, การเข้าถึงในระดับข้อความจำกัดเพราะข้อความมักถูกแทนด้วยภาพ.


6. รักษาคณิตศาสตร์ข้ามรูปแบบ

สมการเป็นส่วนที่เปราะบางที่สุดในการแปลง.

  • MathML – รองรับโดยเบราว์เซอร์รุ่นใหม่และ EPUB 3. Pandoc สามารถส่งออก MathML ด้วยแฟล็ก --mathml.
  • LaTeXML – สายการทำงาน LaTeX‑to‑XML เฉพาะที่สร้าง MathML และ XHTML คุณภาพสูง.
  • Image fallback – สำหรับสภาพแวดล้อมที่ไม่รองรับ MathML, ตั้งค่า pandoc ให้สร้างภาพ SVG (--webtex). SVG รักษาความคมชัดโดยไม่ทำให้เป็นพิกเซล.

คำสั่ง pandoc ที่ให้สมดุลระหว่างสองวิธี:

pandoc manuscript.tex \
  --webtex=https://latex.codecogs.com/svg.latex? \
  --mathml \
  -s -o manuscript.html

HTML ที่ได้จะมี MathML สำหรับเบราว์เซอร์ที่รองรับและ SVG สำหรับกรณีอื่น ๆ.


7. จัดการรูปภาพและสื่อภายนอก

รูปภาพมักมาจากไฟล์ PDF, PNG, หรือ EPS แยกต่างหาก. เพื่อความสอดคล้องทำตามขั้นตอนต่อไป:

  1. ฝังรูปเป็น PDF เมื่อใช้ pdfLaTeX. นี้ทำให้คุณภาพเวกเตอร์คงอยู่ใน PDF สุดท้าย.
  2. แปลงรูปเป็น SVG สำหรับ HTML/EPUB. เครื่องมืออย่าง Inkscape (inkscape -l fig.svg fig.pdf) รักษาความคมชัดและให้ CSS ปรับสไตล์ได้.
  3. ใส่ alt‑text ในต้นฉบับ LaTeX ด้วย \caption[Alt text]{Full caption}. Pandoc จะดึงข้อความในวงเล็บตัวเลือกเป็นข้อความแทนสำหรับการเข้าถึง.

หลีกเลี่ยงรูปภาพ raster ขนาดใหญ่ เว้นแต่รูปนั้นเป็นข้อมูลพิกเซลโดยธรรมชาติ (เช่น ภาพจากกล้องจุลทรรศน์). สำหรับกรณีนั้นให้บีบอัดด้วย optipng หรือ jpegoptim ก่อนนำเข้า.


8. การตรวจสอบผลลัพธ์

8.1 การตรวจสอบ PDF

  • veraPDF – ตรวจสอบความสอดคล้องกับ PDF/A.
  • PDF/UA‑Validator – ตรวจสอบแท็กการเข้าถึง.

รันทั้งสองบน PDF สุดท้ายและแก้ไขปัญหาที่รายงาน (เช่น alt‑text หาย, ตารางที่ไม่มีแท็ก, ฯลฯ).

8.2 การตรวจสอบ HTML

  • W3C HTML validator – ตรวจสอบความถูกต้องตามไวยากรณ์.
  • axe-core – ตรวจหาการละเมิดการเข้าถึง (ARIA ที่หาย, ลำดับหัวข้อไม่ถูกต้อง).

8.3 การตรวจสอบ EPUB

  • epubcheck – ตัวตรวจสอบอ้างอิงจาก International Digital Publishing Forum (IDPF). จะบ่งชี้เมตาดาต้าที่หาย, ไฟล์นำทางที่ไม่ถูกต้อง, หรือ MathML ที่รูปแบบไม่ถูกต้อง.

การทำอัตโนมัติของการตรวจสอบเหล่านี้ใน pipeline CI (เช่น GitHub Actions) จะทำให้ทุกการแก้ไขใหม่ผ่านเกตคุณภาพก่อนปล่อย.


9. อัตโนมัติกระบวนการสำหรับหลายเอกสาร

นักวิจัยมักต้องประมวลผลวิทยานิพนธ์หรือบทความประชุมหลายสิบฉบับต่อปี. สคริปต์อัตโนมัติขนาดเบาสามารถจัดการขั้นตอนทั้งหมดที่อธิบายไว้ข้างต้น.

#!/usr/bin/env bash
set -euo pipefail

DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
  cd "$d"
  # 1. สร้าง PDF/A
  latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
  # 2. ตรวจสอบ PDF/A
  verapdf "${d}.pdf"
  # 3. แปลงเป็น HTML & EPUB ด้วย pandoc
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
  # 4. ตรวจสอบ HTML & EPUB
  html5validator "${d}.html"
  epubcheck "${d}.epub"
  cd ..
done

สคริปต์ใช้ latexmk สำหรับการคอมไพล์แบบเพิ่มขึ้นทีละน้อยและรันตัวตรวจสอบสามชนิดหลังจากการแปลงแต่ละครั้ง. ปรับอาร์เรย์ DOCS ให้ตรงกับโครงสร้างไดเรกทอรีของคุณ.


10. เมื่อใดควรใช้บริการแปลงออนไลน์

เครื่องมือบนคลาวด์เช่น convertise.app มีประโยชน์สำหรับการแปลงครั้งเดียว, โดยเฉพาะเมื่อคุณไม่มีการติดตั้ง TeX เต็มรูปแบบบนเครื่องทำงาน. บริการนี้ประมวลผลต้นฉบับ LaTeX ใน sandbox, ส่งคืน PDF/A, HTML, หรือ EPUB, และเคารพหลักความเป็นส่วนตัวตามที่ระบุในเอกสารคู่มือ. อย่างไรก็ตามสำหรับข้อมูลวิจัยที่สำคัญ, ควรใช้ pipeline ที่โฮสต์ด้วยตนเองหรือทำการแปลงแบบโลคัลเพื่อควบคุมต้นฉบับอยู่ในมือคุณ.


11. ปัญหาที่พบบ่อยและวิธีหลีกเลี่ยง

ปัญหาลักษณะวิธีแก้
แบบอักษรหายใน PDF/Aตัวอักษรแสดงเป็น Times ธรรมดาหรือมีคำเตือนในตัวตรวจสอบฝังแบบอักษรอย่างชัดเจน; ใช้ \setmainfont{} กับ XeLaTeX หรือแพ็กเกจ pdfx กับ pdfLaTeX
การอ้างอิงเสียหลังจากส่งออก HTMLแสดงเป็น [?] ใน HTML สุดท้ายตรวจสอบว่าไฟล์บรรณานุกรมเข้าถึงได้และใช้ --citeproc (pandoc) หรือรัน biber ก่อนแปลง
สมการแสดงเป็นภาพเท่านั้นไม่สามารถเลือกข้อความได้, ไฟล์ใหญ่เปิดใช้งานการส่งออก MathML (--mathml) และภาพ SVG สำรอง (--webtex)
คำอธิบายรูปภาพไม่มีชื่อขาด alt‑text สำหรับเครื่องอ่านหน้าจอใส่คำอธิบายสั้นในวงเล็บตัวเลือก (\caption[Alt]{Long}) ซึ่ง pandoc จะดึง
EPUB มีขนาดใหญ่เกินไปดาวน์โหลดช้า, เครื่องอ่านอาจค้างปรับภาพ raster (jpegoptim/optipng) และเลือกเวกเตอร์ SVG wherever possible

การตรวจสอบแต่ละรายการตั้งแต่แรกจะป้องกันการทำงานซ้ำที่ตามมาในขั้นตอนการเผยแพร่.


12. การรวมกระบวนการเข้าสู่คลังเก็บข้อมูลของสถาบัน

หลายมหาวิทยาลัยดำเนินคลังข้อมูลสถาบันที่รับไฟล์หลายรูปแบบ. เพื่อทำให้การนำเข้าเป็นไปอย่างราบรื่น:

  1. กำหนด PDF/A‑1b เป็นมาสเตอร์เพื่อการเก็บถาวร ผลิตโดยตรงจาก LaTeX ตามที่อธิบายในส่วน 4.
  2. สร้างบทคัดย่อเป็น HTML จากต้นฉบับเดียวกัน; เก็บเป็นฟิลด์เมตาดาต้าแยกสำหรับการทำดัชนีโดยเครื่องมือค้นหา.
  3. จัดหา EPUB เป็นไฟล์เสริม สำหรับผู้อ่านที่ชอบอี‑บุ๊ค; ควบคุมขนาดไฟล์ไม่เกิน 5 MB ด้วยการบีบอัดภาพ.
  4. บันทึกแหล่งที่มาของการแปลง (รุ่นเอนจิน, รายการแพ็กเกจ, ผลลัพธ์การตรวจสอบ) ในสคีมเมตาดาต้าของคลัง. สิ่งนี้ตอบสนองความต้องการตรวจสอบและช่วยให้การทำซ้ำในอนาคตง่ายขึ้น.

13. สรุป

การแปลงต้นฉบับ LaTeX ให้เป็นหลายรูปแบบการจัดจำหน่ายไม่ใช่งาน “คลิก‑แล้ว‑เสร็จ”. ต้องอาศัยความเข้าใจที่ชัดเจนเกี่ยวกับมาตรฐานเป้าหมาย, การเตรียมต้นฉบับอย่างตั้งใจ, และการตรวจสอบผลลัพธ์อย่างเข้มงวด. ด้วยการเลือกเอนจินที่เหมาะสม, ฝังแบบอักษร, ทำงานผ่านกระบวนการ PDF/A ที่แข็งแรง, และใช้เครื่องมือเช่น pandoc, LaTeXML, และตัวตรวจสอบเฉพาะรูปแบบ, ผู้เขียนสามารถเผยแพร่ต้นฉบับเดียวที่คงความถูกต้องและเข้าถึงได้ทั้งในวารสารแบบดั้งเดิม, พอร์ทัลเว็บ, และเครื่องอ่านอี‑บุ๊ค. สคริปต์อัตโนมัติทำให้กระบวนการทำซ้ำได้, ในขณะที่การใช้บริการออนไลน์ที่คำนึงถึงความเป็นส่วนตัวเช่น convertise.app สามารถเติมเต็มช่องว่างที่เกิดขึ้นเป็นครั้งคราวโดยไม่ละเมิดความปลอดภัยของข้อมูล. นำแนวปฏิบัติเหล่านี้ไปใช้, งานวิชาการของคุณจะคงความสมบูรณ์และการเข้าถึงตลอดวงจรดิจิทัล.