LaTeX दस्तावेज़ों को शैक्षणिक प्रकाशन के लिए रूपांतरित करना

LaTeX अभी भी वैज्ञानिक पांडुलिपियों, सम्मेलन पत्रों और थीसिस के लिये डि‑फ़ैक्टो मानक बना हुआ है। इसकी ताकत गणित, ग्रंथसूचियों और जटिल संरचनाओं की सटीक टाइपसेटिंग में निहित है। फिर भी, प्रकाशक, संस्थागत रिपॉजिटरी और पाठकों को अक्सर वही सामग्री वैकल्पिक स्वरूपों में चाहिए—आर्काइविंग के लिये PDF/A, वेब‑आधारित पढ़ने के लिये HTML, या ई‑रीडर्स के लिये EPUB। रूपांतरण चरण कई छिपे हुए जोखिमों से भरा होता है: फ़ॉन्ट की कमी, टूटे हुए क्रॉस‑रेफ़रेंसेज़, या बदल गया स्पेसिंग जो विद्वतापूर्ण रिकॉर्ड को नुकसान पहुंचा सकता है।

यह लेख एक व्यवस्थित कार्यप्रवाह को दर्शाता है जो लेखकीय इरादे को बरकरार रखते हुए वितरण‑तैयार फ़ाइलें तैयार करता है। ध्यान व्यावहारिक निर्णयों, टूल चयन और सत्यापन विधियों पर है जो एकल पांडुलिपि या कई सब्मिशन के लिये समान रूप से काम करती हैं।


1. लक्ष्य स्वरूपों और उनके प्रतिबंधों को समझें

किसी भी रूपांतरण को चलाने से पहले सटीक आउटपुट आवश्यकताओं को परिभाषित करें। विभिन्न डिलीवरी चैनल अलग‑अलग तकनीकी प्रतिबंध लगाते हैं:

  • PDF/A‑1b – दीर्घकालिक संरक्षण के लिये ISO‑मानक। यह एन्क्रिप्शन को प्रतिबंधित करता है, एम्बेडेड फ़ॉन्ट आवश्यक करता है, और अनउल्लिखित रंग स्थानों को अस्वीकार करता है।
  • PDF/UA – एक PDF वैरिएंट जो पहुँचनीयता मानकों को पूरा करता है (सही टैग, पढ़ने का क्रम, चित्रों के लिये alt‑text)।
  • HTML5 – वेब पोर्टलों के लिये आदर्श; इसका अर्थ है सिमैंटिक मार्कअप, रिस्पॉन्सिव इमेज, और समीकरणों के लिये MathML या फॉलबैक इमेज।
  • EPUB 3 – ई‑बुक स्वरूप जो री‑फ़्लोएबल टेक्स्ट, एम्बेडेड फ़ॉन्ट और MathML को सपोर्ट करता है; टैबलेट और ई‑रीडर्स के लिये उपयुक्त।

प्रत्येक स्वरूप विशिष्ट कम्पाइलेशन फ्लैग या पोस्ट‑प्रोसेसिंग चरण निर्धारित करता है। इन प्रतिबंधों को पहले ही मानचित्रित कर लेना समय बचाता है और महंगे पुनः‑काम से बचाता है।


2. एक मजबूत LaTeX इंजन चुनें

आपके द्वारा बुलाया गया इंजन इस बात को तय करता है कि स्रोत कितनी सटीकता से रेंडर होगा और कौन‑से सहायक फ़ाइलें उत्पन्न होंगी।

इंजनताकतसामान्य उपयोग केस
pdfLaTeXसीधा PDF आउटपुट, परिपक्व इकोसिस्टम, व्यापक पैकेज समर्थन।सरल लेख, सम्मेलन प्रस्तुतियाँ जहाँ PDF/A अनुपालन बाद में जोड़ा जा सकता है।
XeLaTeXनेटिव यूनिकोड हैंडलिंग, सिस्टम फ़ॉन्ट द्वारा आसान फ़ॉन्ट चयन, मल्टी‑लिंग्वल टेक्स्ट के लिये अच्छा।गैर‑लैटिन स्क्रिप्ट या कस्टम OpenType फ़ॉन्ट वाले दस्तावेज़।
LuaLaTeXLua स्क्रिप्टिंग द्वारा विस्तारित, फ़ॉन्ट और PDF पर सूक्ष्म नियंत्रण।जटिल लेआउट, प्रोग्रामेबल बिब्लियोग्राफी स्टाइल, या कड़े PDF मेटाडाटा नियंत्रण की आवश्यकता।

आर्काइव PDF (PDF/A) के लिये, pdfLaTeX को pdfx पैकेज के साथ मिलाकर एक विश्वसनीय बेसलाइन बनती है। HTML या EPUB के लिये, आप बाद में LaTeX स्रोत को ऐसे रूपांतरण टूल से पास करेंगे जो साफ़ इंटरमीडिएट PDF या DVI की अपेक्षा करता है।


3. रूपांतर हेतु स्रोत तैयार करें

3.1 पैकेजों को न्यूनतम और अच्छी तरह से प्रलेखित रखें

अतिरिक्त या पुरानी पैकेजें कम्पाइल त्रुटियों की संभावना बढ़ाते हैं जब आप इंजन बदलते हैं। \usepackage{} कथनों का ऑडिट करें और उन पैकेजों को हटाएँ जो अंतिम रूप में आवश्यक नहीं हैं।

3.2 फ़ॉन्ट को स्पष्ट रूप से एम्बेड करें

जब अंतिम PDF को हर glyph एम्बेड करना हो, तो फ़ॉन्ट फ़ैमिली को \setmainfont{} (XeLaTeX/LuaLaTeX) या \pdfmapfile{} मेकैनिज़्म (pdfLaTeX) से घोषित करें। सुनिश्चित करें कि चुने गये फ़ॉन्ट वितरण के लिये लाइसेंस्ड हैं; नहीं तो रूपांतरण चुपचाप डिफ़ॉल्ट फ़ॉन्ट से बदल देगा, जिससे दृश्य निरंतरता टूटेगी।

3.3 मानक ग्रंथ सूची उपकरणों का उपयोग करें

ग्रंथसूची डेटा को एक ही .bib फ़ाइल में रखें और आधुनिक उद्धरण शैलियों के लिये biblatex को biber के साथ प्रयोग करें। यह विभिन्न स्वरूपों में citation keys को बरकरार रखता है, जिससे HTML या EPUB में रेफ़रेंस लिस्ट बनाना आसान हो जाता है।


4. उच्च‑गुणवत्ता वाला PDF आधार उत्पन्न करना

एक साफ़ PDF अधिकांश नीचे की ओर रूपांतरणों का आधार है। इन चरणों का पालन करें:

  1. दो बार कम्पाइल करें ताकि क्रॉस‑रेफ़रेंसेज़ और तालिका‑सामग्री ठीक हो जाएँ।

  2. biber चलाएँ (या यदि आप पुरानी शैलियों के साथ रह रहे हैं तो bibtex) कम्पाइलेशन के बीच।

  3. pdfx पैकेज लागू करें:

    \usepackage[x-1a]{pdfx}
    

    यह आवश्यक PDF/A मेटाडाटा डालता है और फ़ॉन्ट एम्बेडिंग को मजबूर करता है।

  4. लॉग फ़ाइल में Missing font चेतावनी देखें। यदि दिखे, तो गायब फ़ॉन्ट को मैप फ़ाइल में जोड़ें या XeLaTeX पर स्विच करें।

PDF/A अनुपालन की पुष्टि करने के लिये एक PDF वैलिडेटर (जैसे, veraPDF) चलाएँ, फिर आगे बढ़ें।


5. PDF को HTML और EPUB में रूपांतरित करना

दो प्रमुख रणनीतियाँ उपलब्ध हैं:

5.1 प्रत्यक्ष LaTeX‑to‑HTML/EPUB उपकरण

  • pandoc – एक सार्वभौमिक रूपांतरक जो LaTeX पढ़ता है और HTML5 या EPUB उत्पन्न करता है। यह उद्धरण, चित्र और सरल समीकरण को MathJax द्वारा संभालता है।
  • latex2html – पुराना, हल्का, लेकिन आधुनिक पैकेज और जटिल गणित में संघर्ष करता है।

Pandoc कार्यप्रवाह:

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.html

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.epub

मुख्य विकल्प:

  • --pdf-engine यह सुनिश्चित करता है कि कस्टम फ़ॉन्ट सम्मानित हों।
  • --citeproc pandoc को .bib फ़ाइल प्रोसेस करने और ग्रंथसूची बनाने को कहता है।
  • -s एक स्व-समाहित दस्तावेज़ बनाता है जिसमें एम्बेडेड CSS होती है।

5.2 PDF‑First तरीका

यदि PDF पहले से ही PDF/A/UA मानकों को पूरा करता है, तो आप उसकी संरचना को pdf2htmlEX (HTML के लिये) या Calibre (EPUB के लिये) के माध्यम से निकाल सकते हैं। यह विधि सटीक पेजिनेशन और फ़ॉन्ट रेंडरिंग को बरकरार रखती है, लेकिन समीकरणों के लिये बड़े रास्टर इमेज एम्बेड कर सकती है।

फ़ायदे: दृश्य स्थिरता के बहुत करीब।
नुकसान: आउटपुट आकार बड़ा, पहुँचनीयता सीमित क्योंकि मूल टेक्स्ट अक्सर इमेज के रूप में रहता है।


6. विभिन्न स्वरूपों में गणित को संरक्षित करना

समीकरण रूपांतरण के दौरान सबसे नाज़ुक तत्व होते हैं।

  • MathML – आधुनिक ब्राउज़र और EPUB 3 में मूल समर्थन। Pandoc --mathml फ़्लैग से MathML उत्पन्न कर सकता है।
  • LaTeXML – एक समर्पित LaTeX‑to‑XML पाइपलाइन जो उच्च‑गुणवत्ता वाला MathML और XHTML बनाती है।
  • Image fallback – उन पर्यावरणों के लिये जो MathML नहीं रेंडर कर पाते, pandoc को SVG इमेज (--webtex) बनाने के लिये कॉन्फ़िगर करें। SVG स्केलेबिलिटी बनाये रखता है बिना पिक्सेलाइज़ेशन के।

एक संतुलित pandoc कमांड इस प्रकार है:

pandoc manuscript.tex \
  --webtex=https://latex.codecogs.com/svg.latex? \
  --mathml \
  -s -o manuscript.html

परिणामी HTML में MathML योग्य ब्राउज़र के लिये और शेष के लिये SVG शामिल होगा।


7. चित्रों और बाहरी मीडिया का प्रबंधन

चित्र अक्सर अलग‑अलग PDF, PNG या EPS स्रोतों से आते हैं। निरंतरता सुनिश्चित करने के लिये:

  1. pdfLaTeX उपयोग करते समय चित्रों को PDF के रूप में एम्बेड करें। यह अंतिम PDF में वेक्टर क्वालिटी रखता है।
  2. HTML/EPUB के लिये चित्रों को SVG में बदलें। Inkscape जैसे टूल (inkscape -l fig.svg fig.pdf) क्रिस्पनेस और CSS स्टाइलिंग की अनुमति देते हैं।
  3. Alt‑text प्रदान करें LaTeX स्रोत में \caption[Alt text]{Full caption} का उपयोग करके। Pandoc वैकल्पिक भाग को पहुँचनीयता के लिये निकाल लेता है।

बड़े रास्टर इमेज केवल तभी उपयोग करें जब चित्र मूल रूप से पिक्सेल‑आधारित हो (जैसे, माइक्रोस्कोप फोटो)। ऐसे मामलों में सम्मिलन से पहले optipng या jpegoptim से संपीड़न करें।


8. आउटपुट को वैलिडेट करना

8.1 PDF वैलिडेशन

  • veraPDF – PDF/A अनुपालन की जाँच करता है।
  • PDF/UA‑Validator – पहुँचनीयता टैग की पुष्टि करता है।

इन टूलों को अंतिम PDF पर चलाएँ और रिपोर्टेड समस्याओं (गायब alt‑text, अनटैग्ड टेबल आदि) को ठीक करें।

8.2 HTML वैलिडेशन

  • W3C HTML validator – सिंटैक्स की शुद्धता सुनिश्चित करता है।
  • axe‑core – पहुँचनीयता उल्लंघन (गायब ARIA लेबल, गलत हेडिंग क्रम) स्कैन करता है।

8.3 EPUB वैलिडेशन

  • epubcheck – IDPF (International Digital Publishing Forum) की रेफ़रेंस वैलिडेटर। यह लापता मेटाडाटा, अवैध नेविगेशन फ़ाइल या विकृत MathML को फ्लैग करता है।

इन जाँचों को CI पाइपलाइन (जैसे, GitHub Actions) में स्वचालित करने से प्रत्येक नई रिवीजन गुणवत्ता गेट से गुजरता है, रिलीज़ से पहले।


9. कई पांडुलिपियों के लिये वर्कफ़्लो को स्वचालित करना

शोधकर्ता अक्सर हर साल दर्जनों थीसिस या सम्मेलन पत्रों को प्रोसेस करना पड़ता है। नीचे एक हल्का ऑटोमेशन स्क्रिप्ट दिया गया है जो ऊपर बताए गए चरणों को समन्वित करता है।

#!/usr/bin/env bash
set -euo pipefail

DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
  cd "$d"
  # 1. Build PDF/A
  latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
  # 2. Validate PDF/A
  verapdf "${d}.pdf"
  # 3. Convert to HTML & EPUB with pandoc
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
  # 4. Validate HTML & EPUB
  html5validator "${d}.html"
  epubcheck "${d}.epub"
  cd ..
done

यह स्क्रिप्ट latexmk से इन्क्रीमेंटल कम्पाइल करती है और प्रत्येक रूपांतरण के बाद तीन वैलिडेटर चलाती है। अपने फ़ोल्डर लेआउट के अनुसार DOCS एरे को समायोजित करें।


10. ऑनलाइन रूपांतरण सेवा कब उपयोग करें

एक क्लाउड‑आधारित टूल जैसे convertise.app एक‑बार के रूपांतरण के लिये सुविधाजनक हो सकता है, विशेषकर जब आपके वर्कस्टेशन पर पूर्ण TeX इंस्टॉलेशन न हो। यह सेवा एक सैंडबॉक्स में LaTeX स्रोत प्रोसेस करती है, PDF/A, HTML या EPUB वापस देती है, और अपनी डॉक्यूमेंटेशन में बताए गये समान प्राइवेसी सिद्धांतों का पालन करती है। संवेदनशील शोध डेटा के लिये फिर भी स्वयं‑होस्टेड पाइपलाइन या स्थानीय रूपांतरण को प्राथमिकता दें ताकि पांडुलिपि आपके नियंत्रण में रहे।


11. सामान्य बाधाएँ और उन्हें कैसे टाळें

बाधालक्षणसमाधान
PDF/A में फ़ॉन्ट की कमीटेक्स्ट सामान्य Times जैसा दिखता है या वैलिडेटर में चेतावनी आती हैफ़ॉन्ट को स्पष्ट रूप से एम्बेड करें; XeLaTeX के साथ \setmainfont{} या pdfLaTeX के साथ pdfx पैकेज इस्तेमाल करें
HTML निर्यात के बाद उद्धरण टूटनाअंतिम HTML में [?] प्लेसहोल्डर दिखते हैंग्रंथसूची फ़ाइल की पहुँच सुनिश्चित करें और --citeproc (pandoc) या biber को रूपांतरण से पहले चलाएँ
समीकरण केवल इमेज के रूप में रेंडर होनाचयन योग्य टेक्स्ट नहीं, फ़ाइल आकार बड़ाMathML आउटपुट सक्षम करें (--mathml) और SVG फॉलबैक दें (--webtex)
चित्र शीर्षक बिना वैकल्पिक टेक्स्ट केस्क्रीन‑रीडर में विवरण नहीं दिखतावैकल्पिक छोटा शीर्षक दें (\caption[Alt]{Long}) जिसे pandoc एक्सट्रैक्ट करता है
अत्यधिक बड़े EPUB फ़ाइलेंडाउनलोड धीमा, रीडर क्रैश कर सकता हैरास्टर इमेज को jpegoptim/optipng से संपीड़ित करें और संभव हो तो वेक्टर SVG प्रयोग करें

इन बिंदुओं की शुरुआती जाँच से बाद में बार‑बार के पुनः‑काम से बचा जा सकता है।


12. प्रक्रिया को संस्थागत रिपॉजिटरी में एकीकृत करना

कई विश्वविद्यालय अपने संस्थागत रिपॉजिटरी में विभिन्न स्वरूपों में सब्मिशन स्वीकार करते हैं। अभिगम को सुगम बनाने के लिये:

  1. PDF/A‑1b को अभिलेखीय मास्टर के रूप में मानकीकृत करें। इसे LaTeX से सीधे ऊपर वर्णित चरणों से उत्पन्न करें।
  2. HTML सारांश उत्पन्न करें समान LaTeX स्रोत से; इन्हें मेटा‑फ़ील्ड में अलग‑अलग संग्रहित करें ताकि सर्च‑इंजिन इंडेक्सिंग बेहतर हो।
  3. EPUB को वैकल्पिक डाउनलोड के रूप में प्रदान करें; इमेज को ऑप्टिमाइज़ करके फ़ाइल आकार 5 MB से नीचे रखें।
  4. रूपांतरण का प्रॉवेनन्स रिकॉर्ड करें (इंजन संस्करण, पैकेज सूची, वैलिडेटर परिणाम) रिपॉजिटरी के मेटाडाटा स्कीमा में दर्ज करें। इससे ऑडिट आवश्यकताओं को पूरा किया जा सकता है और भविष्य में पुनरुत्पादन आसान होता है।

13. सारांश

LaTeX पांडुलिपियों को कई वितरण स्वरूपों में रूपांतरित करना कोई “क्लिक‑एंड‑गो” कार्य नहीं है। इसमें लक्ष्य मानकों की स्पष्ट समझ, स्रोत की सोच‑समझकर तैयारी, और प्रत्येक आउटपुट की कठोर वैधता जाँच की आवश्यकता होती है। उचित इंजन चुनकर, फ़ॉन्ट एम्बेड करके, एक मजबूत PDF/A कार्यप्रवाह स्थापित करके, और pandoc, LaTeXML, तथा समर्पित वैलिडेटर जैसे टूल का उपयोग करके, लेखक एक ही स्रोत से परम्परागत जर्नल, वेब पोर्टल और ई‑रीडर तक सुरक्षित रूप से पहुँचा सकते हैं। स्वचालन स्क्रिप्ट इस प्रक्रिया को दोहराने योग्य बनाती है, जबकि कभी‑कभी की जरूरतों के लिये गोपनीयता‑केन्द्रित ऑनलाइन सेवाएँ जैसे convertise.app उपयोगी हो सकती हैं बिना डेटा सुरक्षा से समझौता किए। इन प्रथाओं को अपनाएँ, और आपका विद्वतापूर्ण कार्य पूरे डिजिटल जीवन‑चक्र में अपनी शुद्धता और पहुँचनीयता बनाए रखेगा।