LaTeX 문서의 학술 출판용 변환

LaTeX는 과학 원고, 학회 논문, 학위 논문의 사실상 표준으로 남아 있습니다. 수학식, 참고문헌, 복잡한 구조를 정밀하게 조판할 수 있다는 점이 강점입니다. 하지만 출판사, 기관 리포지터리, 독자들은 종종 같은 자료를 다른 형식—보관용 PDF/A, 웹 기반 독서를 위한 HTML, 전자책 리더용 EPUB—으로 요구합니다. 변환 단계에서는 누락된 글꼴, 깨진 교차 참조, 학술 기록을 손상시키는 서식 변경 등 보이지 않는 함정이 많습니다.

이 글에서는 저자 의도를 보존하면서 배포용 파일을 만들 수 있는 체계적인 워크플로우를 단계별로 안내합니다. 실용적인 결정, 도구 선택, 검증 방법에 초점을 맞추며, 단일 원고든 다수의 제출물든 적용할 수 있습니다.


1. 목표 형식 및 제약조건 이해하기

변환을 실행하기 전에 정확한 출력 요구사항을 정의합니다. 전달 채널마다 다른 기술적 제약이 있습니다:

  • PDF/A‑1b – 장기 보존을 위한 ISO 표준. 암호화를 허용하지 않으며, 글꼴 포함을 요구하고, 참조되지 않은 색 공간을 허용하지 않습니다.
  • PDF/UA – 접근성 규격을 충족하는 PDF 변형(적절한 태그, 읽기 순서, 이미지 대체 텍스트 등).
  • HTML5 – 웹 포털에 이상적; 의미론적 마크업, 반응형 이미지, 수식용 MathML 또는 대체 이미지 필요.
  • EPUB 3 – 텍스트 재흐름, 글꼴 포함, MathML을 지원하는 전자책 형식; 태블릿·전자책 리더에 적합.

각 형식은 특정 컴파일 플래그나 후처리 단계가 필요합니다. 초기에 제약을 매핑하면 시간 절약과 비용이 많이 드는 재작업을 방지할 수 있습니다.


2. 견고한 LaTeX 엔진 선택하기

호출하는 엔진에 따라 소스가 얼마나 정확히 렌더링되는지와 어떤 보조 파일이 생성되는지가 결정됩니다.

엔진강점일반적인 사용 사례
pdfLaTeX직접 PDF 출력, 성숙한 생태계, 광범위한 패키지 지원PDF/A 준수를 나중에 추가해도 되는 간단한 논문·학회 제출
XeLaTeX네이티브 Unicode 처리, 시스템 글꼴 쉽게 선택, 다국어 텍스트에 좋음비라틴 문자 스크립트나 커스텀 OpenType 글꼴이 필요한 문서
LuaLaTeXLua 스크립팅으로 확장 가능, 글꼴·PDF 세부 제어에 정밀복잡한 레이아웃, 프로그래밍 가능한 참고문헌 스타일, PDF 메타데이터를 정밀히 제어해야 할 때

아카이브용 PDF(PDF/A)에는 pdfLaTeXpdfx 패키지 조합이 신뢰할 수 있는 기본선입니다. HTML이나 EPUB을 만들려면 나중에 LaTeX 소스를 깨끗한 중간 PDF 혹은 DVI 파일을 기대하는 변환 도구에 넘깁니다.


3. 변환을 위한 소스 준비

3.1 패키지는 최소화하고 문서화하기

불필요하거나 오래된 패키지는 엔진을 전환할 때 컴파일 오류 가능성을 높입니다. \usepackage{} 선언을 감사하고 최종 외관에 꼭 필요한 것만 남깁니다.

3.2 글꼴을 명시적으로 포함시키기

최종 PDF에 모든 글리프가 포함돼야 하면, XeLaTeX/LuaLaTeX에서는 \setmainfont{} 로 글꼴 패밀리를 선언하고, pdfLaTeX에서는 \pdfmapfile{} 메커니즘을 사용합니다. 선택한 글꼴이 배포 라이선스를 갖고 있는지 확인하세요. 그렇지 않으면 변환 시 기본 글꼴로 대체돼 시각적 일관성이 깨집니다.

3.3 표준 참고문헌 도구 사용하기

.bib 파일 하나에 참고문헌 데이터를 유지하고, 최신 인용 스타일을 위해 biblatexbiber를 사용합니다. 이렇게 하면 HTML이나 EPUB에서도 같은 인용 키를 재사용할 수 있어 참고문헌 목록 생성이 쉬워집니다.


4. 고품질 PDF 기본 파일 생성하기

깨끗한 PDF는 대부분의 다운스트림 변환에서 핵심입니다. 다음 절차를 따르세요:

  1. 두 번 컴파일하여 교차 참조와 목차를 해결합니다.
  2. biber 실행(bibtex는 레거시 스타일을 사용할 때만).
  3. pdfx 패키지 적용:
    \usepackage[x-1a]{pdfx}
    
    이는 PDF/A 메타데이터를 삽입하고 글꼴 포함을 강제합니다.
  4. 로그에서 Missing font 경고 확인. 경고가 있으면 글꼴을 맵 파일에 추가하거나 XeLaTeX으로 전환합니다.

PDF/A 준수를 확인하려면 VeraPDF 같은 검증기를 사용하십시오.


5. PDF를 HTML 및 EPUB으로 변환하기

주요 전략 두 가지가 있습니다:

5.1 LaTeX → HTML/EPUB 직접 도구

  • pandoc – LaTeX을 읽고 HTML5 또는 EPUB을 내보내는 범용 변환기. 인용, 그림, 간단한 수식은 MathJax로 처리합니다.
  • latex2html – 오래되고 가벼우나 최신 패키지와 복잡한 수식 처리에 취약합니다.

Pandoc 워크플로우:

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.html

pandoc manuscript.tex \
  --pdf-engine=xelatex \
  --citeproc \
  -s -o manuscript.epub

핵심 옵션:

  • --pdf-engine은 사용자 정의 글꼴이 반영되도록 합니다.
  • --citeproc.bib 파일을 처리해 참고문헌을 렌더링합니다.
  • -s는 CSS가 내장된 독립형 문서를 생성합니다.

5.2 PDF‑우선 접근법

PDF가 이미 PDF/A/UA 기준을 충족한다면 pdf2htmlEX(HTML) 또는 Calibre(EPUB)로 구조를 추출할 수 있습니다. 이 방법은 페이지 레이아웃과 글꼴 렌더링을 거의 그대로 유지하지만, 수식은 큰 래스터 이미지로 대체될 수 있습니다.

장점: 시각적 일관성 거의 완벽.
단점: 출력 파일 크기 커짐, 텍스트가 이미지로 처리돼 접근성 제한.


6. 포맷 간 수학식 보존하기

수식은 변환 시 가장 취약한 요소입니다.

  • MathML – 최신 브라우저와 EPUB 3이 네이티브 지원합니다. Pandoc은 --mathml 플래그로 MathML을 출력할 수 있습니다.
  • LaTeXML – 전용 LaTeX→XML 파이프라인으로 고품질 MathML과 XHTML을 생성합니다.
  • 이미지 대체 – MathML을 렌더링하지 못하는 환경을 위해 --webtex 로 SVG 이미지를 생성합니다. SVG는 확대해도 품질 손실이 없습니다.

MathML과 SVG를 동시에 제공하는 전형적인 Pandoc 명령:

pandoc manuscript.tex \
  --webtex=https://latex.codecogs.com/svg.latex? \
  --mathml \
  -s -o manuscript.html

생성된 HTML에는 MathML을 지원하는 브라우저용 마크업과, 나머지를 위한 SVG가 함께 포함됩니다.


7. 그림 및 외부 미디어 관리하기

그림은 보통 별도 PDF, PNG, EPS 파일에서 가져옵니다. 일관성을 유지하려면:

  1. pdfLaTeX 사용 시 그림을 PDF로 포함. 벡터 품질이 최종 PDF에 유지됩니다.
  2. HTML/EPUB용 그림을 SVG로 변환. Inkscape(inkscape -l fig.svg fig.pdf) 같은 도구로 선명함을 유지하고 CSS 스타일링도 가능합니다.
  3. 대체 텍스트 제공: LaTeX에서 \caption[Alt text]{Full caption} 형태로 옵션 인자를 사용합니다. Pandoc은 이 옵션을 접근성을 위해 추출합니다.

픽셀 기반 사진(예: 현미경 사진)이라면 제외하고, 그 외에는 가능한 한 벡터 형식을 사용하세요. 큰 래스터 이미지는 optipng·jpegoptim 로 압축 후 포함합니다.


8. 출력물 검증하기

8.1 PDF 검증

  • veraPDF – PDF/A 준수 검사.
  • PDF/UA‑Validator – 접근성 태그 검증.

두 도구를 실행해 보고, 누락된 대체 텍스트, 태그되지 않은 표 등 보고된 문제를 수정합니다.

8.2 HTML 검증

  • W3C HTML validator – 구문 오류 확인.
  • axe‑core – 접근성 위반(ARIA 레이블 누락, 부적절한 헤딩 순서 등) 스캔.

8.3 EPUB 검증

  • epubcheck – 국제 디지털 출판 포럼(IDPF) 공식 검증기. 메타데이터 누락, 네비게이션 파일 오류, 잘못된 MathML 등을 알려줍니다.

CI 파이프라인(예: GitHub Actions)에서 이러한 검증을 자동화하면 새 버전마다 품질 게이트를 통과하도록 보장할 수 있습니다.


9. 다수 원고 자동화 워크플로우

연구자들은 한 해에 수십 개의 논문·학위 논문을 처리해야 할 때가 많습니다. 간단한 자동화 스크립트로 앞서 설명한 단계를 자동화할 수 있습니다.

#!/usr/bin/env bash
set -euo pipefail

DOCS=("paper1" "paper2" "paper3")
for d in "${DOCS[@]}"; do
  cd "$d"
  # 1. PDF/A 빌드
  latexmk -pdf -pdflatex='pdflatex -interaction=nonstopmode' -usepdfx
  # 2. PDF/A 검증
  verapdf "${d}.pdf"
  # 3. pandoc으로 HTML & EPUB 변환
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.html"
  pandoc "${d}.tex" --pdf-engine=xelatex --citeproc -s -o "${d}.epub"
  # 4. HTML & EPUB 검증
  html5validator "${d}.html"
  epubcheck "${d}.epub"
  cd ..
done

스크립트는 latexmk 로 증분 컴파일을 수행하고, 각 변환 후 세 종류의 검증기를 실행합니다. DOCS 배열을 실제 디렉터리 구조에 맞게 수정하세요.


10. 온라인 변환 서비스를 언제 활용할까

convertise.app 과 같은 클라우드 기반 도구는 특히 워크스테이션에 전체 TeX 환경이 없을 때 일회성 변환에 편리합니다. 서비스는 샌드박스에서 LaTeX 소스를 처리하고 PDF/A, HTML, EPUB을 반환하며, 문서에 명시된 프라이버시 원칙을 따릅니다. 다만 민감한 연구 데이터를 다룰 경우 자체 호스팅 파이프라인이나 로컬 변환을 선택해 원고를 직접 관리하는 것이 안전합니다.


11. 흔히 마주치는 함정과 예방 방법

함정증상해결 방안
PDF/A에서 글꼴 누락텍스트가 기본 Times 로 표시되거나 검증기 경고 발생글꼴을 명시적으로 포함(\setmainfont{} 혹은 pdfx 사용)하고 라이선스 확인
HTML 내 인용이 깨짐최종 HTML에 [?] 표시참고문헌 파일 경로 확인 및 --citeproc 옵션 사용(pandoc) 또는 변환 전 biber 실행
수식이 이미지만 출력선택 가능한 텍스트 없음, 파일 크기 급증MathML(--mathml) 활성화하고 SVG 대체(--webtex) 제공
그림 캡션에 대체 텍스트 누락스크린 리더가 이미지 설명 못함\caption[Alt text]{Full caption} 형태의 짧은 캡션 제공, pandoc이 추출
EPUB 파일 과다 크기다운로드 지연, 리더 크래시래스터 이미지 jpegoptim/optipng 로 압축하고 가능하면 벡터 SVG 사용

초기에 이러한 항목을 체크하면 출판 파이프라인에서 반복 작업을 크게 줄일 수 있습니다.


12. 기관 리포지터리와의 연계

많은 대학이 다양한 형식의 제출물을 받아들이는 기관 리포지터리를 운영합니다. 인제스트를 원활하게 하려면:

  1. PDF/A‑1b를 아카이브 마스터 로 표준화하고, 위 4절 방법으로 직접 생성합니다.
  2. HTML 초록 을 동일 LaTeX 소스로 생성해 별도 메타데이터 필드에 저장, 검색 엔진 인덱싱에 활용합니다.
  3. EPUB을 보조 다운로드 로 제공하되, 이미지 압축으로 5 MB 이하로 유지합니다.
  4. 변환 이력 (엔진 버전, 패키지 목록, 검증 결과)을 리포지터리 메타스키마에 기록합니다. 감사 요구와 향후 재현성을 충족합니다.

13. 요약

LaTeX 원고를 여러 배포 형식으로 변환하는 일은 “클릭 한 번”으로 끝나는 작업이 아닙니다. 목표 표준을 명확히 이해하고, 소스를 체계적으로 준비하며, 모든 출력물을 철저히 검증하는 것이 필수입니다. 적절한 엔진 선택, 글꼴 포함, 견고한 PDF/A 워크플로우, 그리고 pandoc·LaTeXML·전용 검증기와 같은 도구를 활용하면 단일 소스로 전통 학술지, 웹 포털, 전자책 리더 등 다양한 채널에 안전하게 전달할 수 있습니다. 자동화 스크립트로 과정을 재현 가능하게 만들고, 필요 시 프라이버시를 보장하는 convertise.app 같은 온라인 서비스를 보조적으로 활용하면 좋습니다. 이 실천 방안을 도입하면 학술 작업이 디지털 수명 전체에 걸쳐 일관성과 접근성을 유지하게 됩니다.