通过深思熟虑的文件转换实现文档可访问性

可访问性不仅仅是一张检查清单;它是一种设计理念,确保任何人——无论是否有残障——都能轻松使用数字内容。当文档从一种格式转换为另一种格式时,支持屏幕阅读器和辅助技术的底层结构、标签和描述可能会丢失或损坏。仅仅重新创建视觉外观而不考虑语义的转换,往往会生成在屏幕上看起来正常,但对依赖键盘导航、语音助理或盲文显示器的用户来说却成了障碍的文件。本文将逐步说明在文件转换过程中保持甚至提升可访问性所需的实际步骤,涵盖最常见的源格式和目标格式、语义标记的技术细节以及帮助验证合规性的工具。

理解可访问性要求

可访问文档设计的核心有三大支柱:可感知性可操作性可理解性。可感知性要求所有信息以用户能够感知的形式呈现——通过视觉、听觉或触觉。可操作性要求能够通过键盘或其他替代输入方式进行导航和交互。可理解性则要求结构清晰、逻辑合理且行为可预期。

在转换文件时,这三大支柱会转化为具体的技术期望。对于 PDF,PDF/UA(通用可访问性)标准规定必须使用标签化内容、准确的阅读顺序以及非文本元素的替代文字。对于 EPUB,EPUB Accessibility 1.0 规范要求使用语义化 HTML、在需要时添加 ARIA 角色以及正确的导航地标。Word 文档必须保留标题样式、列表结构和 alt 文本。在转换过程中忽略这些属性会导致辅助软件误读文档,引起混乱或遗漏信息。

选择合适的目标格式

并非所有格式在可访问性方面都表现相同。决策应平衡受众需求、分发渠道以及所选格式的技术能力。

  • PDF/UA – 最适合需要保持布局完整性的静态、可打印文档。适用于法律合同、学术论文和政府表格。
  • EPUB(带可访问性扩展) – 理想用于可重排文本,如小说、手册和教学指南,读者可以调节字号或切换暗色模式。
  • HTML – 当文档将在网上阅读时,结构良好的 HTML 页面提供最丰富的可访问性功能。
  • DOCX – 在需要后续编辑的情况下很有用,但前提是编辑环境(例如 Microsoft Word)能够尊重可访问性元数据。

了解这些权衡有助于你选择一种既不牺牲可访问性又满足便利性的转换路径。

保持语义结构

可访问性失败最常见的原因是语义信息的丢失——标题、列表、表格和阅读顺序。在转换过程中,转换引擎必须将源标记映射为目标格式中的等价标签,而不是把所有内容统一平铺为纯文本或光栅图像。

从 Word 转为 PDF/UA

Microsoft Word 将结构信息存放在样式定义中(例如 Heading 1Heading 2List Paragraph)。导出为 PDF 时,请确保启用了 “Create tagged PDF”(创建标签化 PDF)选项。这会指示 Word 将样式层次嵌入为 PDF 标签,屏幕阅读器随后会将其解释为逻辑大纲。如果使用第三方转换器,请验证它能保留 “Heading” 与 “Structure” 标签;否则,需要使用 Adobe Acrobat Pro 等工具对 PDF 进行后处理,手动添加缺失的标签。

从 PDF 转为 EPUB

将静态 PDF 转为可重排 EPUB 难度很大,因为 PDF 往往缺乏逻辑顺序。可靠的转换工作流会提取 PDF 内部的文本对象,分析空白以推断段落,并重新构建语义化 HTML 树。采用 OCR 加布局分析的工具——例如带机器学习后端的 pdf2epub——通常比单纯的位图转文本转换器表现更佳,因为它们能够保留标题和列表,而不是把所有内容压成一个连续块。

从图像转为可访问格式

当文档包含扫描图像时,必须先进行 OCR(光学字符识别)再转换。OCR 不仅提取文本,还可以让你为标题、表格和图注等元素分配正确的标签。一些 OCR 引擎(如 ABBYY FineReader)能够直接将识别后的文本嵌入 PDF/UA,生成可搜索层和可选标题。

处理图像及替代文字

图像在许多文档中承载重要信息——图表、示意图、装饰性图标和照片。对屏幕阅读器用户而言,唯一的传递途径是替代文字(alt text)。转换过程中:

  1. 检测图像元素 – 在 HTML 中定位每个 <img> 标签,或在 PDF 中定位图像对象。
  2. 提取已有的 alt 属性 – 许多现代创作工具已经存储了 alt 文本,需予以保留。
  3. 为缺失的 alt 生成文字 – 若源文件没有 alt 描述,可使用 AI 驱动的图像标题服务(例如 Microsoft Azure Computer Vision)生成简洁描述。随后人工审查;自动生成的标题可能会遗漏细微含义。
  4. 嵌入 alt 文本 – 在 PDF 中,alt 文本存放于 /ActualText 条目;在 EPUB/HTML 中则写入 alt 属性。

不要盲目将装饰性图像留空描述。在 HTML 中,可为装饰性图像添加 role="presentation" 或空的 alt="",以表明它纯粹用于装饰。 在 PDF/UA 中,设置 /Artifact 标记,让辅助技术直接跳过该图像。

管理表格和复杂布局

表格是可访问性错误的常见来源,因为它们同时包含数据和视觉格式。将表格转换为图像会丢失单元格之间的关联,使辅助软件无法传递信息。

  • 保留表格语义 – 确保目标格式包含正确的 <table><thead><tbody><th> 标签(或 PDF 表格标签)。从 Word 转换时,启用 “Table conversion” 选项,让 Word 表格映射为 HTML 表格再生成 PDF。
  • 提供摘要和标题 – HTML 与 PDF/UA 都支持简短的摘要说明表格用途。可在 HTML 中使用 <caption>,或在 PDF 中使用 Table Caption 标记。
  • 避免嵌套表格 – 嵌套结构常导致阅读顺序混乱。若源文件使用嵌套表格进行布局,考虑将内容重新设计为单一、结构良好的表格,或使用 CSS 进行视觉对齐。

处理高度格式化的报告(如多列布局的财务报表)时,先将文档拆分为逻辑章节,再分别转换,以保持干净的标记层次。

转换为可访问 PDF(PDF/UA)

PDF/UA 合规是一项严格但可实现的目标。转换过程可分为三阶段:

  1. 源文件准备 – 在创作工具中应用标题样式、列表样式和 alt 文本。使用内置的可访问性检查器(Word 的 Accessibility Checker、Adobe InDesign 的 Accessibility 面板)在导出前解决问题。
  2. 标签化导出 – 导出为带标签的 PDF。Word 中选择 文件 → 另存为 → PDF 并勾选 “Best for electronic distribution and accessibility”(适合电子分发和可访问性)选项。InDesign 中启用 “Create Tagged PDF” 并勾选 “Include Structure Tags for Accessibility”。
  3. 导后验证 – 使用 PAC 3(PDF Accessibility Checker)或免费 pdfaPilot 等验证工具扫描缺失标签、未标记图像和阅读顺序问题。可在 Acrobat Pro 中手动修复,或回到源文件重新处理。

如果需要批量转换大量 PDF,可构建基于 Ghostscriptpdf2pdf 脚本的自动化流水线来保持标签,但仍需抽样检查,以确保处理过程未剥离关键元数据。

电子书的可访问性(EPUB)

电子书面临的挑战不同,因为它本身就是可重排的。EPUB 实际上是一个包含 HTML、CSS 与图像资源的压缩包。要制作可访问的 EPUB:

  • 使用正确的标题层级<h1><h6> 应反映章节与节的逻辑大纲。
  • 提供导航文档nav.xhtml 文件充当屏幕阅读器的目录,确保每个条目指向正确的地标。
  • 添加 ARIA 地标 – 对于复杂页面,加入 role="navigation"role="main"role="complementary" 等,以帮助用户快速跳转到关键区域。
  • 确保图像描述 – 与 PDF 相同,为每张图像嵌入 alt 属性。
  • 使用 EPUBCheck 验证 – W3C 的 EPUBCheck 工具会标记缺失的地标、未引用的文件以及其他可访问性缺口。

将 DOCX 转为可访问的 EPUB 可使用 LibreOffice 的 Export as EPUB 功能,但必须勾选 “Export headings as structure”(导出标题为结构)选项,并在生成的 HTML 中手动添加缺失的 alt 文本。若追求更可靠的结果,建议使用专门遵循 EPUB Accessibility 规范的转换服务。

测试与验证工具

没有系统化测试的转换工作流是不完整的。以下是每种格式最可靠的工具列表:

  • PDF/UAPAC 3Adobe Acrobat Pro 的 Accessibility CheckerNVDA(免费屏幕阅读器)用于手动导航检查。
  • EPUBEPUBCheckAce by DAISY、macOS 上的 VoiceOver 用于阅读顺序验证。
  • HTMLWAVE Web Accessibility Evaluation Toolaxe DevTools,以及使用屏幕阅读器的手动检查。
  • DOCX – Microsoft Word 内置的 Accessibility Checker,随后使用 NVDA 快速验证标题和列表结构。

在每次转换后运行这些工具,可在早期捕获回归问题。若进行大规模自动化转换,建议将其纳入持续集成流水线。

保持一致结果的工作流技巧

  1. 标准化源文件样式 – 在转换前,在所有文档中执行统一的样式指南。统一的标题层级、列表格式和图像标注使自动映射更可预测。
  2. 创建转换检查清单 – 列出所需的可访问性属性(标签、alt 文本、标题等),并在转换后逐项核对。
  3. 尽可能使用单一转换引擎 – 在多个工具之间切换会引入变异。像 convertise.app 这样的云端转换服务能够保留标签,并支持批处理脚本,同时避免文件落地本地。
  4. 记录例外情况 – 若某个文件包含转换器无法处理的复杂表格,需注明并安排人工修复步骤。
  5. 版本控制 – 将源文件和转换后的文件存入仓库(如 Git),以便追溯导致可访问性缺口的变更。

将这些习惯融入日常工作,团队即可显著降低发布不可访问文档的风险。

常见陷阱及规避方法

  • 把 PDF 扁平化 – 将 PDF 转为仅图像的版本会破坏可搜索性和标签。保留原始 PDF 作为源文件,只有在必须嵌入不可编辑图形时才进行光栅化。
  • 仅依赖视觉布局 – 外观美观的页面可能出现来回跳转的阅读顺序。使用 Acrobat 的 “Reading Order” 面板或浏览器的 DOM 检查器确认逻辑流。
  • 忽略语言属性 – 对于多语言文档,在 HTML/EPUB 的根元素上加入 lang="en"lang="fr" 等,在 PDF 中使用 Language 标签。屏幕阅读器据此选择正确的发音规则。
  • 认为默认 alt 文本足够 – “image1” 之类的通用描述毫无价值。请替换为能够传达图像目的的具体说明。
  • 跳过验证 – 即使只有一个标签缺失也可能打断屏幕阅读器的导航。将验证视为不可协商的必做步骤,而非可选的事后检查。

结论

可访问性不是事后的补丁,而是转换过程的核心组成部分。只要把语义结构、替代文字、表格标记和语言属性视为首要要素,就能将普通文件转化为面向所有用户的通用资源。这个旅程从严谨的创作开始——统一标题、恰当的 alt 文本和清晰的表格——经过慎重的目标格式选择,最终以专业的验证工具进行严格检查。当这些步骤被编织成可重复的工作流时,组织即可自信地分发 PDF、EPUB 与 HTML 文档,服务每一位用户,无论其能力如何。拥抱这些实践不仅符合法律标准和伦理责任,也提升了数字交流的整体质量与专业度。