PDF 里的字无法选中,不一定是文件损坏。它很可能只有页面图像,没有可复制的文本层。 这时需要 OCR;如果 PDF 本身已经带文本层,直接提取通常更快、更准确。正确顺序是:先判断页面类型,再选择识别方式,最后逐页校对并带页码导出

先判断:文本层提取还是 OCR

可搜索 PDF 通常由文字、字体和页面坐标组成,阅读器可以直接选中内容。扫描版 PDF 则更像一本装进 PDF 容器的相册,每一页都是图像。两者看起来相似,处理方法却不同。

能力文本层提取OCR 识别
适合的页面可选中文字扫描页或照片页
处理方式读取内嵌文字渲染页面后识别图像
常见优势速度快、原文准确无文本层也能提取
需要重点校对段落与换行数字、专名与标点
最快的判断方法
先在 PDF 阅读器中拖动选择一行文字。如果只能选中整页图片,或者复制后得到空白、乱码,通常需要 OCR。 如果能正常复制,只是换行混乱,应优先提取文本层,不必把每页都重新识别。

从上传到可用文本的五步流程

  1. 1
    先用非敏感文件试跑
    打开 PDF 转文本与 OCR,先用示例结果熟悉输出结构,再上传正式文件。
  2. 2
    按页面情况选择模式
    混合文档选「智能识别」;确定全部可复制时选「仅提取文本层」;整本扫描件则选「全部页面 OCR」。
  3. 3
    匹配识别语言
    中文资料选简体中文,中英混排选简体中文 + 英文。语言范围越贴合原稿,越容易减少字母与汉字之间的误判。
  4. 4
    逐页检查识别来源和置信度
    先处理低置信度 OCR 页面,再核对日期、金额、编号、人名、专有名词和表格列,不能只看全文是否通顺。
  5. 5
    保留页码后导出
    需要引用、复核或交接时保留页码分隔,校对完成后复制或下载 UTF-8 TXT;后续还可用文本清理工具整理空行和空格。

为什么混合 PDF 更适合智能识别

一份报告可能同时包含可复制的正文、扫描签字页和拍照附件。如果强制整本 OCR,原本准确的文本也会经过二次识别; 如果只读文本层,扫描页又会变成空白。智能模式会先尝试读取每页文本,文字不足时再启动 OCR,更适合这种混合文档。

  • 会议纪要正文可直接提取,签字页按图像识别;
  • 电子合同正文保留原字,扫描附件补做 OCR;
  • 论文正文快速提取,插入的旧资料或截图单独识别。
工具的实际处理边界
单个文件最大 80MB。免费版最多处理 20 页,Pro 最多处理 100 页。PDF 解析、页面渲染和文字识别在当前浏览器中完成; 首次 OCR 可能需要下载语言模型,因此开始时会比纯文本提取更慢。

OCR 校对不要只从头读到尾

OCR 结果读起来通顺,不代表关键字段正确。更高效的做法是按风险排序:先检查决定事实含义的字符,再处理排版细节。

优先核对这六类内容

  • 金额、小数点、百分号和正负号;
  • 日期、页码、合同号、证件号和流水号;
  • 姓名、公司名、地名、型号等专有名词;
  • 字形相近的字符,例如 0 与 O、1 与 l;
  • 表格跨列、脚注、上下标和竖排文字;
  • 页眉页脚重复、断行连字符和段落顺序。
实操案例

把 46 页扫描会议记录整理成可检索档案

纸质会议记录扫描后只能逐页查看,需要按议题搜索,并在复盘时准确回到原页。
  1. 1.选择简体中文 + 英文和「全部页面 OCR」,让每页都进入图像识别。
  2. 2.按置信度先检查模糊页,重点核对日期、负责人、数字指标和行动项。
  3. 3.保留「第 N 页」分隔后下载 TXT,让搜索结果仍能对应原始 PDF 页码。
得到什么:得到一份可搜索、可复制且能够回溯原页的文字档案;原 PDF 仍作为版式和签字信息的依据。

复制、下载和分享怎么选

  • 复制:适合把少量结果放进笔记、工单或文档;
  • 下载 TXT:适合长文档留档、全文搜索和交接,文件使用 UTF-8 编码;
  • 分享链接:适合传递短片段与当前结果,超过 1500 字符时只保留前 1500 字符。
敏感内容不要直接放进分享参数
分享前先删除身份证号、手机号、客户信息、未公开合同内容等不必要字段。分享链接会把文本写入 URL 参数, 不适合传递完整敏感文档;此类内容优先使用本地 TXT,并通过团队批准的安全渠道发送。

升级 Pro,处理 100 页 PDF 与整本扫描件

PRO

保留逐页识别来源、OCR 置信度和页码分隔,适合长报告、合同附件与历史资料归档。

  • 单个 PDF 最多识别 100 页
  • 自动区分文本页与扫描页
  • 逐页保留 OCR 置信度
  • 导出带页码分隔的完整文本

常见问题

PDF 可以打开,为什么复制不出文字?

常见原因是页面只有扫描图像,没有文本层。先尝试拖动选择一行文字;无法选择时使用 OCR,能选择但复制混乱时优先提取文本层并整理换行。

中文扫描件应该选哪种 OCR 语言?

纯中文资料选简体中文;包含英文标题、型号或缩写时选简体中文 + 英文。语言设置应贴近原稿,不需要为了“识别更多”盲目增加语言。

为什么 OCR 后的表格会错列?

OCR 主要识别文字,复杂表格还涉及行列边界和阅读顺序。建议逐页对照原稿,先保证数字和字段正确,再在表格工具中重新组织结构。

识别结果里的置信度可以代替人工校对吗?

不能。置信度用于定位可能较难识别的页面,不代表每个字符都正确。金额、日期、编号和姓名即使出现在高置信度页面,也应单独复核。

加密或损坏的 PDF 可以直接识别吗?

不一定。工具需要先在浏览器中正常解析页面;如果文件受密码保护、结构损坏或页面无法渲染,应先获得可正常打开的版本,再进行文本提取。

OCR 后还要保留原 PDF 吗?

建议保留。TXT 适合检索和复制,原 PDF 则保留版式、签字、印章、图片和页内位置。重要资料应把两者一起归档,并保留一致的文件命名。

从一页样例开始

先打开 PDF 转文本与 OCR,用一份非敏感 PDF 验证识别模式、语言和页码结构。 需要重新排列或拆分页面时,可继续使用 在线 PDF 编辑器;更多工具可从在线工具集首页查找。