PDF 里的字无法选中,不一定是文件损坏。它很可能只有页面图像,没有可复制的文本层。 这时需要 OCR;如果 PDF 本身已经带文本层,直接提取通常更快、更准确。正确顺序是:先判断页面类型,再选择识别方式,最后逐页校对并带页码导出。
先判断:文本层提取还是 OCR
可搜索 PDF 通常由文字、字体和页面坐标组成,阅读器可以直接选中内容。扫描版 PDF 则更像一本装进 PDF 容器的相册,每一页都是图像。两者看起来相似,处理方法却不同。
| 能力 | 文本层提取 | OCR 识别 |
|---|---|---|
| 适合的页面 | 可选中文字 | 扫描页或照片页 |
| 处理方式 | 读取内嵌文字 | 渲染页面后识别图像 |
| 常见优势 | 速度快、原文准确 | 无文本层也能提取 |
| 需要重点校对 | 段落与换行 | 数字、专名与标点 |
最快的判断方法
先在 PDF 阅读器中拖动选择一行文字。如果只能选中整页图片,或者复制后得到空白、乱码,通常需要 OCR。 如果能正常复制,只是换行混乱,应优先提取文本层,不必把每页都重新识别。
从上传到可用文本的五步流程
- 1先用非敏感文件试跑打开 PDF 转文本与 OCR,先用示例结果熟悉输出结构,再上传正式文件。
- 2按页面情况选择模式混合文档选「智能识别」;确定全部可复制时选「仅提取文本层」;整本扫描件则选「全部页面 OCR」。
- 3匹配识别语言中文资料选简体中文,中英混排选简体中文 + 英文。语言范围越贴合原稿,越容易减少字母与汉字之间的误判。
- 4逐页检查识别来源和置信度先处理低置信度 OCR 页面,再核对日期、金额、编号、人名、专有名词和表格列,不能只看全文是否通顺。
- 5保留页码后导出需要引用、复核或交接时保留页码分隔,校对完成后复制或下载 UTF-8 TXT;后续还可用文本清理工具整理空行和空格。
为什么混合 PDF 更适合智能识别
一份报告可能同时包含可复制的正文、扫描签字页和拍照附件。如果强制整本 OCR,原本准确的文本也会经过二次识别; 如果只读文本层,扫描页又会变成空白。智能模式会先尝试读取每页文本,文字不足时再启动 OCR,更适合这种混合文档。
- 会议纪要正文可直接提取,签字页按图像识别;
- 电子合同正文保留原字,扫描附件补做 OCR;
- 论文正文快速提取,插入的旧资料或截图单独识别。
工具的实际处理边界
单个文件最大 80MB。免费版最多处理 20 页,Pro 最多处理 100 页。PDF 解析、页面渲染和文字识别在当前浏览器中完成; 首次 OCR 可能需要下载语言模型,因此开始时会比纯文本提取更慢。
OCR 校对不要只从头读到尾
OCR 结果读起来通顺,不代表关键字段正确。更高效的做法是按风险排序:先检查决定事实含义的字符,再处理排版细节。
优先核对这六类内容
- 金额、小数点、百分号和正负号;
- 日期、页码、合同号、证件号和流水号;
- 姓名、公司名、地名、型号等专有名词;
- 字形相近的字符,例如 0 与 O、1 与 l;
- 表格跨列、脚注、上下标和竖排文字;
- 页眉页脚重复、断行连字符和段落顺序。
实操案例
把 46 页扫描会议记录整理成可检索档案
纸质会议记录扫描后只能逐页查看,需要按议题搜索,并在复盘时准确回到原页。
- 1.选择简体中文 + 英文和「全部页面 OCR」,让每页都进入图像识别。
- 2.按置信度先检查模糊页,重点核对日期、负责人、数字指标和行动项。
- 3.保留「第 N 页」分隔后下载 TXT,让搜索结果仍能对应原始 PDF 页码。
得到什么:得到一份可搜索、可复制且能够回溯原页的文字档案;原 PDF 仍作为版式和签字信息的依据。
复制、下载和分享怎么选
- 复制:适合把少量结果放进笔记、工单或文档;
- 下载 TXT:适合长文档留档、全文搜索和交接,文件使用 UTF-8 编码;
- 分享链接:适合传递短片段与当前结果,超过 1500 字符时只保留前 1500 字符。
敏感内容不要直接放进分享参数
分享前先删除身份证号、手机号、客户信息、未公开合同内容等不必要字段。分享链接会把文本写入 URL 参数, 不适合传递完整敏感文档;此类内容优先使用本地 TXT,并通过团队批准的安全渠道发送。
升级 Pro,处理 100 页 PDF 与整本扫描件
PRO保留逐页识别来源、OCR 置信度和页码分隔,适合长报告、合同附件与历史资料归档。
- 单个 PDF 最多识别 100 页
- 自动区分文本页与扫描页
- 逐页保留 OCR 置信度
- 导出带页码分隔的完整文本
常见问题
PDF 可以打开,为什么复制不出文字?
常见原因是页面只有扫描图像,没有文本层。先尝试拖动选择一行文字;无法选择时使用 OCR,能选择但复制混乱时优先提取文本层并整理换行。
中文扫描件应该选哪种 OCR 语言?
纯中文资料选简体中文;包含英文标题、型号或缩写时选简体中文 + 英文。语言设置应贴近原稿,不需要为了“识别更多”盲目增加语言。
为什么 OCR 后的表格会错列?
OCR 主要识别文字,复杂表格还涉及行列边界和阅读顺序。建议逐页对照原稿,先保证数字和字段正确,再在表格工具中重新组织结构。
识别结果里的置信度可以代替人工校对吗?
不能。置信度用于定位可能较难识别的页面,不代表每个字符都正确。金额、日期、编号和姓名即使出现在高置信度页面,也应单独复核。
加密或损坏的 PDF 可以直接识别吗?
不一定。工具需要先在浏览器中正常解析页面;如果文件受密码保护、结构损坏或页面无法渲染,应先获得可正常打开的版本,再进行文本提取。
OCR 后还要保留原 PDF 吗?
建议保留。TXT 适合检索和复制,原 PDF 则保留版式、签字、印章、图片和页内位置。重要资料应把两者一起归档,并保留一致的文件命名。
从一页样例开始
先打开 PDF 转文本与 OCR,用一份非敏感 PDF 验证识别模式、语言和页码结构。 需要重新排列或拆分页面时,可继续使用 在线 PDF 编辑器;更多工具可从在线工具集首页查找。