G

GLM-OCR 批量文档识别

基于 GLM-OCR 版面解析 API 的高质量多文档 OCR Web 应用

API 状态 {{ apiStatusText }}

累计 Token 消耗 {{ totalTokens.toLocaleString() }}

文档上传与识别多图批量

支持拖拽或多选上传多张图片 / PDF，点击「开始识别」即可调用 GLM-OCR 版面解析进行高质量 OCR。

或拖拽图片 / PDF 到此处，支持多文件同时上传。

支持常见图片格式（JPG、PNG、WEBP 等）及多页 PDF 文档（单文件上限 50MB，最多约 100 页）。

已选择 {{ files.length }} 个文件 {{ totalSizeLabel }}

将按顺序调用 GLM-OCR 版面解析 API，长篇 PDF 将进行版面分析和多页识别，整体耗时可能较长。

识别结果（{{ results.length }}）

每张图片都会生成独立的 Markdown 文本，方便复制或整体导出。

{{ item.filename }}

Token 消耗： {{ item.tokens }}

HTML 还原仅支持图片文件。

所见即所得：根据原图与 Markdown 1:1 重建的 HTML + Tailwind 布局。

已按业务语义抽取为结构化 JSON，可直接入库。

{{ item.prettyJson || item.jsonResult }}

使用小提示

确保 Zeabur 或本地环境中已正确设置 ZHIPUAI_API_KEY。
支持图片及多页 PDF 文档，长文档会先做版面分析再识别，整体耗时与页数和内容复杂度相关。
顶部状态栏会实时展示后端累计的 Token 消耗情况。

AI 二次深度解析配置

请选择任务类型，并确认视觉参考图后再开始调用大模型。

任务类型

提取内容目标语言 (Target Language)

original：忠于原文语言；zh：全部翻译为简体中文；en：全部翻译为英文。

视觉参考图配置

大模型将同时参考该图片与 Markdown 文本进行 1:1 排版还原。

当前文档源自图片，已自动使用该图片作为视觉参考。

参考图片预览

当前文档是 PDF，你可以选择一页作为视觉参考图。

提取 PDF 第页作为参考

尚未生成预览，请选择页码并点击「预览该页」。

高级用法：如果只想还原某个局部复杂表格，可在系统中截图后，在此页面按 Ctrl+V / Cmd+V 粘贴截图，最新粘贴的图片将覆盖当前参考图。

当前参考图来源： {{ secondaryModal.previewSourceLabel }}

点击确认后，将按所选模式调用智谱大模型进行二次重构，可能会产生额外 Token 消耗。