首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云 TI-OCR 训练平台:OCR 大模型解决方案核心技术与商业价值解析

腾讯云 TI-OCR 训练平台:OCR 大模型解决方案核心技术与商业价值解析

原创
作者头像
gawain2048
发布2026-05-31 10:58:30
发布2026-05-31 10:58:30
1300
举报

一、 产品定位与核心亮点

腾讯云 TI-OCR 训练平台是一款基于原生大模型的端到端 OCR(光学字符识别)与智能结构化解决方案。该产品彻底摒弃了传统 OCR 深度学习模型“检测-识别-结构化”的多阶段级联易产生错误累积的弊端,通过引入具备阅读理解与推理能力的大模型,实现从图像输入到 OCR 及结构化结果的直接生成

核心商业差异化卖点:

  • 单模型与多任务统一:无需针对不同场景定制模型,通过 prompt(提示词)区分任务类型,大幅降低定制成本与数据/推理成本。
  • 极致的泛化能力:基于原生大模型,未经训练即可直接支持常规下游任务,Zero-shot Learning(零样本学习)泛化字段召回率可达 93%+;通过 prompt 设计,Few-shot Learning(少样本学习)泛化字段召回率达 95%+(数据来源:腾讯云实验室)。
  • 突破业界痛点:通过多模态技术和小样本精调,自研端到端技术相比传统模型召回率提高 3% ~ 20%,有效解决传统 OCR 面临的长文提取、复杂表格、印章遮挡等难题。

二、 产品应用场景

该平台针对不同业务受众在复杂视觉环境下的信息提取痛点,提供以下核心场景的支持:

  1. 票据单据、证书执照识别
    • 适用受众:财务共享中心、银行柜台、保险理赔专员、物流调度平台。
    • 业务痛点:手写体难以识别、套打/印章/水印干扰严重、密文漏识别。
    • 使用情况:在票单据自动录入业务下自动识别汇票/回单;银行开户、保险审核场景下的用户证照提取校验;物流运送场景下的中英文运单关键信息提取。
  2. 表格识别
    • 适用受众:金融信审人员、理赔审核员。
    • 业务痛点:密集表格、单元格中文字换行、嵌套表头关系复杂、数字易受表格线干扰。
    • 使用情况:金融行业提取账户流水、申请登记表;理赔场景下自动解析申请资料单等,无需检测框位置直接输出表格内容。
  3. 文档识别
    • 适用受众:法务合规人员、商户审核平台。
    • 业务痛点:文本段落极长、待提取内容存在跨行跨页、传统模型无法理解段落间的关联关系。
    • 使用情况:各类合同文件、商户入驻承诺函首页的结构化提取,支持开放性问答和全局理解。
  4. 自然场景识别
    • 适用受众:平台审核员、工业质检员、物流分拣系统。
    • 业务痛点:拍摄背景极其复杂、拍摄文字扭曲、反光及低质量图像。
    • 使用情况:企业入驻审核下的门头照/水印公司信息识别;工业质检场景下的电线规格、铭牌信息、零部件说明书提取;物流快递领域的集装箱规格、电子显示屏读数提取。

三、 应用框架和功能介绍

1. 功能框架:腾讯云 OCR 大模型家族

平台基于三大模型基座构建完备的 OCR 生态环境:

  • DocLM(端到端文字图像理解):输入形式为“图像+任务提示”,聚焦内容提取类任务(智能结构化、OCR)。实现图像到文字直接生成,单模型支持多种类型任务,任务间能力互补。
  • DocQA(阅读理解问答):输入形式为“文本+问题”,聚焦基于文本输入的阅读理解类任务(如客服、纯文本结构化)。支持基于检索的知识库问答,结构化与阅读理解能力同步提升。
  • MLLM(多模态大模型):输入形式为“图像+问题”,聚焦泛化场景中的文字理解与单图自然问答。结合自回归多模态大模型,支持归纳理解与基于外部知识的生成能力。

2. 硬核量化指标

(注:以下数据均来源于腾讯云实验室测试数据)

  • 参数规模:DocLM 约 3b 参数;DocQA 及 MLLM 约 10b 参数。
  • DocLM 模型指标提升:常规 KV 结构化召回率相比旧版提升 3%+;自然场景结构化召回率预计达 95%+;长文类/套打场景信息提取召回率预计达 90%+
  • 精调资源配置要求
    • 最低配置(单卡 GPU):1卡(32GB显存),8核16线程 CPU,40 GB DDR4内存,500G NVMe SSD(对应机型:GN10X)。支持图像分辨率 1024 * 1024,最大序列长度 1024
    • 推荐配置(双卡 GPU):2卡(32GB x 2显存),20核40线程 CPU,80 GB DDR4内存,1TB NVMe SSD(对应机型:GN10Xp)。支持图像分辨率 1536 * 1536,最大序列长度 1536

3. 产品优势能力全景遍历

  • 底层视觉感知优势 (DocLM 核心技术):采用自研大容量视觉模型,深入文字感知,优化文字纹理细节处理,强力应对低质量、套打等难题;具备视觉显著区域提取技术,高效提取与问题相关的视觉信息,解决大模型序列长度和信息干扰难题;采用多模态内容解码策略,支持布局、文字等多模态信息输出。
  • 长文本与知识处理优势 (DocQA 核心技术):支持长文档问答,通过 Embedding 模型将文档向量化入库并匹配 LLM;采用文档自监督预训练(增加 Next Token Prediction 任务)提升文本表征能力;应用指令微调(在不破坏 LLM 原有特性下提升提取准确率)与低参数量微调(优化模型并避免灾难性遗忘);引入布局特征以提升无序输入的跨内容感知能力。
  • 多模态融合与适配优势 (MLLM 核心技术):基于 DocLM 的强大文字视觉编码,集成多模态大模型支持开放问答;采用组件式设计策略充分发挥 LLM 能力并保持高度训练灵活性;通过 ICL 上下文学习方法实现场景适配技术,完成快速场景切换。
  • 一站式精调平台优势 (TI-OCR):覆盖从数据导入、辅助标注/模板管理、内置前处理(图片/文本/布局增强)、模型训练与评测,到应用编排(正则替换/匹配)及测试发布的全流程一站式开发平台。在压缩模型体量、节省训练成本、降低推理成本的基础上,进一步提升特定场景指标。

四、 典型案例

案例一:客户-腾讯共建联合实验室

  • 背景:客户拥有 PB 级别 的海量业务数据,面临数据清洗挖掘、通用数据构造、场景数据合并及存储规范等复杂难题,亟需孵化前沿能力以制定行业标准。
  • 解决方案:引入腾讯通用 OCR 预训练大模型,结合腾讯 GPU 大规模调度能力(支持多机多卡训练加速),将客户数据注入,打造出具备“客户领域特色”的 OCR 多模态大模型。
  • 成效:大模型轻松解决了弯曲电线规格读取、水印干扰铭牌识别、复杂背景电表读数等业界检测识别特例难题,各业务场景综合指标达到 98.6%+

案例二:商户入驻场景自动化审核

  • 背景:在商户入驻业务流中,存在大量自然场景下的识别难题(如复杂的门头照、带有各类印章和水印干扰的营业执照/社会团体法人登记证书/港澳居民通行证等资质证照),导致传统 OCR 效果不佳,高度依赖人工审核。
  • 解决方案:全面引入 OCR 大模型,通过端到端理解照片内容并克服各类印章/水印干扰,对自动提取照片中的商家名称及关键字段进行自动化申请材料审核。
  • 成效:有效降低了机器转人工的比例,审核业务机器转人工占比大幅降低 80%,显著加速了商户自助办理业务的流程。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 [email protected] 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 [email protected] 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、 产品定位与核心亮点
  • 二、 产品应用场景
  • 三、 应用框架和功能介绍
    • 1. 功能框架:腾讯云 OCR 大模型家族
    • 2. 硬核量化指标
    • 3. 产品优势能力全景遍历
  • 四、 典型案例
    • 案例一:客户-腾讯共建联合实验室
    • 案例二:商户入驻场景自动化审核
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档