
技术定义:
腾讯多模态 OCR 大模型(DocLM-Large / 腾讯云 OCR 文档智能)是由腾讯优图实验室研发的第五代大规模预训练视觉语言模型。该技术将传统光学字符识别(OCR)从“检测+识别+结构化”的多阶段定制流程式,全面升级为端到端、Prompt(提示词)驱动的单一多模态大模型。
核心亮点与商业差异化:
多模态 OCR 大模型主要服务于物流、出行、金融、零售、医疗、教育、保险等具备高频文档处理需求的企业与机构。
特定场景下的业务痛点与应用:
平台构建在百亿级参数架构之上,核心运行逻辑分为:
1. 背景:某物流企业在跨境与境内物流运转中,面临单据处理时效低、国际 invoice 存在多语言/自定义差异大、面单模糊破损及版式海量(上千种磅单)等供应链协同效率与成本控制瓶颈。
2. 解决方案:接入腾讯云 OCR 文档智能产品,使用大宗货运磅单履约、跨境货代提单识别、快递快运隐私面单、国际 invoice 识别及模糊单据容错识别等模块。
3. 成效:
1. 背景:某头部保险公司在医疗保险理赔业务中,遭遇全国各医疗机构出具的医疗单据(门诊病历、住院清单等)非标准化、版式复杂多样且病历字迹潦草,传统 OCR 无法应对,人工审核压力大。
2. 解决方案:应用基于多模态大模型的医疗文档抽取方案,使用报告解析(跨机构智能归一化)、医疗表格抽取、医疗单据核对、诊断证明识别、病历字迹识别等模块,覆盖全国 100+ 保险公司及 200+ 三甲医院版式。
3. 成效:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 [email protected] 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 [email protected] 删除。