去银行开对公账户客户经理会复印营业执照、录入企业信息、核验统一社会信用代码。以前这一套流程下来光信息录入就要十来分钟碰到证号抄错还得推倒重来。营业执照OCR让这件事变成扫一下就完事。营业执照上有什么现行的”三证合一”营业执照核心字段包括统一社会信用代码18位字母数字组合是企业唯一的”身份证号”企业名称公司全称类型有限责任公司、股份有限公司、个体工商户等法定代表人/负责人姓名注册资本金额和币种成立日期YYYY年MM月DD日营业期限起始日期到截止日期或”长期”经营范围一段较长的文字描述住所/经营场所企业注册地址营业执照有正本和副本版式略有不同。副本尺寸更小A4对折大小是日常业务办理中最常被要求出示的版本。识别的难点统一社会信用代码的精确性。18位代码里每一位都有严格含义登记管理部门代码、机构类别代码、登记管理机关行政区划码、主体标识码、校验码任何一位识别错误都可能导致企业信息匹配失败。好在最后一位是校验码可以用算法验证前17位是否正确。经营范围文本长。经营范围往往几十上百字包含大量行业术语字段跨度大容易和下方的”住所”字段混淆。长文本识别需要模型有较强的序列建模能力。副本版式差异。不同省份、不同年份发放的营业执照副本在字体大小、字段间距、排版细节上存在差异。老版营业执照三证合一之前的版式完全不同需要兼容。拍照质量问题。营业执照通常装在镜框里挂在墙上或者塑封后放在文件夹里。手机拍照时角度倾斜、玻璃反光、光线不足都是常态。系统必须能处理这些”不完美”的输入。大模型能帮什么忙传统OCR在营业执照识别上已经比较成熟但大模型的加入带来了新的可能语义理解纠错。OCR识别出”有限责任公司”但大模型知道企业类型应该是一个标准化的枚举值可以自动归一化。识别出经营范围里的”餐饮服务”和”售服务”——大模型推断后者应该是”销售服务”靠语义补全了漏字。智能字段抽取。对于非标准格式的企业文件如旧的工商登记证、外资企业批准证书大模型可以不依赖固定模板直接从图片中理解”这个字段是什么意思”灵活提取信息。多证联读。一次业务办理可能需要同时提供营业执照、开户许可证、法人身份证。大模型可以综合理解多份文件交叉验证信息一致性——营业执照上的法人姓名和身份证上的姓名是否匹配注册资本数字是否一致。企业证照不止营业执照除了营业执照企业日常经营中还有大量需要OCR处理的证照开户许可证。银行开户时必备包含开户行、账号、企业名称等信息OCR识别后直接填入银行系统。食品经营许可证/药品经营许可证。行业准入证件版式各异字段不固定大模型的灵活抽取能力在这里特别有用。商标注册证。知识产权管理场景需要批量识别提取商标名称、注册号、有效期等信息。高新技术企业证书。企业资质认定、招投标场景常用OCR识别后自动归档。道路运输经营许可证。物流企业必备包含许可范围、证件编号等用于车辆管理平台对接。某市场监管局2021年引入证件识别产品应用于”一网通办”系统企业办事窗口的信息录入效率提升数倍群众等待时间大幅缩短。企业证照是企业身份的载体。OCR让这些载体上的信息不再需要人工”搬运”而是直接、准确、快速地流入业务系统。