多模态评测:图文模型要分别测感知和推理
多模态评测图文模型要分别测感知和推理一、图文回答错了不一定是推理错多模态模型回答问题时错误可能来自两个层面感知错了或者推理错了。比如图里有 3 个红色方块模型说有 4 个这是视觉感知问题模型看对了元素但推不出关系这是推理问题。如果评测只看最终答案就不知道应该优化 OCR、视觉编码、Prompt 还是推理链。因此多模态评测要拆开看模型是否看见了正确对象是否读对了文字是否理解空间关系是否能基于图像做推理。图文模型不是把图片交给语言模型那么简单评测也不能只用一组综合分。二、评测链路感知、对齐、推理分层flowchart TD A[图像输入] -- B[对象识别] A -- C[文字 OCR] B -- D[图文对齐] C -- D D -- E[推理回答] E -- F[指标评估]对象识别可以测试颜色、数量、类别和位置。OCR 可以测试文本内容、表格和手写字体。图文对齐可以测试“左边的按钮是什么颜色”。推理问题则包括比较、因果、步骤判断和安全决策。不同任务要分别统计。评测集要有难度分层。简单图片、遮挡图片、低清晰度图片、含文字截图、复杂 UI 截图模型表现差异很大。只用干净样本评测线上遇到截图和拍照时会翻车。三、样本结构标注要说明能力点下面是一条评测样本示例。{ image_id: ui_1024, question: 截图中右上角的按钮文案是什么, answer: 导出, skill: ocr_and_spatial_grounding, difficulty: medium }skill字段能帮助分析结果。若 OCR 类问题整体差可能需要更清晰的图像预处理或更适合截图的模型若空间定位类问题差Prompt 中可以要求先描述区域再回答。没有能力点标注分数下降时很难定位。还要记录模型拒答。图片模糊或信息不足时模型应该承认无法判断。多模态模型很容易自信编答案评测集中必须包含不可判定样本。四、工程注意输入预处理也会影响结果图像尺寸、压缩质量、裁剪方式和旋转方向都会影响模型表现。评测时要固定预处理流程并记录版本。否则换一个图片压缩参数结果可能就变了。多模态评测里的“数据管线”很重要。对于 UI 截图类任务可以加入元素检测或 OCR 预处理把结构化信息和图片一起提供。纯视觉模型未必是最优方案。工程落地追求可靠不追求单模型信仰。最后人工复核不可少。模型辅助评测可以提速但多模态答案的细微错误很多尤其是空间关系和文字识别。抽样人工复核能发现评测器本身的问题。多模态评测还要记录输入尺寸和裁剪策略。一个 UI 截图被压缩到低分辨率后按钮文字可能已经不可读模型答错不是能力差而是输入被处理坏了。评测报告里写清图像预处理才能让结果可复现。对于安全场景例如识别危险物品、审核证件或判断医疗图像不能只依赖通用图文模型。需要领域数据、专家标注和更严格阈值。多模态越接近现实世界越要尊重误判成本。评测报告中建议展示错误案例而不是只展示分数。挑出感知错误、OCR 错误、空间关系错误和推理错误各几例团队会更容易理解模型短板。多模态问题往往一眼能看出错因别把所有洞察都压成表格。如果模型用于 UI 自动化还要测试动态状态。加载中、弹窗遮挡、滚动后内容变化都可能让图文理解失效。静态截图通过不代表真实交互可用。五、总结多模态评测要拆分感知、OCR、图文对齐和推理能力。样本要标注能力点和难度预处理要固定拒答样本要覆盖。最终答案错了只是表象分层评测才能知道模型到底错在哪里。