做了几天AI阅卷调研,我发现真正限制AI的不是模型,而是数据
这几天一直在看AI阅卷相关的产品和方案。最开始的时候我一直觉得决定一个产品好不好用的核心应该是模型。模型越大。效果越好。后来真正看了一些产品也踩了一些坑之后我发现自己的关注点可能错了。对于教育场景来说模型当然重要。但真正决定产品能不能落地的很多时候反而是数据。一开始我把注意力都放在了模型上前段时间大家讨论最多的是GPT。Claude。Gemini。DeepSeek。几乎每隔几天就会有新的模型刷新排行榜。所以我最开始也很自然地认为AI阅卷的能力主要取决于模型能力。直到真正开始测试一些教育场景之后我发现事情没有这么简单。一个很简单的问题模型再强也得先“看懂”试卷举个例子。给模型一份已经整理好的文本它分析题目、判断答案、生成反馈其实已经不是特别困难。但现实中的试卷并不是一份规整的文本。它可能是手机拍照扫描件手写内容有折痕、有阴影数学公式密集化学方程式复杂模型首先要面对的问题不是推理而是输入。如果第一步的数据质量不过关后面的分析能力再强也很难发挥出来。真正让我改观的是一次公式识别测试我拿了几份高中数学试卷做测试。一开始只是想看看OCR效果。结果发现很多错误并不是因为模型不会而是因为输入已经错了。比如x²如果被识别成x2模型接下来所有的推理都会建立在错误的数据上。还有一些分数、根号、积分符号看起来只是一个小小的位置变化但对于数学表达式来说含义已经完全不同。那一刻我突然意识到模型没有错。它只是拿到了一份错误的数据。数据质量决定了AI能力的上限后来继续查资料的时候我看到一句话印象很深Garbage In, Garbage Out.输入什么输出就是什么。这句话在教育场景体现得尤其明显。如果OCR识别结果有偏差那么自动评分会受到影响。知识点分析会受到影响。学习报告也会受到影响。所以很多时候并不是AI不会做而是AI拿到的信息已经不准确了。为什么越来越多产品开始强调“公式识别”以前我总觉得这是营销宣传。后来真正做了几次测试之后发现它确实是一个关键指标。因为普通文字识别和数学公式识别完全不是一个难度。尤其是在高中、大学以及理工科考试中公式几乎贯穿整张试卷。这也是为什么越来越多教育AI产品开始单独强调公式识别能力而不是只宣传OCR准确率。调研过程中一个产品让我印象比较深查资料的时候我顺便体验了一些教育AI产品。其中有一个叫闪阅的平台。官网是https://shanyue.jotoai.com/它给我的第一印象不是AI阅卷而是一直在强调公式识别和教育场景优化。后来想想这个定位其实挺合理。因为真正困扰教育行业的并不是普通文字而是各种复杂公式和结构化内容。如果第一步的数据质量足够高后面的自动评分、数据分析才能真正发挥价值。背后的技术路线也挺有意思继续往下看资料时我发现闪阅背后的研发团队是聚托科技JOTO。如果平时关注AI Agent或者Dify可能会听过这个名字。聚托科技本身长期做企业级AI应用也是Dify企业版服务商和Dify钻石合作伙伴。官网给大家放在这里www.jotoai.com从技术路线来看他们把教育产品放在大模型工作流体系里而不是单独做一个OCR工具这一点让我印象比较深。因为现在越来越多产品已经开始从单点能力转向完整流程。我后来重新理解了AI阅卷以前我觉得AI阅卷 OCR 大模型。现在我更倾向于认为AI阅卷 数据质量 场景理解 工作流。模型只是其中的一部分。真正决定体验的是整个链路。从试卷采集到内容识别再到自动评分和结果分析每一步都会影响最终效果。写在最后做了几天调研之后我最大的收获反而不是发现了哪个模型更强。而是开始重新理解AI落地这件事。很多时候我们喜欢讨论模型参数、排行榜和推理能力。但真正进入业务场景后会发现那些看起来不那么“酷”的问题——比如数据质量、公式识别、流程设计——反而决定了产品是否真正好用。AI阅卷只是一个例子。我猜很多行业都会经历类似的过程真正限制AI发挥的不一定是模型本身而是模型拿到的数据以及整个业务流程是否足够完善。