GLM-5.2 对中文金融文本的理解能力突出
对DeepSeek-V4在金融文本上的处理能力进行全方位评测使用 CFLUE 测试集对各模型能力进行评测CFLUE是一个开源的测评基准由阿里云与苏州大 学联合构建其中金融应用评估数据集包括125道应用类样题目囊括文本分类、机器翻 译、关系抽取、阅读理解与文本生成五类典型任务。具体细分项目如下得分方式的计算上知识评估以准确率ACC与F1得分为主应用评估中对于有正确答案的分类与抽取问题主要采用ACC与F1得分计算对于文本生成、阅读理解类题目主要采用Bert、Rouge等方法计算模型回答与标准答案之间的相似度。其中Bert模型从模型回答的语义相似度计算得分Rouge则从两者重复的文段比例角度计算。翻译类题目采用BLEU方法类似于计算词汇的重复比例。来源国金证券