GLM-5.2 对中文金融文本的理解能力突出-尧图建网站

对DeepSeek-V4在金融文本上的处理能力进行全方位评测使用 CFLUE 测试集对各模型能力进行评测CFLUE是一个开源的测评基准由阿里云与苏州大学联合构建其中金融应用评估数据集包括125道应用类样题目囊括文本分类、机器翻译、关系抽取、阅读理解与文本生成五类典型任务。具体细分项目如下得分方式的计算上知识评估以准确率ACC与F1得分为主应用评估中对于有正确答案的分类与抽取问题主要采用ACC与F1得分计算对于文本生成、阅读理解类题目主要采用Bert、Rouge等方法计算模型回答与标准答案之间的相似度。其中Bert模型从模型回答的语义相似度计算得分Rouge则从两者重复的文段比例角度计算。翻译类题目采用BLEU方法类似于计算词汇的重复比例。来源国金证券