Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classifi...
一、文章主要内容总结该研究聚焦需求工程(RE)中的需求分类任务,核心探讨小型语言模型(SLMs)与大型语言模型(LLMs)的性能差异。研究选取8个模型(5个7-8B参数的SLMs:Qwen2-7B、Falcon-7B等;3个1-2万亿参数的LLMs:GPT-5、Claude-4等),在PROMISE、PROMISE Reclass、SecReq三个公开数据集上开展二进制分类实验,采用思维链(CoT)+少样本提示策略,以精确率(P)、召回率(R)、F1分数为核心指标,并通过Scheirer-Ray-Hare等统计检验验证结果。关键发现包括:性能差异:LLMs的平均F1分数仅比SLMs高2%,且该差异无统计学意义;SLMs在部分场景表现更优(如PROMISE Reclass数据集上的召回率显著高于LLMs)。影响因素:数据集特性对模型性能的影响远大于模型规模(数据集的效应量为0.63,模型类型仅为0.04),不同数据集上模型性能呈现明显层级(SecReq表现最佳,PROMISE Reclass最差)。实用价值:SLMs具备本地部署、隐私安全、低计算成本等优势,在需求分类任务中可作为LLMs的有效替代方案。二、文章创新点首次系统性对比SLMs与LLMs在需求分类任务中的性能,填补了两类模型在RE领域性能差异的研究空白。揭示了“模型规模对需求分类准确性影响有限,数据集特性更为关键”的核心结论,挑战了“模型越大性能越好”的普遍认知。提供了可复现的实验框架(含数据集、提示策略、评估流程),并公开复