Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classifi...

发布时间：2026/7/4 4:37:51

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classifi...

一、文章主要内容总结该研究聚焦需求工程（RE）中的需求分类任务，核心探讨小型语言模型（SLMs）与大型语言模型（LLMs）的性能差异。研究选取8个模型（5个7-8B参数的SLMs：Qwen2-7B、Falcon-7B等；3个1-2万亿参数的LLMs：GPT-5、Claude-4等），在PROMISE、PROMISE Reclass、SecReq三个公开数据集上开展二进制分类实验，采用思维链（CoT）+少样本提示策略，以精确率（P）、召回率（R）、F1分数为核心指标，并通过Scheirer-Ray-Hare等统计检验验证结果。关键发现包括：性能差异：LLMs的平均F1分数仅比SLMs高2%，且该差异无统计学意义；SLMs在部分场景表现更优（如PROMISE Reclass数据集上的召回率显著高于LLMs）。影响因素：数据集特性对模型性能的影响远大于模型规模（数据集的效应量为0.63，模型类型仅为0.04），不同数据集上模型性能呈现明显层级（SecReq表现最佳，PROMISE Reclass最差）。实用价值：SLMs具备本地部署、隐私安全、低计算成本等优势，在需求分类任务中可作为LLMs的有效替代方案。二、文章创新点首次系统性对比SLMs与LLMs在需求分类任务中的性能，填补了两类模型在RE领域性能差异的研究空白。揭示了“模型规模对需求分类准确性影响有限，数据集特性更为关键”的核心结论，挑战了“模型越大性能越好”的普遍认知。提供了可复现的实验框架（含数据集、提示策略、评估流程），并公开复

企业级Agentic AI实战指南：从核心原理到技术落地

企业级Agentic AI实战指南：从核心原理到技术落地

2026/7/4 4:37:48 ID: 183019

C 程序基本结构

C 程序基本结构

2026/7/4 4:37:48 ID: 183018

sbom-generator深度解析：全面掌握容器镜像与文件系统SBOM生成技术

sbom-generator深度解析：全面掌握容器镜像与文件系统SBOM生成技术

2026/7/4 4:37:38 ID: 183017

E-Hentai Downloader终极指南：5分钟掌握免费图库批量下载技巧

E-Hentai Downloader终极指南：5分钟掌握免费图库批量下载技巧

2026/7/4 5:21:37 ID: 183713

电机控制中的死区补偿技术：原理、实现与优化

电机控制中的死区补偿技术：原理、实现与优化

2026/7/4 5:21:34 ID: 183712

终极高效E-Hentai图库批量下载完整解决方案：一键下载完整图库的终极指南

终极高效E-Hentai图库批量下载完整解决方案：一键下载完整图库的终极指南

2026/7/4 5:21:31 ID: 183711

E-Hentai漫画下载终极指南：3步实现批量高效收藏

E-Hentai漫画下载终极指南：3步实现批量高效收藏

2026/7/4 5:21:28 ID: 183710

Cursor下载安装使用教程（最新详细图文）

Cursor下载安装使用教程（最新详细图文）

2026/7/4 5:21:25 ID: 183709

终极E-Hentai漫画批量下载指南：一键打包收藏的智能解决方案

终极E-Hentai漫画批量下载指南：一键打包收藏的智能解决方案

2026/7/4 5:21:25 ID: 183708

SSRF漏洞攻防实战：从原理到绕过技巧与防御策略

SSRF漏洞攻防实战：从原理到绕过技巧与防御策略

2026/7/4 0:00:00 ID: 179081

Playwright自动化测试实战：从零搭建现代Web测试框架

Playwright自动化测试实战：从零搭建现代Web测试框架

2026/7/4 0:00:11 ID: 179082

Zip炸弹漏洞剖析：从GuardDog安全工具瘫痪看文件解压的资源耗尽攻击与防御

Zip炸弹漏洞剖析：从GuardDog安全工具瘫痪看文件解压的资源耗尽攻击与防御

2026/7/4 0:00:19 ID: 179083

管理者的六个层次

管理者的六个层次

2026/7/2 14:29:02 ID: 94387

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/3 1:49:15 ID: 94388

CrabCode v1.0.7与v1.0.8 更新速览！

CrabCode v1.0.7与v1.0.8 更新速览！

2026/7/4 2:49:55 ID: 94389

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案

2026/7/2 5:59:53 ID: 132550

基于Dify与DeepSeek构建私有知识库问答系统实战指南

基于Dify与DeepSeek构建私有知识库问答系统实战指南

2026/7/4 0:54:12 ID: 132551

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

2026/7/4 3:31:24 ID: 132552