大模型幻觉:现象、机理、诊断与缓解策略的系统性综述
摘要大规模语言模型(LLM)的“幻觉”(Hallucination)指模型生成的内容与事实、输入指令或上下文逻辑不一致的现象。它不同于单纯的错误或噪声,是模型在缺乏真实知识时以高度自信编造出看似合理但实则虚假输出的内在倾向。本文从定义、类型学、产生机制、诊断方法、与其他相似现象的辨析、以及缓解策略等多个维度展开系统分析,辅以表格、流程图总结,力求为研究人员和工程师提供一个完整的认知与应对框架。一、幻觉的基础与内容1. 定义“幻觉”在LLM领域首次被广泛关注来自Maynez et al.(2020)在摘要任务中的观察。目前普遍接受的定义是:模型生成的内容与提供的源材料(source)不一致,或与公认的世界知识(factuality)相悖。当模型被问及它不知道的事实,它常常不会表达不确定性,而是生成一个虚构的但语言流畅的回答。2. 分类维度类别描述按来源内在幻觉 (Intrinsic)生成的输出与输入的上下文或源文档直接矛盾。例如,总结时编造文档中不存在的数据。外在幻觉 (Extrinsic)