摘要这篇文章精读论文PatentGPT: A Large Language Model for Intellectual Property。这篇论文不是提出一个全新的 Transformer 架构而是提出了一套面向知识产权领域的领域大模型训练流程以 LLaMA2 / Mixtral 等开源模型为底座通过大规模 IP 领域继续预训练、SFT 指令微调、RLHF 对齐和 PatentBench 评测训练出 PatentGPT 系列模型。论文强调知识产权场景有三个核心难点专业知识强、隐私要求高、文本极长。因此通用大模型虽然能力强但直接用于专利问答、专利撰写、专利比对、FTO 分析等任务时仍然存在明显短板。PatentGPT 通过 240B token 的 IP 领域数据训练在 MOZIP、专利代理师资格考试等任务上取得了较强表现并展示了 SMoE 架构在长文本专利任务中的性价比优势。目录论文背景为什么知识产权领域需要专用大模型PatentGPT 的整体技术路线预训练数据240B token 的 IP 知识生态两阶段继续预训练与长上下文扩展SFT让模型学会专利领域指令RLHF让模型符合专利专家偏好评测体系PatentBench、MOZIP 与专利代理师考试File Wrapper最值得关注的专利对比监督信号对专利视觉 RAG 项目的启发总结一、论文背景为什么知识产权领域需要专用大模型近年来大语言模型已经在问答、摘要、代码、推理、文本生成等任务中表现出很强的能力。但是论文指出将通用大模型直接应用到知识产权领域并不容易主要有三个原因specialized knowledge、privacy protection、extremely long text也就是专业知识、隐私保护和超长文本处理。这三个问题在专利任务中非常典型。首先专利不是普通文本。专利里有权利要求书、说明书、实施例、附图说明、审查意见、对比文件、法律状态等内容很多表达具有法律和技术双重含义。模型不能只会“流畅生成”还必须理解“技术特征”“保护范围”“新颖性”“创造性”“等同替换”等概念。其次专利任务常常涉及企业尚未公开的技术方案隐私要求很高。如果所有任务都依赖闭源商业模型可能存在数据泄露风险。因此企业或机构往往更希望有一个可以私有化部署的领域模型。最后专利文本特别长。一个专利文档可能几十页如果是 FTO、侵权分析或专利无效场景还需要同时比较多个专利、多个权利要求和多个对比文件。普通短上下文模型很难完整处理这种任务。所以 PatentGPT 的核心动机可以概括为一句话通用大模型已经很强但知识产权任务需要更专业、更私有、更擅长长文本的领域大模型。二、PatentGPT 的整体技术路线PatentGPT 不是从零训练一个新模型而是基于已有开源大模型继续训练。论文使用了三个底座模型模型名称底座模型参数规模特点PatentGPT-0.5LLaMA213B小规模 dense 版本PatentGPT-1.0-DenseLLaMA270B大规模 dense 版本PatentGPT-1.0-MoEMixtral 8×7B47BSMoE 版本长文本性价比更好整体流程如下通用开源底座模型 ↓ IP 领域 tokenizer 扩展 ↓ 240B token IP 领域继续预训练 ↓ 两阶段训练领域知识注入 任务能力强化 ↓ SFT 指令微调 ↓ Reward Model 偏好学习 ↓ PPO / RLHF 对齐 ↓ PatentGPT如果和我们之前读过的论文串起来可以这样理解GPT-3 证明 decoder-only 语言模型通过大规模预训练可以获得强泛化能力。 InstructGPT 证明 SFT RM PPO 可以让模型更符合人类指令。 LLaMA 提供高质量开源底座模型让研究者可以做领域继续训练。 PatentGPT 把 LLaMA / Mixtral 这类底座迁移到知识产权领域 通过领域数据、领域任务和领域偏好训练出专利专家模型。所以这篇论文真正的价值不是“发明新结构”而是给出了一个比较完整的领域大模型训练 pipeline。三、预训练数据240B token 的 IP 知识生态论文最重要的一点是PatentGPT 不是简单地把一堆专利文本丢进去训练而是构造了一个多来源的 IP-oriented 数据体系。论文报告使用了超过 240B tokens 的知识产权相关数据进行训练。建议在博客这里插入论文 Figure 1图 1PatentGPT 预训练数据分布。Patent 占比最高其次是 Paper、Web、File Wrapper、News、Book、Wiki、Litigation 等。这些数据大致可以理解为Patent 专利正文包括摘要、权利要求书、说明书等。 Paper 技术论文用来补充工程技术和学术背景知识。 File Wrapper 专利审查过程中的文件包括审查意见、申请人答复、对比文件等。 Litigation 知识产权诉讼记录用于增强法律争议和侵权判断相关能力。 Exam 知识产权考试题用于增强规则、法规和选择题判断能力。 Book / Wiki / Web / News 补充通用知识、技术背景、行业信息和语言表达能力。这里最值得注意的是File Wrapper。它不是普通文本而是专利局在审查过程中形成的文件。里面常常会出现这样的内容审查员认为当前申请的权利要求 1 中的某些技术特征 已经被某个对比文件公开。这就天然提供了“专利 A 的某个技术特征”和“专利 B 的某段描述”之间的对应关系。这类数据对于专利模型非常宝贵因为专利任务真正难的地方不是“知道某个术语是什么意思”而是两个专利中不同表达方式下的技术特征到底是不是相同或相近普通语料很难显式提供这种监督信号而 File Wrapper 正好提供了审查员视角下的技术特征对齐。四、两阶段继续预训练与长上下文扩展PatentGPT 的继续预训练分为两个阶段Stage 1大规模领域知识注入 Stage 2任务相关能力强化 长上下文扩展Stage 1 主要使用 Patent、Paper、Web、News 等大规模数据让模型吸收大量专利、技术和知识产权相关知识。Stage 2 虽然 token 总量更少但提高了 File Wrapper、Exam、Chat、Supervised Data、Research Report 等数据比例用来强化模型的任务能力、问答能力、推理能力和专利对比能力。可以这样理解Stage 1 让模型“知道更多 IP 和技术知识”。 Stage 2 让模型“更会做 IP 任务”。这和单纯 SFT 不一样。SFT 是让模型学会按照指令回答而继续预训练是在更底层改变模型的领域知识分布。另外论文还对长上下文能力进行了扩展。例如 PatentGPT-0.5 和 PatentGPT-1.0-MoE 在后续阶段扩展到更长 context以适应专利长文档任务。论文也强调使用 SMoE 架构的 PatentGPT 在长文本任务中具有更好的成本性能比。这里可以联系专利任务的特点一篇专利可能几十页 一个 FTO 任务可能要比较多个专利 一个无效分析可能要读权利要求、说明书、对比文件和审查意见 一个侵权分析可能要逐项比对技术特征。所以长上下文不是锦上添花而是专利领域模型必须面对的问题。五、SFT让模型学会专利领域指令预训练后的模型虽然具备更强的专利知识但它还不一定会很好地听从用户指令。因此PatentGPT 继续进行了 SFT也就是 Supervised Finetuning监督微调。SFT 数据包括两部分数据类型作用通用指令数据保留普通问答、摘要、推理和对话能力IP 专业指令数据增强专利问答、专利撰写、技术总结、专利对比和 RAG 相关能力SFT 的目标不是让模型简单续写专利文本而是让模型学会回答类似下面的问题请总结这份专利的技术问题、技术手段和技术效果。 请根据权利要求 1 判断该专利的核心保护范围。 请比较当前专利和对比文件中相似的技术特征。 请根据检索到的专利内容回答用户问题。论文中的 SFT loss 可以写成LSFT(θ)Ex D_SFT[−α∑i∈outputlogp(xi∣x0,x1,...,xi−1;θ)] L_{SFT}(θ) E_{x~D\_SFT} [ - α ∑_{i∈output} log p(x_i | x_0, x_1, ..., x_{i-1}; θ) ]LSFT​(θ)ExD_SFT​[−αi∈output∑​logp(xi​∣x0​,x1​,...,xi−1​;θ)]其中x一条完整的 instruction-output 样本 i∈output只对模型回答部分计算 loss α样本权重。这里有两个关键点。第一只对 output 部分计算 loss。因为模型训练的目标不是复述用户问题而是在看到用户问题后生成正确答案。例如训练样本是用户请总结这份专利的技术效果。 助手该专利的技术效果是提高检测精度并降低系统复杂度。训练时不会重点要求模型预测“用户问题”而是要求它预测“助手回答”。第二IP 专业数据的权重要高于通用数据。这样做是为了告诉模型通用能力需要保留但专利/IP 领域能力更重要。这对我们做专利视觉 RAG 也有启发。未来如果做多模态 SFT也可以设置不同权重普通图文问答样本权重较低 专利页面理解样本权重较高 专利区域定位样本权重更高 专利对比 / 审查意见样本权重最高。六、RLHF让模型符合专利专家偏好SFT 解决的是“模型能不能按照指令回答”但还没有完全解决“哪个回答更好”的问题。在专利场景中一个好回答不仅要流畅还要满足法律术语准确 技术特征不能遗漏 不能凭空编造 对比逻辑清楚 结论要有证据 不能把“相似”误判成“相同”。因此PatentGPT 继续使用 RLHF也就是 Reinforcement Learning from Human Feedback。整体流程如下同一个 prompt ↓ 多个模型生成多个 response ↓ 专利专家或 GPT-4 对回答排序 ↓ 构造 chosen / rejected 偏好对 ↓ 训练 Reward Model ↓ 用 PPO 优化 PatentGPTReward Model 的输入是prompt response输出是一个标量分数 r(x, y)分数越高说明奖励模型认为这个回答越符合专家偏好。Reward Model 的排序损失可以写成L_ranking−logσ(rθ(x,yc)−rθ(x,yr)) L\_ranking - log σ( r_θ(x, y_c) - r_θ(x, y_r) )L_ranking−logσ(rθ​(x,yc​)−rθ​(x,yr​))其中xprompt y_cchosen response也就是更好的回答 y_rrejected response也就是更差的回答 r_θ(x, y_c)奖励模型给好回答的分数 r_θ(x, y_r)奖励模型给差回答的分数 σsigmoid 函数。这个公式的目标很直观让好回答的分数高于差回答。如果r_good 8 r_bad 2 r_good - r_bad 6 σ(6) ≈ 0.997 -log(0.997) 很小说明奖励模型判断正确loss 很小。如果模型反过来给差回答更高分r_good 2 r_bad 8 r_good - r_bad -6 σ(-6) ≈ 0.002 -log(0.002) 很大loss 就会变大模型会被强烈惩罚。训练好 Reward Model 后下一步就是 PPO。PPO 的目标可以粗略理解为最大化奖励分数同时不要让模型偏离原来的 SFT 模型太远。也就是优化目标 ≈ Reward Model 分数 - KL 惩罚KL penalty 的作用是防止模型为了骗取高分而产生 reward hacking。例如模型可能生成非常模板化、非常保守但没有信息量的回答。KL 约束可以让新模型不要偏离原 SFT 模型太远从而保证训练稳定。这一部分本质上就是 InstructGPT 思路在知识产权领域的迁移InstructGPT 通用人类偏好对齐。 PatentGPT 专利专家偏好对齐。七、评测体系PatentBench、MOZIP 与专利代理师考试论文不只是训练模型还建立了面向知识产权领域的评测体系 PatentBench。已有的通用 benchmark例如 MMLU、TruthfulQA 等无法充分衡量专利撰写、专利分类、专利总结、专利对比等真实 IP 场景。因此PatentGPT 设计了更贴近业务的领域评测任务。PatentBench 大致包括任务测试能力Patent_QAIP 概念、法律法规、制度知识问答Patent_Writing专利撰写、说明书改写、权利要求补充Patent_Classification根据摘要和权利要求预测 IPC 分类Patent_Summary总结技术问题、技术手段、技术效果Patent_Reasoning侵权判断、逻辑推理、技术关系分析Patent_Correction专利文本纠错Patent_Translation中英专利文本翻译论文还在 MOZIP benchmark 和中国专利代理师资格考试上测试 PatentGPT。论文摘要中提到PatentGPT 在开源 IP benchmark MOZIP 上超过 GPT-4并且在 2019 年中国专利代理师资格考试中取得 65 分达到接近人类专家的水平。这里需要注意我们不能简单理解为“PatentGPT 全面超过 GPT-4”。更准确的说法是PatentGPT 在知识产权领域任务上具有明显优势但这不代表它在所有通用任务上都超过 GPT-4。这也是领域模型的典型特点它牺牲了一部分通用性或至少不追求全面通用最强而是在特定领域任务上强化能力。另外论文还比较了 dense 模型和 SMoE 模型的推理成本。结果显示SMoE 版本在长文本任务上有更好的成本性能比。这对专利任务非常重要。因为真实专利场景经常不是短问答而是读完整专利 比较多个权利要求 结合对比文件和审查意见 分析 FTO 或侵权风险 做跨文档长上下文推理。所以模型不能只看分数还必须看推理成本、显存消耗和长上下文能力。八、File Wrapper最值得关注的专利对比监督信号我认为 Appendix 里关于 File Wrapper 的合成数据是这篇论文最值得结合项目深入思考的部分。File Wrapper 记录的是专利审查过程。审查员会指出当前申请中的某些技术特征是否已经被对比文件公开。这就形成了非常有价值的监督信号待审查专利 claim ↔ 对比专利 description / claim ↔ 审查员给出的技术特征对应关系这比普通专利文本更有价值。普通专利文本只能让模型学到什么是光电接收器 什么是跨阻放大器 什么是固定支架但 File Wrapper 可以让模型学到两个不同专利中不同表达方式下的技术特征如何对应。例如某个审查意见可能指出待审查专利中的“光电转换元件” 对应对比文件中的“探测芯片” 待审查专利中的“固定支架” 对应对比文件中的“热沉” 待审查专利中的“壳体” 对应对比文件中的“芯片底座 封帽”。这对于专利检索、无效分析、侵权比对非常重要。因为专利任务真正难的地方不是字面匹配而是不同表达方式下技术特征是否实质对应Appendix 进一步展示了如何把 File Wrapper 解析成 X-file text pairs也就是跨专利文本对。它可以细化到段落级、句子级甚至可以变成 instruction data让模型学会主动抽取两个专利中最接近的技术表达。这说明 PatentGPT 的数据构造不是简单地“收集更多数据”而是把专利审查过程中已经存在的专家判断转化成训练信号。这点非常值得借鉴。九、对专利视觉 RAG 项目的启发虽然 PatentGPT 是文本领域模型不是多模态模型但它对专利视觉 RAG 项目有很强启发。我们当前做的是专利 PDF 页面图像 ↓ 生成 query ↓ 训练图文检索 / 视觉 RAG 模型但如果只是让 VLM 对页面随机生成 query数据质量可能不够强。因为这些 query 可能只描述页面表面内容而不一定抓住真正的专利技术特征。PatentGPT 的 File Wrapper 思路可以迁移成一个更强的数据构造方法File Wrapper 审查意见 ↓ 抽取技术特征对应关系 ↓ 定位到待审查专利 claim / description ↓ 定位到对比专利 description / figure ↓ 映射到 PDF 页面图像 / 区域 ↓ 构造视觉 RAG 训练样本也就是说我们可以从简单的{query:找到展示光电转换元件固定方式的页面,positive_image:page_0005.jpg}升级为{query:找到与“固定支架承载光电转换元件”对应的专利页面或区域,positive_image:CN207366793U/page_0003.jpg,evidence_text:热沉靠近芯片底座中心的一侧固定探测芯片,relation:固定支架 ≈ 热沉光电转换元件 ≈ 探测芯片,source:File Wrapper 审查意见}这样构造出的数据集就不只是普通图文匹配而是具有专利审查语义支撑的领域数据。可以进一步设计三类任务1. 页面级检索输入 “找到描述热沉固定探测芯片的专利页面。” 输出 对应专利 PDF 页面图像。评价指标可以使用Recall1、Recall5、MRR2. 区域级定位输入 “图中哪个区域展示了热沉与探测芯片的固定关系” 输出 页面中的图像区域或文字区域。评价指标可以使用region hit rate、IoU、人工判断3. 跨专利视觉匹配输入 待审查专利页面 对比专利页面 任务 判断二者是否存在相同或相近技术特征。评价指标可以使用pair accuracy、ranking accuracy、hard negative 区分能力其中最值得研究的是 hard negative。比如同 IPC 分类 同样是光电接收器 同样出现探测芯片、封装结构、支架 但没有“热沉固定探测芯片”这个关键关系。这种负样本比随机负样本难得多也更能训练模型理解细粒度技术差异。所以我认为这篇论文对我们项目最大的启发是专利视觉 RAG 不应该只做“页面图像与 query 的粗粒度匹配”而应该利用 File Wrapper、审查意见、对比文件和技术特征对应关系构造页面级、区域级、跨专利级的强监督数据。这可能形成一个很有价值的研究方向基于 File Wrapper 的专利视觉 RAG 监督信号构造方法。或者更学术一点File-Wrapper-Guided Multimodal Patent Retrieval利用专利审查意见构造跨专利页面与区域级视觉检索数据。十、总结PatentGPT 这篇论文的重点不是提出一个全新的模型结构而是给出了一个面向知识产权领域的完整训练流程。它的核心可以总结为领域大模型 通用底座模型 领域继续预训练 领域指令微调 领域偏好对齐 领域评测体系具体来说PatentGPT 解决的是 IP 领域大模型问题核心难点是专业知识、隐私保护和超长文本。它基于 LLaMA2 / Mixtral 等开源模型继续训练不是从零训练。它使用 240B token 的 IP-oriented 数据包括 Patent、Paper、File Wrapper、Litigation、Exam 等构造了完整的 IP 知识生态。它采用两阶段继续预训练先注入大规模领域知识再强化任务能力和长上下文能力。它通过 SFT 学会专利指令任务再通过 RLHF 学习专利专家偏好。它提出 PatentBench并在 MOZIP、专利代理师考试等任务上验证模型能力。它最值得借鉴的地方是 File Wrapper 数据构造因为审查意见天然包含跨专利技术特征对应关系。对我当前的专利视觉 RAG 项目来说这篇论文最大的价值不是直接提供一个视觉模型而是提醒我们真正的专利智能系统不能只依赖通用模型和普通图文对而要把专利领域独有的数据结构、任务形式和专家判断引入训练与评测。如果后续要做 OCR-free 专利页面检索、区域级专利理解、跨专利图像对比那么 File Wrapper 可能是一个非常值得深入挖掘的数据来源。最终PatentGPT 给我们的启发是做领域模型关键不是简单堆模型参数而是要让模型吃到真正有领域价值的数据并用符合真实业务的任务去训练和评测它。