[论文学习]基于密码学的隐私保护大型语言模型生命週期:框架、方法与未来方向
Cryptography-based Privacy-Preserving Large Language Models: A Lifecycle Survey (J. Luo et al., Artificial Intelligence Review, 2025)核心问题与动机大型语言模型LLM如 GPT-4o、Llama 系列已成为现代社会关键基础设施广泛应用于医疗对话、程式生成、即时翻译等领域。然而其快速部署带来了横跨整个生命週期资料选择、微调、推理的系统性隐私风险严重挑战 GDPR、CCPA 等法规并限制在医疗、金融等高度敏感产业的採用。主要隐私风险包括资料选择阶段资料拥有者希望仅揭露欲出售资料保护其他候选资料隐私。微调阶段敏感标註资料易被模型记忆导致提取攻击同时暴露模型权重或微调资料。推理阶段使用者提示可能含个人识别资讯、专有程式码等直接暴露给云端服务提供者。传统隐私技术如差分隐私DP、联邦学习FL、可信执行环境TEE虽有帮助但密码学方法如全同态加密 FHE、安全多方计算 MPC提供可证明安全保证能在不信任环境中同时保护资料与模型参数。这是该调查的核心动机填补现有文献碎片化缺口提供首个针对密码学基于的隐私保护 LLMCPLMs的生命週期全面综述。论文透过系统文献搜寻2020–2025 年涵盖多资料库分析 41 篇相关论文显示研究呈快速成长趋势2022 年仅 2 篇到 2025 年中已达 16 篇但缺乏整合框架。结果成果论文系统分类 CPLMs 研究聚焦三个生命週期阶段隐私保护资料选择PDS目前研究较少主要一篇Ouyang et al., 2025强调保护资料拥有者与模型开发者参数。隐私保护微调PFT包含 FHE 与 MPC 方案。代表性工作如 BlindTunerPanzade et al.、PrivTuner使用 LoRA、SecFwT使用 Forward-Tuning FoT 与 Random Feature Attention RFA等。这些方法透过参数高效微调LoRA、注意力机制替换Gaussian Kernel Attention GKA及混合秘密分享显着降低计算/通讯开销。隐私保护推理PI研究最丰富。FHE 方案THE-X、NEXUS、THOR、PowerformerMPC 方案MPCFormer、SecFormer、SIGMA、SHARK混合方案Iron、BOLT、CENTAUR 等关键优化策略分类论文核心贡献密码学协议优化CPO改进线性层如 CKKS 打包、旋转压缩、非线性协议如 OPPE。模型设计优化MDO将非线性操作Softmax、GeLU、LayerNorm近似替换为多项式或线性友好形式使用 LoRA、FoT 等高效微调知识蒸馏KD维持性能。额外优化随机置换、联邦学习、稀疏选择、量化等。论文还整理开放源码库方便实作与基准测试。实验显示这些方法在 LAN/WAN 环境下大幅提升效率例如某些 MPC PI 达数十倍加速同时在半诚实威胁模型下维持可证明安全与接近明文性能。分析与洞见优势与权衡安全性FHE 适合单方非互动、MPC 适合多方协作提供强于 DP/FL 的理论保证。效率瓶颈非线性操作尤其是 Transformer 的 Softmax/GeLU在加密下通讯/计算开销极大。CPO 提供有限提升MDO 能大幅加速但可能略降性能可透过 KD 缓解。实用性混合方案如 FHE 线性 MPC 非线性在效率与安全间取得较好平衡针对大型模型与长上下文仍需持续优化。边缘案例恶意模型下安全更严格但开销更高ViT 等视觉 Transformer 也有延伸应用长序列输入需 token pruning 等技术。多角度洞见技术视角CPLMs 将密码学从通用 ML 推向 LLM 特定架构强调 Transformer 线性/非线性操作特性。应用视角适用于医疗、金融等需严格隐私的场景促进跨机构协作。社会/政策视角帮助符合法规降低採用障碍但部署仍面临计算资源、延迟等挑战。局限PDS 研究稀缺大多聚焦半诚实模型大型商用 LLM如 GPT-4 规模实测仍有限额外优化可能牺牲部分可证明安全。论文透过表格详细比较各方案的改进元件、模型、资料集、工具提供了清晰的对比框架便于研究者选择适合路径纯 CPO 保性能、MDO 求效率、混合求平衡。结论这篇调查是 CPLMs 领域的里程碑式工作首次系统梳理生命週期各阶段的框架、方法与挑战提出分类与实施指南并指出未来方向提升 PDS 有效性、平衡 PFT 准确性与性能、推进 PI 实用部署如支援更大模型、更低延迟、恶意模型安全。未来展望包括更高效的非线性协议、模型-密码学共同设计、与其他 PETs如 TEE整合以及实际产业应用验证。整体而言CPLMs 代表隐私保护 AI 的重要演进方向有望让 LLM 在不牺牲安全的前提下实现大规模落地平衡创新与隐私权益。文章连结https://link.springer.com/article/10.1007/s10462-025-11466-6 开放获取全文 PDF