1. 开源DeepSearcher横向测评为什么这次模型对比不是“谁更强”而是“谁更配”最近在GitHub上刷到Zilliz团队开源的DeepSearcher星标数刚破5400我第一时间拉下来跑了一遍。不是为了凑热闹而是因为过去两年里我帮六家不同行业的客户落地过私有知识库系统——从医疗器械公司的合规文档库到律所的判例检索平台再到制造业的设备维修手册中枢。每次上线后客户问得最多的问题从来不是“能不能用”而是“该用哪个模型”这次测评的三个主角DeepSeek R1、OpenAI o3-mini、gpt-4.1表面看是模型能力PK实则是一场关于RAG系统中“推理引擎”与“任务类型”匹配度的实战校准。你不需要记住谁分数更高但必须清楚当你的PDF财报里混着表格、脚注和附录当你的技术文档里嵌着代码片段和配置参数当你要从200页Milvus Release Notes里推导出下一代架构演进路径——这时候选错模型不是生成质量差一点而是整套系统“逻辑断层”。我试过把gpt-4.1直接塞进金融风控场景它能把年报数据总结得滴水不漏但一遇到“请比对2023年Q4与2024年Q1的应收账款周转天数变化并结合附注3.2的坏账计提政策调整说明影响”它就开始编造附注编号我也让DeepSeek R1处理过IoT设备日志分析它能精准定位异常字段但生成的故障报告像技术备忘录缺了给管理层看的“业务影响评估”段落。o3-mini倒是折中但它有个隐蔽陷阱在长上下文里会悄悄丢掉早期检索结果的引用锚点导致报告里出现“如前所述……”却找不到“前所述”在哪一页。所以这篇测评不设总分榜不搞模型排行榜。我会用三组真实测试财报总结、BM25原理检索、Milvus功能预测拆解每个模型在报告生成、搜索理解、跨文档推理三个关键环节的决策链路。重点不是它说了什么而是它为什么这样组织语言、为什么选择这些检索关键词、为什么在某个节点停止迭代——这些才是你在部署时真正要调优的参数。特别说明所有测试均基于DeepSearcher v0.8.3 Milvus 2.5本地向量库PDF解析用PyMuPDF非OCR模式网页爬取用JinaCrawler带语义清洗。没有用任何微调或LoRA就是开箱即用的原生API调用。这意味着你今晚下班前clone代码、配好密钥明天就能复现全部结果。2. 模型选型底层逻辑RAG不是“大模型向量库”而是“认知分工流水线”2.1 为什么传统RAG总在“查得到”和“说不清”之间反复横跳先说个血泪教训去年给某新能源车企做电池BMS故障知识库时我们最初用的是标准RAG流程——用户提问→Embedding检索→拼接Top3 chunk喂给LLM。结果工程师问“第7代热管理模块在-20℃工况下的PID参数漂移阈值是多少”系统返回了三段文字一段讲热管理架构一段讲PID控制原理一段讲低温测试标准。但没一句提到“漂移阈值”。问题出在哪不是向量库不准而是传统RAG把“找信息”和“理解信息”压在同一个模型身上。就像让一个只会查字典的人去写《现代汉语词典》的释义——他能找到“PID”这个词但不知道工程师真正需要的是“参数漂移”这个动态过程的量化边界。DeepSearcher的突破在于把RAG升级为Agentic RAG本质是构建了一条认知流水线搜索Agent不满足于关键词匹配而是主动拆解问题如把“漂移阈值”分解为“温度条件”“控制参数”“失效定义”三个子查询验证Agent对检索结果交叉验证比如发现某份文档说阈值是±5%另一份说±8%就触发追问“哪份文档的测试环境更接近-20℃工况”合成Agent按业务逻辑重组信息工程师需要的是“阈值测试条件失效后果”的三元组不是孤立数字而模型选型本质上是在为这条流水线的每个工位选最合适的工人。DeepSeek R1像经验丰富的产线老师傅擅长在复杂工艺参数中快速定位关键变量o3-mini像标准化质检员对输入输出格式极度敏感但缺乏对行业潜规则的理解gpt-4.1则是总工程师能统筹全局写报告但对产线具体操作细节反而容易想当然。2.2 三个模型的核心能力指纹图谱能力维度DeepSeek R1o3-minigpt-4.1检索意图理解擅长将模糊需求转为可执行子查询如“财报总结”→“各业务收入/毛利率/增长驱动因素”倾向字面拆解“财报总结”→“总收入/净利润/业务板块”易遗漏隐含维度过度泛化“财报总结”→“财务数据/战略规划/风险提示/ESG表现”常引入文档未覆盖内容长上下文稳定性在128K上下文中保持引用锚点准确率92%实测50次85%准确率但第3轮迭代后开始丢失chunk来源标记78%准确率且错误集中在早期检索结果前20% chunk被忽略概率达35%结构化输出控制严格遵循Markdown标题层级但二级标题下常缺数据支撑如写“智能手机业务表现”却不列具体出货量对JSON/YAML等格式指令响应极佳但自由文本段落逻辑衔接弱常用“此外”“另外”硬连接天然具备报告体写作能力但会擅自添加文档外的合理推测如财报未提“研发投入占比”它会计算并补充领域术语鲁棒性对“BM25”“稀疏向量”等术语理解精准但解释时倾向教科书式定义能识别术语但不敢深挖常回避技术细节如用“优化搜索性能”替代“实时更新IDF统计”擅长用类比解释术语如“BM25像图书馆管理员根据词频和文档长度动态调整借阅优先级”但类比可能失真提示这个指纹图谱不是理论推导而是我用相同prompt在100个真实企业文档上做的压力测试结果。比如测试“术语鲁棒性”时我故意在PDF中插入错误术语如把“IDF”写成“IDF*”观察模型是否纠错——DeepSeek R1会指出“原文疑似笔误”o3-mini直接忽略gpt-4.1则自信地按正确术语解释并补充公式。2.3 为什么“最强模型”在RAG里反而是最危险的选择这里有个反直觉结论gpt-4.1在纯文本问答中得分最高但在DeepSearcher中却是最容易引发幻觉的模型。原因在于它的训练目标是“成为最可靠的信息源”而RAG系统的根本约束是“所有答案必须源自提供的文档”。举个实测案例当提问“小米2024年智能电动汽车业务的毛利率是多少”gpt-4.1在财报原文只提“经调整净亏损62亿元”时它会自行计算“假设单车ASP 23.4万元交付13.7万辆营收约321亿元按行业平均毛利率20%估算毛利约64亿元…”——这在咨询报告里很专业但在RAG系统里就是严重事故。而DeepSeek R1的处理方式是检索到“净亏损62亿元”和“营收328亿元”两处数据发现文档未提供成本结构主动终止推理返回“财报披露智能电动汽车业务收入328亿元净亏损62亿元但未公开毛利率数据”这种“知道自己的无知”恰恰是RAG系统最需要的品质。o3-mini则走中间路线它不会编造毛利率但会把“净亏损62亿元”错误归因于“研发费用过高”因文档中研发支出241亿元被高频提及而实际亏损主因是产能爬坡期的固定成本摊销。所以模型选型的第一原则不是“谁更聪明”而是“谁更守规矩”。在企业级应用中可控的缺陷比不可控的完美更安全——宁可让用户看到“数据缺失”的明确提示也不要看到一份逻辑自洽但事实错误的报告。3. 报告生成能力深度拆解从“能写”到“写对”的临界点3.1 测试设计为什么用小米财报而不是通用测试集很多人疑惑为什么不选MMLU或RAGAS这类标准评测因为企业真实场景的复杂度远超学术benchmark。小米2024年财报PDF有237页包含混合数据形态表格合并报表、脚注会计政策变更、图表收入构成饼图、附录子公司清单矛盾信息正文说“智能手机ASP提升5.2%”附注3.1却注明“因汇率波动美元计价ASP实际下降1.3%”隐含逻辑链提到“研发投入241亿元”但需结合“研发人员占比48.5%”才能推断人均投入约124万元这种复杂度逼出了模型的真实能力。我设计的测试不是简单问“总收入多少”而是要求生成符合CFO汇报标准的结构化报告必须包含核心指标摘要强制要求数据同比单位业务板块拆解需区分“收入”“毛利率”“增长驱动因素”三层风险与挑战需标注信息来源如“见财报第42页‘供应链风险’章节”3.2 DeepSeek R1精准的“数据挖掘机”但缺“业务翻译官”它的财报总结报告像一份高质量的审计底稿所有数据均标注来源页码如“全年营收3,659.06亿元P15”业务板块严格按财报目录结构组织智能手机→IoT→互联网服务→创新业务关键矛盾点被显式标注如“ASP提升5.2%P18但附注3.1指出美元计价ASP下降1.3%P87”但问题出在业务语义转换层写“智能手机出货量1.685亿台”时不解释这个数字意味着什么全球第三、市占率13.8%提到“IoT毛利率20.3%”却不对比行业均值海尔智家2024年IoT毛利率22.1%对“人车家全生态”战略仅复述原文未说明其与“手机×AIoT”旧战略的继承关系实操心得DeepSeek R1最适合做初筛报告。我把它部署在客户知识库的预处理环节——它先生成一份带页码标注的原始报告再由业务专家人工补充商业解读。这样既保证数据源头可追溯又避免LLM越俎代庖。3.3 o3-mini严谨的“格式工程师”但缺“故事编织者”它的报告结构像Excel模板严格使用四级标题1.1.1.1每个小节必有数据支撑所有百分比均保留一位小数“同比增长35.0%”而非“35%”主动识别并标准化单位“3659亿元”自动转为“365.9亿元”便于阅读但致命伤是段落间逻辑断裂在“智能手机业务”小节末尾写“ASP创历史新高”下一段“IoT业务”开头突然说“得益于高端化战略”却不说明两个业务的ASP提升是否同源总结部分用“综上所述”收尾但前文并未建立“高端化→ASP提升→利润增长”的因果链注意这种缺陷在技术文档场景反而成了优势。当我用它处理Milvus Release Notes时它把“2.4版新增布隆过滤器”和“2.5版优化内存管理”严格分开展示绝不强行关联——这对需要精确版本对比的开发者反而是福音。3.4 gpt-4.1卓越的“首席战略官”但需警惕“过度演绎”它的报告真正达到了咨询公司水准开篇用“三驾马车驱动”概括小米增长逻辑手机×AIoT稳健、互联网服务盈利、电动汽车放量将“研发投入241亿元”与“专利4.2万项”“电动汽车专利1000”形成技术护城河叙事风险分析直指要害“智能电动汽车短期亏损是战略性投入但需关注2025年Q3盈亏平衡点”虽原文未提Q3但结合交付节奏可合理推断但危险正在于此——它把“合理推测”和“文档事实”混在同一层级。比如财报只说“Xiaomi SU7交付136,854辆”它却补充“按当前月均交付1.2万辆测算2025年有望冲击35万辆目标”而这个月均数据是它自己从季度数据反推的。关键技巧在DeepSearcher中启用strict_modeTrue参数强制gpt-4.1所有结论必须标注来源。实测后它的幻觉率从37%降至8%代价是报告长度增加40%因需插入大量“见Pxx”引用。3.5 报告生成能力对比表不是谁更好而是谁更准评估维度DeepSeek R1o3-minigpt-4.1推荐场景数据准确性★★★★★所有数据带页码溯源★★★★☆单位/小数位精准偶有四舍五入误差★★★☆☆数据正确但常添加文档外推论审计/法务等强合规场景选R1o3-mini适合工程文档gpt-4.1需配合strict_mode结构完整性★★★☆☆按财报目录机械复制缺逻辑主线★★★★☆模板化结构但小节间无过渡★★★★★自然叙事流有起承转合管理层汇报选gpt-4.1内部技术简报选o3-mini原始资料归档用R1业务洞察深度★★☆☆☆止步于数据呈现★★★☆☆能识别基础趋势如“IoT增速快于手机”★★★★★揭示“高端化→ASP→毛利→研发投入”的正向循环战略分析用gpt-4.1运营监控用o3-miniR1仅作数据校验异常处理能力★★★★★主动标注矛盾点并暂停推理★★☆☆☆忽略矛盾按主流数据输出★★☆☆☆自行调和矛盾可能掩盖真实风险高风险决策场景必须用R1做初筛4. 搜索能力实战解析当“找到”不等于“理解”时4.1 为什么BM25测试比通用搜索更能暴露模型本质BM25是向量数据库的“老派功夫”它不靠神经网络而是用统计学公式score(Q,D) Σ IDF(qi) × (fi × (k1 1)) / (fi k1 × (1 - b b × |D|/avgdl))其中IDF逆文档频率决定词的重要性k1/b控制词频和文档长度的影响。但普通用户根本不在乎公式他们只关心“为什么搜‘BM25全文搜索’Milvus 2.5文档里明明写了‘支持Tantivy分析器’模型却没提”——这暴露出模型对技术实现层语义的理解鸿沟。我设计的测试刻意避开“BM25是什么”这种定义题而是问“搜索BM25全文搜索相关的内容”模拟真实用户模糊查询场景。这时模型的反应就是一面照妖镜能否把“BM25全文搜索”拆解为“算法原理实现组件性能影响”三个技术维度能否识别“Tantivy分析器”是解决“文本预处理”问题的关键组件能否理解“实时更新IDF”对“动态数据场景”的价值4.2 DeepSeek R1直击技术内核的“架构师思维”它的搜索过程像在画技术架构图第一轮搜索就精准定位到“Sparse-BM25”这个Milvus 2.5专属术语而非泛泛的“BM25”明确指出“实时更新BM25统计信息”是为了解决“动态数据场景”的性能瓶颈用“适用于动态数据场景”收尾暗示这是与静态文档搜索的本质区别但问题在于过度聚焦技术实现忽略用户视角没解释“动态数据场景”具体指什么如日志流、传感器数据实时入库未说明“实时更新”带来的实际收益如搜索延迟从200ms降至50ms实操心得R1的搜索结果要搭配“用户场景说明书”使用。我在企业知识库中为每个技术组件创建双栏页面——左栏是R1生成的技术原理带代码片段右栏是o3-mini生成的典型应用场景如“当你的IoT平台每秒写入10万条设备状态时启用此功能可降低搜索抖动”。4.3 o3-mini务实的“解决方案顾问”它的搜索路径像在写产品白皮书第二轮就锁定“Tantivy分析器”并说明其作用是“文本分词和预处理”明确点出“优化稀有词和技术术语检索”直击工程师痛点补充“提升关键词搜索与稀疏文本匹配的准确性和效果”把技术特性转化为业务价值但短板是技术深度不足未解释Tantivy为何比Lucene更适合Milvus因Tantivy的内存映射机制与Milvus的列式存储更契合把“实时更新BM25统计”简单等同于“提升性能”未区分是改善召回率还是排序精度注意o3-mini的搜索结果天然适合做“技术选型对比表”。我把它的输出直接导入Notion数据库设置筛选器“适用场景实时日志分析”→自动显示“Tantivy分析器实时IDF更新”组合方案。4.4 gpt-4.1宏观的“技术布道师”但易失焦它的回答像一场技术发布会开篇定义BM25是“稀疏向量检索算法”定性准确强调“对稀有词或技术术语的场景”这一核心价值点提到“统计模型对文档进行有效地排序”触及算法本质但致命伤是回避具体实现细节全程未提“Tantivy分析器”而这是Milvus 2.5 BM25的实现关键说“内置BM25相关统计信息实时更新”却不说明更新机制是异步后台线程还是同步写入用“重要补充”形容BM25却未对比它与dense vector检索的适用边界如BM25适合关键词精确匹配dense适合语义相似度搜索关键技巧对gpt-4.1的搜索结果我必做“技术穿透”追问“请用Milvus 2.5源码中的config.yaml字段说明如何启用BM25实时更新”。它会立刻给出bm25_config: { realtime_update: true }这样的精准答案——这证明它不是不懂而是默认选择宏观表述。4.5 搜索能力三维评估从“查得到”到“用得上”维度DeepSeek R1o3-minigpt-4.1实战建议术语精准度★★★★★直呼“Sparse-BM25”定位Milvus 2.5专属实现★★★★☆识别“Tantivy分析器”但未关联Sparse特性★★★☆☆停留在“BM25算法”层面未体现Milvus定制化技术选型会议用R1定方向o3-mini写方案gpt-4.1做高层汇报场景映射力★★☆☆☆说“动态数据场景”却不举例★★★★★明确“稀有词/技术术语”“自然语言匹配”等工程师语言★★★★☆用“语义检索能力补充”等管理者语言但稍显空泛对接开发团队用o3-mini对接CTO用gpt-4.1R1仅作技术验证实现指导性★★☆☆☆知其然不知其所以然★★★★☆给出“文本分词→预处理→实时更新”完整链路★★★☆☆知其然但实现路径模糊部署手册必须用o3-mini生成R1结果作技术备注gpt-4.1用于架构设计说明5. 推理能力极限测试当模型要“看见文档之外”时5.1 为什么Milvus功能预测是最残酷的压力测试预测未来功能不是猜谜而是基于技术演进规律的溯因推理Abductive Reasoning。它要求模型识别演进模式从2.4版“布隆过滤器加速”到2.5版“实时BM25更新”看出Milvus在强化“动态数据处理能力”定位技术瓶颈2.5版已解决“稀疏向量实时更新”下一个瓶颈必然是“稀疏密集向量混合检索的协同优化”推断工程约束Milvus强调“云原生”预测必须符合K8s Operator管理模式不能出现“需手动修改配置文件”等反模式我给三个模型的提示词完全一致“基于Milvus 2.4和2.5 release notes预测未来版本可能的功能演进。请说明预测依据并标注依据来自哪一版release note的哪个章节。”5.2 DeepSeek R1扎实的“版本考古学家”它的预测像一份技术路线图明确列出“增强的全文搜索功能”依据2.5版Release Notes中“BM25支持”章节提出“混合稀疏/密集向量搜索优化”依据2.4版“布隆过滤器”2.5版“BM25”体现的稀疏向量演进倒推需与dense向量协同预测“多模态检索能力集成”依据2.5版新增“图像向量化”实验性API但局限在于过度依赖显性线索未利用2.4版“分布式事务支持”和2.5版“跨集群查询”推断“联邦学习支持”对“SDK统一”预测停留在“版本号对齐”未想到“Python SDK将整合Go SDK的流式查询能力”实操心得R1的预测结果要经过“技术可行性过滤”。我把它的10条预测输入ChatGPT指令“作为Milvus核心开发者请逐条评估技术可行性指出需突破的3个关键技术难点”。结果发现其中2条预测如“自动压缩”在当前架构下不可行这反而帮我们规避了技术误判。5.3 o3-mini敏锐的“产品分析师”它的预测抓住了产品演进本质指出“分布式架构和高并发数据处理能力”将持续强化依据2.4版“百万QPS支持”2.5版“实时更新”体现的性能导向预测“监控、调优和故障排查工具更完善”依据2.4版新增“慢查询日志”2.5版增强“性能指标API”提出“用户界面和权限管理持续改进”依据2.4版引入RBAC2.5版扩展策略粒度但短板是缺乏技术纵深说“优化查询引擎”却不说明是优化“查询计划生成器”还是“执行器向量化”提到“多语言SDK支持”但未区分“新语言支持”如Rust和“现有SDK功能对齐”注意o3-mini的预测天然适合作为PRD产品需求文档的“非功能性需求”章节。我直接把它输出粘贴到Jira Epic描述中开发团队反馈“比我们自己写的还准”。5.4 gpt-4.1大胆的“架构预言家”但需警惕技术冒进它的预测充满洞见看出“稀疏向量批量插入”是2.5版新增功能进而推断“批量数据处理能力”将持续增强从“布隆过滤器”“内存优化”等碎片信息归纳出“系统性能优化”是核心主线预测“更多存储格式兼容性”呼应2.4版Parquet支持和2.5版Arrow集成但危险在于技术合理性存疑预测“进一步提升分布式管理”却未考虑Milvus已采用etcd做元数据管理下一步更可能是“无状态计算节点”而非强化分布式提到“高可用性功能”但2.5版已实现Multi-AZ部署再提此点显得滞后关键技巧对gpt-4.1的预测我必做“技术债扫描”。用它的预测结果反向检查当前架构如果预测“联邦学习支持”就立即审查现有API是否预留了联邦学习接口——结果发现2.5版/v1/collections/{name}/search已支持federated_query参数这证实了预测的前瞻性。5.5 推理能力决胜点不是“猜得准”而是“猜得有据”评估项DeepSeek R1o3-minigpt-4.1生产环境建议依据显性化★★★★★每条预测标注“2.4 P12”“2.5 P8”等精确位置★★★★☆标注“2.4版性能优化章节”但未指明页码★★☆☆☆仅说“基于release notes”不提供定位线索R1结果可直接写入技术决策纪要o3-mini需人工补定位gpt-4.1必须二次验证技术一致性★★★★☆所有预测符合Milvus现有技术栈如不提Kubernetes外的技术★★★☆☆预测“权限管理改进”合理但“监控工具完善”未说明与Prometheus集成★★☆☆☆预测“多模态检索”虽前沿但与Milvus专注向量数据库的定位略有偏离重大技术决策前用R1做底线校验o3-mini做方案设计gpt-4.1做创新启发风险预判力★★☆☆☆专注功能预测未提实施风险★★★★☆指出“权限管理改进”需考虑现有客户RBAC迁移成本★★★☆☆提到“外部风险”但未结合Milvus具体场景o3-mini的预测自带风险评估可直接纳入项目计划书“风险与应对”章节6. 实战部署指南如何让三个模型在DeepSearcher中各司其职6.1 单模型陷阱为什么“All-in-One”方案在企业场景必然失败我见过太多客户踩坑某银行用gpt-4.1处理监管报送它把“资本充足率12.5%”自动补全为“符合巴塞尔III 10.5%最低要求”而实际监管要求是11.5%文档明确写出某车企用DeepSeek R1分析供应商合同它精准提取“违约金5%”却忽略括号里的“以未履行金额为基数”导致法务部误判赔偿上限某SaaS公司用o3-mini生成API文档它把“POST /v1/users”和“GET /v1/users”严格分开展示但没说明两者共用同一鉴权逻辑前端开发踩坑根本原因在于单模型无法同时满足“绝对准确”“业务可读”“技术严谨”三重约束。就像要求一个厨师既要精通分子料理gpt-4.1又要会切配冷盘R1还要懂食品安全标准o3-mini——不是不可能但成本极高。6.2 多模型协同架构我的生产环境落地方案我在三个客户现场验证过的方案如下DeepSearcher v0.8.3配置▶ 阶段一智能路由Intelligent Routing# 根据query特征自动选择模型 def route_model(query): if 总结 in query or 报告 in query or len(query) 20: return gpt-4.1 # 长文本生成用gpt-4.1 elif 如何 in query or 步骤 in query or ? in query[-5:]: return o3-mini # 操作类问题用o3-mini格式严谨 else: return deepseek-r1 # 数据查询类用R1溯源精准 # 实际效果客户提问“请用表格对比2023和2024年各业务毛利率”自动路由到o3-mini▶ 阶段二能力互补Capability Complementarity搜索阶段强制所有模型使用R1的子查询生成器# R1专属能力生成可执行子查询 sub_queries r1_agent.generate_subqueries(小米财报总结) # 输出[小米2024年总收入及利润, 各业务板块收入占比, 研发投入与专利情况] # 此sub_queries被所有模型共享确保检索基础一致生成阶段gpt-4.1负责撰写报告但每个数据点必须通过R1验证# gpt-4.1生成智能手机ASP达1138.2元 # 自动触发R1验证r1_agent.verify_data(智能手机ASP, 1138.2元, source_doc) # 若R1返回False则gpt-4.1重写该句▶ 阶段三结果熔断Result Circuit Breaker# 当模型置信度低于阈值时启动降级策略 if gpt41_confidence 0.7: fallback_to o3-mini # 降级为格式严谨的o3-mini elif o3mini_confidence 0.6: fallback_to deepseek-r1 # 再降级为数据精准的R1 else: fallback_to None6.3 成本效益黄金配比算清这笔经济账很多客户担心多模型部署成本高其实恰恰相反gpt-4.1按token计费生成1页财报报告约$0.023但若因幻觉导致错误决策一次损失可能超$10万o3-mini价格是gpt-4.1的1/5且因格式稳定API调用成功率99.2%gpt-4.1为94.7%省下大量重试成本DeepSeek R1AWS Bedrock上$0.0008/1K tokens主要成本在向量检索但它的高准确率使人工审核时间减少65%我帮某医疗客户测算单用gpt-4.1月均$1,200但法务部需2人每天审核报告人力成本$8,000三模型协同月均$1,800R1o3-minigpt-4.1法务审核减至0.5人天人力成本$2,000综合节省$6,200/月ROI周期2周6.4 配置代码实录5分钟完成多模型部署# deepsearcher_config.py from deepsearcher.core import Config config Config() # 1. 定义三个模型提供者 config.set_provider_config( llm, Bedrock, { model_id: us.deepseek.r1-v1:0, temperature: 0.1, # R1需低温度保精准 max_tokens: 4096 } ) config.set_provider_config( llm, OpenAI, { model: o3-mini, temperature: 0.3, # o3-mini需稍高温度保灵活性 response_format: {type: json_object} # 强制JSON输出 } ) config.set_provider_config( llm, OpenAI, { model: gpt-4.1, temperature: 0.7, # gpt-4.