拜耳与思特沃克合作,PRINCE平台提升制药临床前数据检索效率
导航链接包含多个导航链接如 [Refactoring](https://refactoring.com)、[Agile](/agile.html)、[Architecture](/architecture) 等。主题涵盖架构、重构、敏捷开发、交付、微服务、数据、测试、领域特定语言等主题。关于我包含关于、书籍、常见问题解答等相关内容。内容有视频、内容索引、片段、棋盘游戏、摄影等内容。思特沃克Thoughtworks包含主页、洞察、职业发展、技术雷达、工程实践等相关链接。关注可通过 RSS、Mastodon、领英、Bluesky、X、BGG 等渠道关注。目录包含顶部、挑战穿越临床前数据迷宫、解决方案PRINCE——一个进化型平台等内容。构建可靠的智能 AI 系统本文介绍了临床前信息中心PRINCE它是拜耳Bayer AG与思特沃克合作开发的基于云的平台旨在解决制药行业药物开发挑战。PRINCE 利用智能检索增强生成和文本转 SQL 技术整合数十年安全研究报告从基于关键词搜索系统演变为智能研究助手。从上下文工程和控制工程角度反思关键工程决策通过透明度、可解释性和人机协作建立用户信任展示了人工智能在制药领域变革潜力提高数据可访问性和研究效率确保治理和合规性。2026 年 6 月 16 日。作者信息Sarang Kulkarni 是思特沃克首席顾问专注软件工程、数据平台和应用人工智能交叉领域致力于构建生产级生成式人工智能系统为思特沃克全球人工智能服务开发团队做贡献还教授相关课程。内容再次罗列挑战、解决方案、系统架构等相关内容。临床前研究现状与机遇临床前药物发现复杂且数据密集研究人员面临有效访问和分析大量信息挑战传统基于关键词搜索方法力不从心。大语言模型出现带来机遇检索增强生成技术有望改变临床前数据访问方式。拜耳认识到潜力并探索利用这些技术解决临床前研究挑战。本文分享拜耳早期对生成式人工智能投资催生 PRINCE 的历程探讨技术架构、工程决策和经验教训。还介绍了上下文工程和控制工程以及发表在 [《人工智能前沿》](https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1636809/full) 上的论文更详细介绍产品演变和业务影响。挑战穿越临床前数据迷宫拜耳临床前研究领域数据丰富多样包括结构化数据集和非结构化信息。研究人员面临数据孤岛、搜索能力有限、手动分析耗时等障碍凸显对更高效、智能和集成的临床前数据检索与分析方法的迫切需求。解决方案PRINCE——一个进化型平台为解决挑战拜耳开发 PRINCE 平台最初是临床前数据统一入口整合结构化研究元数据。但大量有价值的临床前知识在非结构化 PDF 研究报告中生成式人工智能特别是 RAG 的出现解锁了这些数据。PRINCE 经历搜索、问答、执行三个阶段从搜索到问答再到执行的演变是对行业需求的战略回应旨在实现更快数据驱动决策加速疗法开发。系统架构构建可靠的智能检索增强生成RAG系统系统作为交互式对话式用户界面运行由强大后端基础设施支持。架构通过 _LangGraph_ 编排_FastAPI_ 应用程序提供服务。介绍了系统上下文和支持平台包括用户请求、编排、数据检索和状态管理、利用内部生成式人工智能平台、弹性和错误处理、可观测性和评估、最终响应等环节。还强调了上下文管理原则不同阶段接收不同上下文减少上下文污染。智能 RAG 系统PRINCE 集成智能 RAG 系统使用 _LangGraph_ 实现编排工作流利用研究代理、写作代理和反思代理执行任务具备多种回退机制确保系统可靠运行。明确用户意图“明确用户意图”步骤是消除歧义的第一道防线系统主动提出澄清问题确定特定领域或数据类型增强查询约束条件。通过开发 _领域级选择_ 和提供人工智能辅助的数据源推荐优化过程“快速失败”机制防止资源浪费。从上下文工程角度看此步骤限制后续代理接收的问题范围。思考与规划过程反思“思考与规划”步骤负责制定满足用户请求的策略进行过程反思评估代理是否朝着最终目标取得正确进展。在多步骤智能工作流中过程反思至关重要特别是工具数量增加时该步骤可提高工具选择准确性对于编排多步骤过程也很关键。研究代理研究代理是主要信息收集者数据分为结构化和非结构化两类。随着 PRINCE 扩展将研究能力发展为特定领域子代理层次结构采用混合检索器方法包括检索增强生成RAG和文本转 SQL。用于非结构化数据的检索增强生成RAG鉴于大量非结构化文档RAG 提取相关见解至关重要。介绍了 RAG 管道的摄入过程和查询时架构包括关键词提取、元数据过滤器生成、查询扩展、混合检索器、重排、最终大语言模型提示生成、带引用的响应生成和监控等步骤。用于结构化数据的文本转 SQL需要对结构化数据进行精确过滤等查询更适合文本转 SQL。介绍了将自然语言问题转换为 SQL 查询并检索结果的过程包括查询分析和意图识别、模式理解和相关模式选择、动态少量样本提示、SQL 查询生成和验证、查询执行和结果限制、错误处理和迭代等步骤。反思代理数据验证与充分性检查反思代理执行数据反思评估检索到的数据是否足以回答用户问题与过程反思目的不同。在多步骤智能工作流中两者都必不可少。反思代理评估数据充分性和相关性若信息不足则生成后续问题推动迭代检索。写作代理答案合成与格式化写作代理将检索到的证据转化为最终答案遵循不可协商规则如建立主张在上下文中、准确引用、满足格式化要求等。对于复杂响应架构支持通过内部审查循环扩展写作代理实现轻量级反思输出供专家审查。PRINCE 提供三个互补的反思循环。”