我第一次复现科研自动化项目从论文摘要到 RAG 问答系统的完整流程 ️ ⌨️进实验室实习的第一个任务感觉挺简单的都不好意思发博客从小开始希望能坚持下去一年后再回来看不知道怎么想(ง •̀_•́)ง尝试使用智谱大模型API和PubMed的api在Python编程环境下复现论文《Inferring Drug–Gene Relationships in Cancer Using Literature-Augmented Large Language Models》的关键功能代码基于大模型apipubmed api输入基因名称和药物名称输出基因和药物的关系问题医学和生物领域文献很多人工查找基因、药物、疾病之间的关系成本很高。普通 GPT 的问题直接问 GPT可能会编造不存在的证据。RAG 的想法先从数据库检索相关摘要再让模型基于检索内容回答从而降低幻觉。用户问题↓构造 PubMed 查询↓发送 HTTP 请求↓解析 XML 文献摘要↓整理 evidence↓构造 Prompt↓调用 LLM↓输出带证据的回答其实作为一个小白代码还是用ai写的。深入研究代码的过程我感觉是提升最明显的HTTP 请求XML 解析JSON 格式Prompt 设计等先用gpt帮我讲解相关知识点。然后通读代码明确了各个部分的功能这个项目虽然只是摘要级复现但它让我理解了科研自动化的一个基础流程从数据库获取文献证据再让模型基于证据进行推理。更复杂的科研自动化系统可能还会加入 PDF 解析、实验代码复现、图表分析、结果验证和自动写作等模块