Prompt Engineering 入门指南:从原理到上手
5 分钟搞懂什么是 Prompt Engineering附 3 类实战场景模板。一句话讲清楚Prompt Engineering 不是写一句好的 prompt是怎么让 LLM 稳定输出你想要的结果的工程。它和写 prompt的区别类似软件工程和写代码的区别——前者关心设计、评估、迭代、失败模式后者只是写出来。必懂 5 个核心概念1. ICLIn-Context Learning模型不需要训练只通过 prompt 里的几个示例就能学会任务模式。关键样例的多样性 数量格式会被强烈模仿标签错了模型也会学错。2. CoTChain-of-Thought让模型先一步步想再答——适合数学题、逻辑题、复杂推理。不适用简单分类、命名实体识别、翻译反而拖后腿 烧 token。3. RAGRetrieval-Augmented Generation在 prompt 里塞入外部检索到的资料让模型基于真实信息回答。解决两个问题幻觉模型编造、知识截止训练数据过期。注意RAG 减少幻觉但不消除——模型还会补充资料外信息。4. AgentLLM 记忆 工具 规划——模型不仅想还能做调数据库、跑代码、调 API。核心范式ReActReasoning Acting 交替。5. Prompt Chaining单个 prompt 搞不定拆成多个 prompt 串行——前一步输出喂给下一步。代价错误会累积。5 步链准确率 ≈ 0.95^5 ≈ 77%。5 层知识地图求职用这张图┌─────────────────┐ │ 第五层高级范式 │ RAG / Agent / Fine-tuning ├─────────────────┤ │ 第四层系统化方法 │ 评估 / 迭代 / 版本管理 ├─────────────────┤ │ 第三层核心技巧 │ CoT / ReAct / Chaining ├─────────────────┤ │ 第二层解剖学 │ 角色 / 指令 / 上下文 / Few-shot / 格式 ├─────────────────┤ │ 第一层地基 │ Token / 续写 / ICL / 上下文窗口 └─────────────────┘面试被问到直接画这张图。3 类高频实战场景场景 1分类任务# 角色 你是一位资深的用户评论分析师。 # 输入 comment {comment} /comment # 输出格式严格遵守 json { sentiment: positive | negative | neutral, confidence: 0.0-1.0, key_evidence: 从原文中复制的关键短语 }规则positive明确表达满意、推荐negative明确表达不满、批评neutral客观描述、无法判断文本过短 → 强制 neutral不要因为单个否定词就判负面示例输入「这个产品真的太好用了强烈推荐」输出{“sentiment”: “positive”, “confidence”: 0.95, “key_evidence”: “太好用了、强烈推荐”}### 场景 2信息提取任务 markdown # 任务 从合同文本中提取指定字段JSON 输出。 # 输入 contract {contract_text} /contract # 待提取字段 - party_a, party_b: 合同双方 - amount: 金额纯数字 - start_date, end_date: 起止日期YYYY-MM-DD - breach_clause: 违约责任 # 严格规则 1. 字段在原文找不到 → 输出 null禁止编造 2. 日期必须是 YYYY-MM-DD 格式 3. 金额必须转为纯数字 4. 只输出 JSON不要解释场景 3RAG 文档问答# 角色 你是企业知识库助手基于内部文档回答问题。 # 输入 user_question {user_question} /user_question retrieved_documents {retrieved_docs} /retrieved_documents # 规则 1. 严格基于 retrieved_documents 回答 2. 不要补充文档外信息 3. 文档中没有答案 → 明确说根据提供的资料无法回答 4. 引用用 [1][2] 标注来源 # 输出格式 ## 答案 具体回答 ## 引用来源 [1] 文档标题3 个最易踩的坑1. 角色 prompt 是安慰剂「你是一位世界顶级专家」对事实任务几乎没用。要写就写行为擅长 X、避免 Y、输出含 Z。2. Few-shot 不是越多越好最优区间是3-7 个。超过 10 个边际收益归零还挤占指令空间。3. CoT 用错任务 烧钱简单任务用 CoT输出 token 增 5-10 倍准确率只提 0-3%。评估方法一句话版小规模人工标注 50-100 条测试集大规模LLM-as-Judge注意 6 种偏置位置、长度、自我、风格、锚定、复杂性生产用户反馈闭环 定期回流扩充测试集面试高频题一句话答法题目关键答法什么是 Prompt Engineering系统化设计、迭代、评估 prompt 的工程学科Few-shot 为什么有效临时塑造 token 分布模型顺着续写不是真的学习CoT 为什么有效显式化推理过程每步有 token 预算思考RAG vs Fine-tuningRAG 适合知识更新 引用Fine-tuning 适合固定领域 延迟敏感Agent 是什么LLM 记忆 工具 规划能自主完成多步任务学习路径最少必要入门读 Lilian Weng《Prompt Engineering》综述免费神作上手选一个真实任务写 5 个版本对比进阶用 prompt LLM 做一个小项目周报、客服、文档问答求职能讲清 5 个概念 写出 3 类场景 prompt 解释清楚评估方法一句话总结Prompt Engineering 怎么问 怎么改 怎么判断好坏。理解任务 准备数据 系统评估远比琢磨 prompt 措辞重要。