【HCIA-AI笔记(微认证3)】1、Agent基本概念
A.监督学习依赖带标注的样本数据做训练没有通过奖励机制迭代优化行为的设计不符合题意。B.无监督学习是从无标注数据里挖掘内在规律不存在奖励引导策略优化的环节。C.强化学习核心机制就是智能体Agent和环境交互依靠奖励 / 惩罚机制不断迭代优化行为策略AlphaGo 正是用强化学习结合蒙特卡洛树搜索完成训练的符合题目描述。D.迁移学习是把旧任务学到的知识迁移到新任务来提升训练效率不是依靠奖励机制优化行为的核心框架。简单反射型智能体A 选项仅依靠当前感知和预设规则行动没有内部状态与环境历史存储能力无法处理部分可观测环境。基于模型的反射型智能体B 选项内置了内部世界模型可以保存过往的环境历史信息以此推断环境中无法直接观测的隐藏状态具备处理部分可观测场景的能力和题目描述完全匹配。基于目标的智能体C 选项是在模型反射的基础上增加了目标规划能力核心特点是围绕目标做动作序列规划不是以维护环境历史、解决部分可观测问题为核心特征。基于效用的智能体D 选项在目标型的基础上引入效用函数做多目标权衡优化侧重点是量化方案优劣、处理决策不确定性。五层智能体是逐层叠加、功能包含的递进关系高层智能体完整继承下层全部能力再新增独有模块