【中小学AI人工智能教育】强化学习范例——平衡杆
Ai创想实验室是专门为中小学AI教育开发的教学平台包含了值计算、图像分类、音频分类、文本分类、数值回归、图像回归、图像分类回归、平衡杆、手写数字生成、文本生成等中小学人工智能学习类项目。无需编程基础、无需添加硬件、无需购买算力、无隐私担忧、无需师资培训即可进行教学实践。和之前介绍的监督学习一样尽可能用更广为人知容易找到大量参考资料的入门范例来完成这一类的首个例子而平衡杆就是很好的选择。作为强化学习范畴的范例其流程与监督学习有一定区别。一、模型构建在Ai创想实验室中我们只需要构建专家示范操作模型。平衡杆项目很简单其输入有4个维度位置、速度、杆子角度、杆子角速度而输出仅有2个维度左或右。通过一些全连接层即可学会这种映射关系二、强化学习将上述模型导出并导入到强化学习训练器中设置超参数即可进行训练。在训练其中采用Q值网络、经验池来完成训练为了在低配硬件上可以流畅运行除了模型训练以外的较多计算在界面上可以配置界面更新频率和画布渲染频率如果默认设置下有卡顿你可以更改这些设置使之更流畅经过一些轮次训练平衡杆直立的步数会呈现上升趋势大约200轮左右能首次达到500步这大约需要十来分钟时间。三、专家示范操作通常来说模型可以通过直接强化学习的方式进行学习但是这样的完全靠模型进行探索来学习的过程通常比较慢。如果我们用一些数据先训练一下模型训练进程会有所加快。在数据采集器中我们可以进行“示教”操作——根据小车的状态输入左或右键盘方向键←或→。这样我们就采集了一些数据但实际操作时平衡车的物理模拟帧率很高人类的反应速度很难跟上所以在数据采集界面上可以设置游戏速度当我们采集足够的数据这通常指维持平衡和小车不超出左右位置就可以把数据导出。四、监督学习训练当我们获得数据之后就可以像之前的监督学习一样使用这些数据对模型进行训练。如果你采集了足够的数据训练结束之后模型可以很快就能达到500步。当训练完成之后可以把已训练模型导出而后导入到强化学习训练器中——就像直接强化学习一样训练模型。这时我们可以观察到模型会更快的学会如何保持平衡杆直立。在AI创想实验室中我们无需编程基础不用学习框架不用配置环境无需购买费用高昂的显卡更不用为云端算力付费使用当前已有的各种硬件仅有核显的个人、办公、机房电脑希沃白板等都能达到理想的教学效果。操作简单但AI核心知识样样俱全无需师资培训就可以进行教学且能取得理想的教学效果。如果加入试点或合作方那么只需要一台局域网服务器无需显卡、服务器不用供算力即可一次投入永久使用全部项目和功能通过后台管理一分钟即可创建一个本地化、校本化的项目实例。