昇腾AI基础软件集群监控与运维软件硬件产品介绍鲲鹏芯片与泰山服务器鲲鹏芯片定义鲲鹏芯片是一系列硬件的统称包括鲲鹏 910、鲲鹏 920 等型号市场上应用最多的是鲲鹏 920。泰山服务器形成鲲鹏芯片插到鲲鹏主板上再将主板放入泰山服务器从而形成通用服务器。昇腾计算与 Atlas 系列昇腾计算核心昇腾计算是华为针对 AI 挑战专门开发的核心是面向 AI 场景。Atlas 系列特点其具体型号为 Atlas 系列如 Atlas 300、Atlas 200I 等只要提到 Atlas就意味着与 AI 相关属于系列服务器。CAN 平台讲解平台类比与作用类比操作系统CAN 平台可类比为操作系统或中间件它提供从底层加速到上层应用开发的全栈能力起到承上启下的作用。异构架构核心由于昇腾处理器是 ARM 架构与常规的 X86 架构不同代码无法直接在华为服务器上运行CAN 平台可实现 APC 转换将异构模型适配到昇腾计算资源上。平台安装与使用安装方式可在 Windows 系统上通过 WSL 子系统安装 CAN 平台安装时注意不要安装到 C 盘避免磁盘空间不足。模型转换安装完成后可进行模型转换将 ONNX、Tensorflow、Metisflow、Caffe 等模型转换为 OM 模型以在昇腾硬件上运行。转换时使用 ATC 命令根据不同模型选择相应参数。模型运行转换后的模型可在 Atlas 200 等开发者盒子上运行进行推理等操作如进行图像识别等。主流框架介绍常见框架信息框架开发主体Matasport 是 MAT 公司前身是 Facebook人工智能研究小组开发的TensorFlow 是谷歌开发的PyTorch 是百度开发的昇思是华为开发的。框架核心作用这些框架的核心是降低开发门槛开发者无需从 0 到 1 搭建整个网络可直接使用已有的轮子。PyTorch 特点语言与速度PyTorch 以 Python 优先使用 Python 语言开发速度较快可直接调用。动态图优势采用动态图与 TensorFlow 1.0 的静态图不同动态图调试方便易于 debug但 TensorFlow 1.0 运行效率高华为的 Metapod 实现了动静统一编程可通过一行代码切换动静图兼具两者优势。Metasport 框架剖析框架核心层次底层硬件部署最底层是硬件有云部署、边端部署等方式可使用 CAN 平台或 Cuda 平台。中间运行系统中间是 Runtime 运行时系统。上层算子与表达层上层是各种内部算子库AI 编译库和 AI 中间表达层常见的人工智能处理领域包括机器视觉、自然语言处理、语音处理和智能推荐。三层 API 结构低阶 API较为底层涉及张量、参数、自动等级、碎片化的 VMAP、神经网络等用于搭建网络等开发工作如 NN.flatten 就使用低阶 API。中阶 API封装了低阶 API包括优化器、损失函数等。高阶 API如 model 模块可将优化器等直接传入是一层一层包含的关系。开发者可通过官网mindspore.cn查看 API 详细信息。框架支持设备Metasport 作为 AI 全场景框架支持各种设备包括昇腾系列、英伟达系列、ARM 系列如高通骁龙、麒麟芯片等产品。相关工具与套件说明Mat XDL 组件可用于埃特拉斯卡的集群调度、深度学习的调度、边缘全周期的安全管理以及 SDK 开发等考试可能会考查其具体组件。Metaframes 套件是大模型开发者套件基于该套件可进行训练、预训练、数据抽取、转换、预处理和部署等全流程应用开发支持主流的 Transformer 模型可降低开发成本。Matlink 方案是华为为昇腾芯片大语言模型专门打造的端到端方案涵盖数据制作、微调、推理、评估等功能常与 Matformas 配合使用其中包含专门针对大模型的加速库 Ascend Speed。MATSTUDIO 环境是一站式开发环境可将算子、训练、推理等工具链一键部署底层推理引擎为 AscendIE可进行图优化和图运行优化提高开发效率。监控与应用软件介绍Smart Computing用于计算设备集成和批量操作可实现一键开局、批量安装软件包、离线下载等快速运行功能考试重点考查在离线软件环境部署场景下的应用。飞深 Dict用于边缘设备统一运维管理支持公有云、私有云可实现自动化运维包括软硬件辅助和第三方工具的高效监控。CCAE是计算中心端到端的管理方案用于全栈运维涵盖集群资源、应用中层和管理层的统一以及数据读取、预处理等功能其运维架构为全场景解决方案服务。知识巩固测试会议最后通过一道单选题巩固知识题目为“以下哪个工具可以支持昇腾设备上快速开发大模型”答案为 Metperformance大模型开发套件其他选项 Metasport 是框架Mat X DL 用于计算卡集群管理调度Mat insight 用于 ONNX 模型可视化均不符合要求。