土星云SE110S边缘设备DeepSORT目标追踪算法部署实战
一、项目概述在智能视频监控、自动驾驶、工业视觉检测等边缘场景中多目标追踪是核心AI能力之一相较于单纯的目标检测其能够实现同一目标的持续关联、轨迹留存有效解决目标遮挡、画面卡顿导致的目标丢失问题。本文基于开源DeepSORT算法完成国科环宇旗下土星云SE110S边缘计算设备的适配部署。项目以YOLOv5作为目标检测前置模型对原生PyTorch版本DeepSORT的特征提取模型与追踪算法进行轻量化移植适配SE110S设备的推理架构支持FP32、FP16、INT8多精度模型编译推理同时兼容Python/ C双语言部署、OpenCV/BMCV双预处理方案可直接应用于视频流、图片数据集的多目标追踪场景。国科环宇旗下土星云SE110S是一款低功耗工业级边缘微服务器搭载高性能AI推理核心具备7.2~32TOPS可变INT8算力支持多路1080P视频硬解码ARM架构低功耗设计完美适配边缘端AI算法轻量化部署需求是工业视觉、安防监控场景的优选设备。二、项目核心特性本次SE110S设备适配的DeepSORT部署方案具备全面的场景适配能力与性能优势核心特性如下全设备兼容原生适配土星云SE110S全系列型号兼容PCIe、SoC两种运行模式适配不同硬件配置的SE110S设备多精度推理支持支持FP32、FP16、INT8三种模型精度的编译与推理可根据场景权衡精度与性能双预处理方案支持基于OpenCV预处理的Python快速部署、基于BMCV硬件预处理的C高性能部署多batch推理支持单batch、多batch模型推理适配不同并发视频流处理需求多测试场景兼容MOT标准数据集图片文件夹格式、本地视频文件两种测试方式高性能低功耗依托SE110S硬件算力量化模型推理延迟极低满足边缘实时追踪场景需求三、环境与资源准备3.1 硬件环境部署设备土星云SE110S边缘计算微服务器搭载ARM Cortex-A53处理器支持混合精度AI推理具备多路视频编解码能力满足边缘AI算法部署基础算力需求。3.2 模型与数据准备本项目部署依赖两类核心模型YOLOv5目标检测模型、DeepSORT特征提取模型同时需要测试数据集/视频用于精度与性能验证。3.2.1 模型转换工具原生DeepSORT权重为PTH格式需先转换为ONNX、TorchScript格式再编译为设备适配的BModel格式。项目提供专属转换脚本可一键完成模型导出python3 tools/extractor_transform.py --pth_path 你的模型.pth权重路径执行脚本后会在项目目录生成onnx、torch格式的中间模型文件为后续编译提供基础。3.2.2 一键下载资源项目scripts目录提供自动化下载脚本可快速获取适配SE110S的预编译模型、测试数据集、量化数据集无需手动配置。执行命令如下# 安装依赖工具sudo apt install unzip# 赋予脚本执行权限chmod -R x scripts/# 一键下载模型与数据./scripts/download.sh3.2.3 资源目录说明执行下载脚本后项目自动生成models、datasets两大核心目录1. 模型目录models包含适配SE110S的FP32、FP16、INT8多精度、多batch模型涵盖YOLOv5检测模型与DeepSORT特征提取模型支持单核心、双核心推理配置。2. 数据目录datasetscali_set模型量化专用数据集用于INT8模型精度校准test_car_person_1080P.mp41080P测试视频用于实时追踪效果演示mot15_trainsetMOT15标准追踪数据集用于算法精度量化测试四、模型编译自定义模型适配若无需使用预编译模型可基于导出的ONNX模型通过TPU-MLIR工具自主编译适配SE110S的BModel模型支持三种精度编译方式需提前部署TPU-MLIR编译环境。4.1 FP32模型编译FP32模型精度最高适合对追踪精度要求严苛的场景执行专属编译脚本指定SE110S适配平台./scripts/gen_fp32bmodel_mlir.sh se110s脚本执行前可自定义修改ONNX模型路径、输出目录、输入尺寸等参数编译完成后自动生成FP32高精度BModel文件。4.2 FP16模型编译FP16模型兼顾精度与速度算力消耗更低是边缘场景最优选择仅支持SE110S高阶型号编译命令./scripts/gen_fp16bmodel_mlir.sh se110s4.3 INT8量化模型编译INT8量化模型推理速度最快、功耗最低适合高并发、低延迟边缘场景需依托量化数据集完成校准编译./scripts/gen_int8bmodel_mlir.sh se110s五、项目例程测试本项目提供Python、C双版本例程适配不同开发需求Python版本开发便捷、快速落地C版本基于BMCV硬件预处理推理性能更强、延迟更低。开发者可直接运行对应例程完成视频、数据集的多目标追踪测试。六、算法精度测试6.1 测试方案采用MOT15标准数据集ADL-Rundle-6序列进行精度验证以MOTA多目标追踪准确率为核心评价指标步骤如下运行Python/C例程推理测试数据集生成追踪结果TXT文件安装精度评估依赖库motmetricspip3 install motmetrics执行评估脚本对比预测结果与数据集真实标签计算精度指标精度评估执行命令python3 tools/eval_mot15.py --gt_file datasets/mot15_trainset/ADL-Rundle-6/gt/gt.txt --ts_file python/results/mot_eval/你的模型结果.txt6.2 精度测试结果分析基于SE110S设备使用YOLOv5s_INT8检测模型搭配不同精度DeepSORT特征提取模型实测精度表现稳定核心结论如下全精度模型MOTA指标稳定在0.43~0.46区间量化后INT8模型精度损耗1%边缘场景可忽略相同精度下batch_size1与batch_size4模型精度完全一致多并发场景无需牺牲精度Python-OpenCV预处理与C-BMCV硬件预处理精度基本持平微小误差源于预处理算法差异SE110S设备双核心推理模型与单核心模型精度无明显差异多核加速仅提升性能、不影响精度整体来看模型量化、多batch、多核推理的适配方案均不会对DeepSORT追踪精度造成明显影响边缘部署精度可靠性极高。七、性能测试与分析本次性能测试分为模型理论推理性能、全流程实际运行性能两部分所有时间单位为ms测试结果为多次测试平均值规避偶然波动。7.1 模型理论推理性能bmrt_test通过官方推理测试工具单独测试SE110S设备上各模型的单帧推理耗时核心数据如下FP32模型单帧推理耗时10~12ms精度最优适合低并发高精度场景FP16模型单帧推理耗时2~3ms性能大幅提升综合性价比最高INT8量化模型单帧推理耗时0.9~1.2ms推理速度最快适合高实时性场景多batch模型平均单帧耗时更低4batch INT8模型单帧最低耗时仅0.5ms左右7.2 全流程实际运行性能统计模型预处理、推理、后处理全流程耗时对比Python与C部署方案差异预处理阶段C版本依托BMCV硬件预处理耗时仅0.2~0.8ms远优于OpenCV软件预处理2~3ms硬件加速优势显著推理阶段各精度模型实际推理耗时与理论测试基本一致SE110S算力稳定性强后处理阶段C版本后处理耗时稳定在4~7msPython版本后处理耗时偏高适合快速验证工业部署优先选择C方案7.3 性能总结SE110S设备INT8量化模型性能最优兼顾低延迟、低功耗是工业边缘部署首选BMCV硬件预处理可极大降低CPU占用大幅提升全流程推理效率适合量产落地多batch推理可有效提升并发处理能力适配多路视频同时追踪的场景需求。八、常见问题FAQ8.1 模型编译失败怎么办检查TPU-MLIR环境版本适配性核对ONNX模型输入尺寸、路径配置确保量化数据集完整、无缺失文件。8.2 推理精度波动较大如何解决多次测试取平均值确认模型编译参数与SE110S设备型号匹配量化模型需使用合规校准数据集。8.3 Python部署延迟过高怎么优化优先切换C BMCV部署方案选用FP16/INT8量化模型开启设备多核推理配置。8.4 多batch模型推理异常如何处理核对模型编译时的batch参数与推理代码配置一致确保输入数据维度匹配模型定义。九、部署总结本文完整实现了国科环宇土星云SE110S边缘设备的DeepSORT多目标追踪算法部署完成了模型转换、多精度编译、双语言部署、精度与性能全维度测试。方案充分适配SE110S低功耗、高算力、多路视频处理的硬件特性解决了传统边缘设备AI追踪延迟高、精度差、部署复杂的痛点。整体部署方案具备极强的实用性与落地性FP32模式满足高精度科研测试FP16模式平衡精度与性能INT8量化模式适配工业实时场景Python适合快速验证迭代C适合量产落地可广泛应用于智能安防、工业巡检、交通监控等边缘AI场景。