一、故障背景某大型数据中心部署了一套基于DPDK的软件交换机集群。主要承担:VXLAN GatewayEVPN LeafL2 SwitchingIPv4/IPv6 RoutingACL过滤ERSPAN镜像硬件配置:项目配置CPUIntel Xeon Gold 6430网卡Intel X710 10GDPDK23.11PMD Core32RX Queue32TX Queue32系统长期运行稳定。一次业务扩容后:转发流量: 48Mpps ↓ 63Mpps ↓ 81Mpps开始出现异常。现网告警:RTT偶发升高VXLAN Overlay时延抖动TCP重传率上升微丢包告警但所有PMD线程依然:100% CPU运行。二、第一轮排查首先查看网卡统计:rte_eth_stats_get();结果:imissed = 0 ierrors = 0 rx_nombuf = 0无异常。查看RSS分布:32个Queue负载均衡正常。查看ACL:Lookup Cycles 稳定正常。查看路由查找:LPM Lookup 稳定正常。查看Mempool:Free Objects 85%正常。几乎所有传统DPDK排查方向都被排除。三、一个反常现象运维团队发现:RX侧统计正常。但:TX Queue Occupancy偶尔会快速上升。又快速恢复。持续时间:20ms ~ 100ms非常短。这种现象无法通过常规监控捕获。于是开始重点分析发送路径。四、重新理解DPDK发送流程很多开发人员理解的发送流程:Packet ↓ rte_eth_tx_burst() ↓ NIC ↓ Wire实际上远没有这么简单。现代网卡发送路径: