DPDK高性能交换机深度实战:一次FIB更新风暴引发的转发抖动故障分析
一、故障背景某大型云数据中心部署了一套软件交换机集群。承担:VXLAN GatewayEVPN Route Reflector接入BGP路由汇聚大规模L3转发设备规格:项目参数CPUIntel Xeon Gold 6338PMD Core24DPDK23.11路由规模180万ECMP路径64BGP邻居520系统已稳定运行两年。某次业务扩容后。出现告警:TCP RTT周期性升高BGP Keepalive超时VXLAN Overlay延迟增加异常持续:30秒 ↓ 恢复 ↓ 30秒 ↓ 恢复循环出现。二、第一轮排查首先查看:rte_eth_stats_get()结果:imissed = 0 ierrors = 0 rx_nombuf = 0无异常。继续查看:RX Queue Occupancy正常。继续查看:TX Queue Occupancy正常。继续查看:RSS Distribution均衡。继续查看:Mempool Usage正常。所有传统DPDK指标全部正常。三、发现异常规律运维人员发现:每次业务抖动发生时。控制面日志中出现大量:BGP UPDATE消息。统计如下:时间路由更新正常时100/s异常时3万/s开始怀疑: