博客导语XPath是爬虫行业通用解析语法比BeautifulSoup速度快数倍支持模糊匹配、层级匹配、多条件筛选是企业爬虫首选解析方案。一、XPath核心语法//全局查找任意节点/绝对路径子节点属性名获取属性text()获取文本[classxxx]属性筛选contains()模糊匹配二、lxml实战解析from lxml import etree html div classnews a hrefdetail.htmlPython爬虫实战/a /div tree etree.HTML(html) # 提取文本 text tree.xpath(//a/text()) # 提取属性 href tree.xpath(//a/href) print(text, href)三、高阶模糊匹配# 匹配class包含new的div tree.xpath(//div[contains(class,new)])四、选型标准简单页面、快速开发BeautifulSoup批量海量解析、复杂页面XPath lxml