正则表达式re模块:爬虫专用规则、数据精准提取案例
博客导语网页结构混乱、无固定标签时XPath和CSS选择器失效正则是唯一解决方案。本文整理爬虫最常用正则语法配套实战提取案例。一、爬虫高频正则元字符.匹配任意字符除换行\d数字、\D非数字\w字母数字下划线*匹配0次或多次匹配1次或多次?非贪婪匹配爬虫核心()分组提取目标数据二、re四大核心方法re.search匹配第一个re.findall匹配全部爬虫最常用re.sub替换清洗数据re.compile预编译正则提升速度三、爬虫实战案例import re html 价格99元销量2000 # 提取数字 price re.findall(r价格(\d)元, html) print(price)四、贪婪与非贪婪爬虫最大坑.*贪婪匹配最长内容.*?非贪婪匹配最短内容爬虫必须用非贪婪防止数据错乱。