反爬与反反爬
反爬虫限制手段请求限制、拒绝响应、客户端身份验证、文本混淆和使用动态渲染技术身份识别反爬虫验证请求头信息、验证请求参数、使用验证码等爬虫行为反爬虫对IP进行限制、使用蜜罐获取IP、假数据等数据加密反爬虫自定义字体、数据图片、编码格式等爬虫与反爬虫的攻与防爬虫反爬虫代码向目标网站发起网络请求、爬取网站数据监控异常流量请求并非来自浏览器直接拒绝模拟浏览器UA欺骗目标网站监控到大量请求都来自一个浏览器标识限制访问频率使用随机IP或分布式对目标网站发起请求在一些入口或表单增加验证码区别用户和爬虫简单验证码识别复杂验证码接入打码平台查看网站信息时要登录注册多个账号通过混淆规则对网站的信息进行混淆增加爬虫抓取的难度当解密成本高采用屏幕截图的方式根据自动化测试框架或浏览器的特征区别用户和爬虫成本太高有可能放弃爬取成本太高无法完全限制爬取基于身份识别反爬和解决思路Headers反爬通过User-agent字段解决方案使用随机的User-agent通过cookie字段解决方案登录网站后复制cookie请求时携带上。加密的cookie注册多个账号请求登录后数据或破解JS生成cookie逻辑通过Referer拿到字段后加入请求头基于请求参数反爬仔细分析抓到的包搞清楚请求之间的联系验证码发爬Pytesseract图像识别工具或者 商业打码平台一、Pytesseracttesseract引擎下载 # 安装时记住引擎安装路径语言包下载安装PIL和pytesseractpip install pillow #一个python的图像处理库pytesseract依赖pip install pytesseract简单应用