Python 扒网页数据简单尝试-尧图建网站

首先免责声明本爬虫代码仅用于Python技术学习与合法研究使用者需自行确保爬取行为符合所在地区法律法规、目标网站robots协议及服务条款严禁抓取个人隐私、受版权保护的敏感数据不得高频请求干扰网站正常运行。因不当使用产生的所有法律责任与后果均由使用者本人全部承担代码提供方不承担任何连带责任。0.假定需求扒自己的博客首页的博客列表第一页的数据https://zhaoxinghai.blog.csdn.net1.准备工作安装要用到的两个三方库用cmd命令行执行以下命令进行安装。如果提示pip命令无效的话看这篇文章安装一下pipPython pip安装-CSDN博客pip install requests pip install beautifulsoup42.代码如下文件名test.py:import requests from bs4 import BeautifulSoup url https://zhaoxinghai.blog.csdn.net/ # 发送HTTP请求 response requests.get(url) # 请求是否成功 if response.status_code 200: # 解析HTML内容 soup BeautifulSoup(response.text, html.parser) # # 获取页面数据 div 具体网页要看具体的标签名 # text soup.find(div).text # print(所有数据:, text) list soup.find_all(div, class_blog-list-box-top) #子标签类名 for index,value in enumerate(list): # 不推荐使用.string 因为多层级标签或者有空数据的情况会返回None 而.text会返回所有子标签的数据拼接或者空字符串“” # print(f博客{index1}, value.text) # .text的底层也是用的get_text方法不过text不可以加参数而这个可以使用参数比如去除首尾空格stripTrue print(f首页第{index1}条博客, value.get_text(stripTrue)) # 获取所有链接 # links soup.find_all(a) # for link in links: # print(链接:, link.get(href)) else: print(请求失败状态码:, response.status_code)3.运行结果执行命令py test.py 或者 python test.py附-提取数据的三个方法的横向对比

相关新闻

Python爬虫经典案例005：Selenium浏览器自动化——动态页面爬取实战指南

快速入门Ai语言画图大模型！Nano banana pro和gpt 15分轻松上手

2026顶配单！好用的降AIGC网站全测评，效率直接拉满！

最新新闻

宇视天目系列卡口电警工勘避坑指南：手把手教你用《智能交通工勘计算表》搞定现场参数

WebdriverIO与Cucumber框架兼容性实战：解决BDD自动化测试整合难题

图形化打包Python程序，还能加密+授权一步到位

企业级多Agent系统实战：从沙盒隔离到动态编排的工程化落地

叶黄素和花青素哪个对眼睛好？两大热门护眼成分全面对比

保姆级教程：手把手教你调优ISP图像处理中的ASF（自适应空间滤波器）参数

日新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！