Python beautifulsoup网络抓取和解析cnblog首页帖子数据

news/2024/7/19 11:19:58 标签: python, beautifulsoup, 爬虫, Python爬虫

视频版教程:一天掌握python爬虫【基础篇】 涵盖 requests、beautifulsoup、selenium

我们抓取下https://www.cnblogs.com/ 首页所有的帖子信息,包括帖子标题,帖子地址,以及帖子作者信息。

首先用requests获取网页文件,然后再用bs4进行解析。

参考代码:

python">import requests

url = "https://www.cnblogs.com/"

r = requests.get(url)

# 设置返回对象的编码
r.encoding = "utf-8"

# print(r.text)

from bs4 import BeautifulSoup

soup = BeautifulSoup(r.text, 'lxml')

article_list = soup.select("article.post-item")
# print(article_list)

for artile in article_list:
    print("==========")
    author = artile.find("a", class_="post-item-author")
    print(author.get_text())
    link = artile.find("a", class_="post-item-title")
    print(link.get_text())
    print(link.attrs["href"])

http://www.niftyadmin.cn/n/5135455.html

相关文章

vue-devtools 下载

创建空文件夹,然后 cmd 运行: npm install vue-devtools 然后打开在node_modules->vue-devtools->vender->manifest.json文件 persistent:false 改成 true 最后把vender文件夹拖到chrome浏览器扩展中 提示小消失

K8s组件全解析,你需要知道的一切秘密

当你部署完 Kubernetes,便拥有了一个完整的集群。 Kubernetes,作为目前最流行和广泛采用的容器编排和管理平台,背后有一系列强大的组件,共同协作以实现容器化应用的自动化部署、弹性扩展、服务发现和负载均衡等关键功能。本文将介…

c语言运算符表达式

c语言运算符表达式 c语言运算符表达式 c语言运算符表达式一、算数运算符二、赋值运算符【 - * / %】三、比较运算符【 > < > < !】 一、算数运算符 算数运算符&#xff1a; 用于各类数值运算。包括加()、减(-)、乘(*)、除(/)、求余(或称模运算&#xff0c;%)、…

Anaconda下载安装以及环境变量的配置

一、下载安装anaconda 可以在官网下载&#xff1a;Anaconda | The World’s Most Popular Data Science Platform 也直接用清华源镜像进行下载&#xff1a;Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 按照需要选则自己需要的版本…

python爬虫之使用bs4方法进行数据解析

2. 代码实现 import requests from bs4 import BeautifulSoup if __name__ __main__:# 一、网址分析# 对首页的页面数据进行爬取# 1. 模拟浏览器headers {User-Agent : Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116…

Vue使用 IndexDB vue操作IndexDB数据库 Vue操作IndexDB数据库

Vue使用 IndexDB vue操作IndexDB数据库 Vue操作IndexDB数据库 Vue使用 IndexDB vue操作IndexDB数据库 Vue操作IndexDB数据库安装 IndexDB类库引入 localForage测试 新增数据、获取数据 Vue使用 IndexDB vue操作IndexDB数据库 Vue操作IndexDB数据库 大部分场景使用 LocalStore都…

前端打印表格功能+单号生成条形码

第一种打印方法&#xff1a;不需要下载任何插件 浏览器自带打印功能&#xff08;不太推荐&#xff09;&#xff0c;原理是生成新的页面后被打印&#xff0c;当打印完成或者取消打印时&#xff0c;页面需要强制刷新&#xff0c;否则页面无法回显。 //打印功能 print() {var pr…

Jetpack Compose | State状态管理及界面刷新

我们知道Jetpack Compose&#xff08;以下简称Compose&#xff09;中的 UI 可组合项是通过Composable 声明的函数来描述的&#xff0c;如&#xff1a; Composable fun Greeting() {Text(text "init",color Color.Red,modifier Modifier.fillMaxWidth()) }上面的代…