【python爬虫应用03】csdn个人所有文章质量分查询

news/2024/7/19 11:18:55 标签: 爬虫, python

🛠️ 环境准备

在开始编写代码之前,我们需要进行一些环境准备。以下是所需的环境和库:

  • 操作系统:Windows
  • 编程语言:Python 3
  • 编辑器:VSCode(可选)

安装所需的库:

  • requests:用于发送HTTP请求
  • MultipartEncoder:用于构造POST请求的请求体

可以使用以下命令在命令行中安装这些库:

pip install requests
pip install requests_toolbelt

请确保已经正确安装了Python 3,并且在编写代码之前设置了Python 3的环境变量。

🎯 分析目标数据

在进行爬取之前,首先需要打开目标网页并使用浏览器的开发者工具,以获取所需的请求 URL 和请求标头。

第一步:打开目标网页

在这里插入图片描述

第二步:使用开发者工具

按下键盘上的F12键,打开浏览器的开发者工具。然后点击"Network"选项卡,这将显示浏览器发送的网络请求。

在这里插入图片描述

第三步:获取请求 URL 和请求标头

在开发者工具中,可以看到所有的网络请求。找到目标请求,并点击查看其详情。

在请求详情中,我们可以找到标头,查看请求的URL和请求标头。这些信息将在后续的代码编写中使用。

请求url

点击负载找到请求参数

参数列表

第四步:分析请求url,构造参数字典

根据以上信息可以得到,请求url是由两部分构成,

python">url = "https://blog.csdn.net/community/home-api/v1/get-business-list"
参数:
page: 2
size: 20
businessType: lately
noMore: false
username: mingfeng4923

🐍 获取所有文章代码编写

⭐️ 获取单页的文章列表

✅首先,需要导入所需的库:

python">import requests
from requests_toolbelt import MultipartEncoder

✅接下来,将发送GET请求并获取数据内容:

python">url = 'urls = "https://blog.csdn.net/community/home-api/v1/get-business-list"'
# 使用了常见的浏览器User-Agent来模拟浏览器请求
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0"
    }
    lb_params = {
        "page": 1,
        "size": "20",
        "businessType": "blog",
        "orderby": "",
        "noMore": "false",
        "year": "",
        "month": "",
        "username": "mingfeng4923",
    }

res = requests.get(url=urls, headers=headers, params=lb_params)

✅使用json方法处理数据,并读取文章列表信息,文章信息在data>list下

在这里插入图片描述

python">data_list = res.json()["data"]["list"]

✅遍历列表输出文章链接和文章标题

python">for data in data_list:
    print(data["url"],data["title"])

✅结果:
在这里插入图片描述

⭐️ 获取所有页的文章

修改页码,循环发送GET请求获取文章列表信息,直到返回的列表为空停止循环。

要获取所有文章信息,我们需要对请求的URL进行修改。URL中的参数page代表当前页码,我们可以通过修改该参数的值来获取不同页的文章列表。

🫸 首先,我们定义一个函数get_post_list_urls,该函数用于发送GET请求获取文章列表信息。

python">def get_post_list_urls(page, username):
    # 构造请求URL和请求参数
    url = "https://blog.csdn.net/community/home-api/v1/get-business-list"
    params = {
        "page": page,
        "size": "20",
        "businessType": "blog",
        "orderby": "",
        "noMore": "false",
        "year": "",
        "month": "",
        "username": username,
    }
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0"
    }

    try:
        # 发送GET请求
        response = requests.get(url=url, headers=headers, params=params)
        # 解析响应数据
        data_list = response.json()["data"]["list"]
        return data_list
    except Exception as e:
        print(f"获取文章列表失败:{e}")
        return []

🫸 然后,我们可以使用该函数来获取所有文章的信息。

python">res = []  # 存储所有文章信息的列表
page = 1  # 初始页码

# 循环获取文章列表信息
while True:
    data_list = get_post_list_urls(page, UserName)
    page += 1
    if data_list:
        res.extend(data_list)
    else:
        break

输出查看一下结果

python"># 遍历输出文章链接和标题
COUNT = len(res)
for data in res:
    print(data["url"],data["title"])
print(f"[+] [{COUNT}篇]")

在这里插入图片描述

📑 CSDN质量分查询

接下来是对博文质量分数的查询。首先打开目标网页并使用浏览器的开发者工具。然后复制粘贴要查询的文章链接,点击查询按钮。在开发者工具中查看请求的请求 URL 和请求标头,注意这次要用POST方法进行请求。构造查询函数,使用requests库发送POST请求获取博文的质量分数。

要查询博文的质量分数,我们需要先打开目标网页并使用浏览器的开发者工具,以查看请求的URL和请求标头。

第一步:打开目标网页

在浏览器中打开目标网页。

目标链接:https://www.csdn.net/qc
在这里插入图片描述

第二步:使用开发者工具

按下键盘上的F12键,打开浏览器的开发者工具。然后复制要查询的文章链接,点击查询。

在这里插入图片描述

在开发者工具中就可以查询到文章的信息。

在这里插入图片描述

第三步:获取请求 URL 和请求标头

在开发者工具中,可以看到所有的网络请求。找到目标请求,并点击查看其详情。

在请求详情中,我们可以找到标头,查看请求的URL和请求标头。这些信息将在后续的代码编写中使用。

在这里插入图片描述
在这里插入图片描述

根据以上信息可以得到,请求url和参数信息,使用的是post方法

python">请求url : https://bizapi.csdn.net/trends/api/v1/get-article-score
参数:url: https://blog.csdn.net/mingfeng4923/article/details/131423637

第四步:构造查询函数

在Python中,我们可以定义一个函数get_quality_score,用于发送POST请求获取博文的质量分数。

python">def get_quality_score(article_url):
    # 构造请求URL和请求体
    url = "https://bizapi.csdn.net/trends/api/v1/get-article-score"
    params = {"url":article_url}
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0",
        "Content-Type": "application/json",
    }

    try:
        # 发送POST请求
        response = requests.post(url=url, headers=headers,  params=params, timeout=10,)
        # 解析响应数据
        score = response.json()["data"]["score"]
        return score
    except Exception as e:
        print(f"获取质量分数失败:{e}")
        return None

报错401解决方法

这样直接访问就会出错,status_code 结果是401

在这里插入图片描述

这里需要使用requests_toolbelt库中的MultipartEncoder方法:

python">from requests_toolbelt import MultipartEncoder
...
params = MultipartEncoder({"url": article_url})
headers['Content-Type'] = params.content_type # 修改Content-Type
res = requests.post(
            url,
            headers=headers,
            data=params,  # 使用data
            timeout=10,
        )

在这里插入图片描述

status_code返回200,正常访问

返回数据:

code: 200
data: {
		article_id: "131423637"
		message: "文章质量良好"
		nickname: "mingfeng4923"
		post_time: "2023-06-27 19:15:12"
		score: 92
		title: "Python爬虫:Scrapy框架"
		username: "mingfeng4923"
	}
message: "success"

在这里插入图片描述

第五步:循环查询质量分

在这里插入图片描述

🌖完整代码

整合以上步骤,使用Python编写完整代码。首先获取文章列表链接,然后遍历列表获取每篇文章的质量分数。输出文章链接和质量分数。

python"># CSDN个人博文质量查询
import requests
from requests_toolbelt import MultipartEncoder

UserName = "mingfeng4923"
# 获取文章列表
def get_post_list_urls(page, username):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0"
    }
    lb_params = {
        "page": page,
        "size": "20",
        "businessType": "blog",
        "orderby": "",
        "noMore": "false",
        "year": "",
        "month": "",
        "username": username,
    }
    urls = "https://blog.csdn.net/community/home-api/v1/get-business-list"
    try:
        res = requests.get(url=urls, headers=headers, params=lb_params)
        # print(res.status_code)
        data_list = res.json()["data"]["list"]
        return data_list
    except Exception as e:
        print(f"[+] [ending] [{e}]")
        return 0

# 查询质量分数
def get_sorce(article_url):
    url = "https://bizapi.csdn.net/trends/api/v1/get-article-score"

    headers = {
    	# headers 
    }
    params = MultipartEncoder({"url": article_url})
    headers["Content-Type"] = params.content_type
    try:
        res = requests.post(
            url,
            headers=headers,
            data=params,
            timeout=10,
        )
        # print(f"[+] [{article_url}] [{res.status_code}] ")
        sorce = res.json()["data"]["score"]
        # print(sorce)
        return sorce
    except Exception as e:
        print(f"[+] [分数获取失败] [{article_url}] [{res.status_code}] [{e}]")
        return 0

UserName = 'mingfeng4923'
res = []
page = 1
while True:
    data_list = get_post_list_urls(page, UserName)
    page += 1
    if data_list == 0 or len(data_list) == 0:
        break
    else:
        res += data_list
for data in res:
    article_url = data["url"]
    print(article_url,get_sorce(article_url))

通过以上代码,我们可以获取指定CSDN用户的所有文章链接,并查询每篇文章的质量分数。这对于分析文章的质量和影响力非常有用。你可以根据自己的需求对代码进行进一步的修改和扩展。

Happy coding!🎉


http://www.niftyadmin.cn/n/1330138.html

相关文章

Spring疑难杂症(控制层文件在服务器上无法访问)

Java学习大纲(持续更新):https://blog.csdn.net/weixin_39778570 目录问题描述解决方案问题描述 编译工具:Eclipse 版本(Version): Oxygen.3a Release (4.7.3a) 我的Mvaen项目是这样的 AreaController类 在web层下面这三个类只有一个(AreaController)能在服务器…

【计算机图形学】结课大作业——光照模型(3D场景)

效果 >_< 技术栈 【前端】HTML / CSS / JavaScript【图形学】WebGL / Three.js 思路 three.js开发一般是比较套路的——init() animate() init()时把所有的场景摆放好animate()就是一个递归调用的渲染过程。 如何实现整个场景的搭建&#xff1f; 初始化场景(Sce…

使用git在上传项目到github

前提&#xff1a; 下载还git 然后配置一下(就不打码了…) 然后把 .ssh目录下的id_rsa.pub配置到github的ssh里面 一&#xff1a;在github上创建一个代码仓库&#xff0c;名字随意&#xff08;这里我交DDD&#xff09; 赋值红框第地址 二&#xff1a;右键点击你的项目文件…

【经典专题】链表的归并排序——经典的cut/merge模板

input&#xff1a;4 → 3 → 1 → 7 → 8 → 9 → 2 → 11 → 5 → 6 output&#xff1a;1 → 2 → 3 → 4 → 5 → 6 → 7 → 8 → 9 → 11 核心知识点 链表的截断&#xff08;cut&#xff09;链表的二路归并&#xff08;merge&#xff09;虚拟头节点(dummyHead)&#xff0…

【经典专题】无序数组的最大间距(Max Gap)——线性的桶排序

Q&#xff1a;给定一个无序的数组&#xff0c;找出数组在排序之后&#xff0c;相邻元素之间最大的差值。  &#xff08;请尝试在线性时间复杂度和空间复杂度的条件下解决此问题&#xff09; input&#xff1a;6 12 2 4 3 17 11 5 10 output&#xff1a;5 思路分析 …

【计算机图形学】深入浅出讲解光线追踪(Ray Tracing)

CG基础与光学基础 ▍问自己一句&#xff0c;3D场景为何可以被绘制到2D的画布/屏幕上&#xff1f; emmmmm…没有那么复杂&#xff0c;这几乎是一个纯几何的过程&#xff1a; 透视投影。将三维物体的特征点与眼睛连接成一条线&#xff0c;这条线会穿过画布&#xff08;Canvas&…

【计算机图形学】从0实现光线追踪 · 前篇

写在前面 之前使用 OpenGL/WebGL 进行了图形学的相关学习&#xff0c;并使用 Three.js 搭建了几个3D场景&#xff0c;也实现了几个比较有趣的效果。但是基于库、甚至基于three.js那样大量的实现类&#xff0c;终究是无法深入理解计算机图形学的。   因此&#xff0c;这两篇文…

Servlet学习记录

本篇文章主要是作者学习Servlet的一些小总结&#xff0c;希望能帮到您&#xff0c;如果有什么不妥当的地方希望得到指出&#xff0c;谢谢阅读 Java学习大纲:https://blog.csdn.net/weixin_39778570/article/details/94667501 JavaWeb&#xff1a;https://blog.csdn.net/weixin_…