Python实战:获取bing必应壁纸首页的每日一图(仅做学习用)

news/2024/7/18 16:34:45 标签: python, 爬虫

在这里插入图片描述

目录

    • 需求
    • 网站分析
    • 代码实现
    • 进一步
    • 接口获取
    • 其他资源

需求

老板:微软必应https://cn.bing.com/ 首页的每日一图看着不错,能不能自动获取

我:我试试

网站分析

我们查看网页元素,不难发现背景图就在类名为.img_cont 的标签下
在这里插入图片描述
可是搜索源代码 view-source:https://cn.bing.com/

<div class="img_cont" style="background-image: url(https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&amp;rf=LaDigue_1920x1080.jpg); opacity: 1;">

发现style属性中的数据不能直接获取,需要使用到正则提取url

换个方法,试试搜索图片地址:

https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg

发现有三个地方
在这里插入图片描述
第一处是在header中

<link rel="preload" href="https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&amp;rf=LaDigue_1920x1080.jpg&amp;qlt=50" as="image" id="preloadBg" />

第二处在类名为img_cont 的标签中

<div class="img_cont" style="background-image: url(https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&amp;rf=LaDigue_1920x1080.jpg); opacity: 1;">

第三处在js代码中

"Image":{"Url":"https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg\u0026rf=LaDigue_1920x1080.jpg",

代码实现

通过以上分析,我们可以发现,通过id="preloadBg"的元素获取比较方便

此处需要加一个请求头,避免获取不到正常的网页源代码

安装依赖

$ python --version
Python 3.6.5

$ pip install parsel requests

代码示例

python"># -*- coding: utf-8 -*-
"""
@File    : demo.py
@Date    : 2022-10-26
@Author  : Peng Shiyu
"""

import parsel
import requests


def get_bing_image():
    url = 'https://cn.bing.com'

    headers = {
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
    }

    res = requests.get(url, headers=headers)
    res.encoding = res.apparent_encoding

    sel = parsel.Selector(res.text, base_url=url)

    return sel.css('#preloadBg::attr(href)').extract_first()


if __name__ == '__main__':
    image_url = get_bing_image()
    print(image_url)
#     https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg&qlt=50

进一步

我们发现,图片还有一些介绍信息,我们看看能不能拿到

在这里插入图片描述
再次查看源码,我们可以发现,网页中有一个js的变量,包含了页面中壁纸的信息

// 截取部分代码
var _model ={"Headline":"山上的幽灵","Title":"巴尔干中央国家公园的布罗肯现象,保加利亚"}

我们可以通过re正则表达式解析这个json字符串,获取更多的数据

python"># -*- coding: utf-8 -*-
"""
@File    : demo.py
@Date    : 2022-10-26
@Author  : Peng Shiyu
"""
import json
import re

import requests


def get_bing_image():
    url = 'https://cn.bing.com'

    headers = {
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
    }

    res = requests.get(url, headers=headers)
    res.encoding = res.apparent_encoding

    ret = re.search("var _model =(\{.*?\});", res.text)
    if not ret:
        return

    data = json.loads(ret.group(1))
    image_content = data['MediaContents'][0]['ImageContent']

    return {
        'headline': image_content['Headline'],
        'title': image_content['Title'],
        'description': image_content['Description'],
        'image_url': image_content['Image']['Url'],
        'main_text': image_content['QuickFact']['MainText']
    }


if __name__ == '__main__':
    res = get_bing_image()
    print(json.dumps(res, ensure_ascii=False, indent=2))

输出

{
  "headline": "山上的幽灵",
  "title": "巴尔干中央国家公园的布罗肯现象,保加利亚",
  "description": "万圣节快到了,今天的照片也非常应景,展示了一只“幽灵”,也就是布罗肯现象。尽管看着灵异,但布罗肯现象并非超自然现象。这是一位观察者被投射在阳光对面云层上的阴影。布罗肯现象很少见,但如果你在黎明时分爬上薄雾弥漫的山坡,则有可能幸运地目睹这种现象。只要满足条件,布罗肯现象可以出现在任何地方。在德国哈尔茨山脉的布罗肯峰,当地传说浓雾弥漫的山间有幽灵出没。1780年,约翰·西尔伯施拉格在此观察到了“幽灵”,对其进行了描述记录,并将其命名为“布罗肯现象”。此后,布罗肯现象便常常被记录在有关该地区的文献之中。",
  "image_url": "https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg",
  "main_text": "布罗肯现象出现在日出与日落时的高山上,当前面弥漫着雾气时,太阳光将人的背影衍射在雾气上,浮现出彩虹轮廓。"
}

接口获取

接口地址:https://cn.bing.com/HPImageArchive.aspx?format=js&idx=0&n=1&mkt=zh-CN
参数

参数含义
format返回数据形式 js - json xml - xml
idx截止天数 0-今天 -1 - 截止至明天 1 截止至昨天
n返回数量
mkt地区 zh-CN - 国区

接口来源 Python - 定时自动获取 Bing 首页壁纸

其他资源

有小伙伴已经做了必应壁纸图片网站

https://bing.ioliu.cn/

https://www.todaybing.com/

https://www.bingimg.cn/

https://mouday.github.io/wallpaper/


http://www.niftyadmin.cn/n/1385.html

相关文章

【Vue】插件的定义和使用

‍之前我们学习过 mixin 混入&#xff0c;‍‍通过混入能够对一些代码逻辑做一些封装&#xff0c;‍‍ 实际上我们如果使用plugin插件的这种功能&#xff0c;可以对代码做更好的封装&#xff0c;‍‍ 今天学习在 Vue 里面如何来编写一个插件。‍‍ 我们常见的比如说轮播的效果…

从零开始 Spring Boot 25:MyBatis II

从零开始 Spring Boot 25&#xff1a;MyBatis II 图源&#xff1a;简书 (jianshu.com) 在从零开始 Spring Boot 23&#xff1a;MyBatis - 红茶的个人站点 (icexmoon.cn)中我介绍了MyBatis的一些基本功能和用法&#xff0c;下文介绍遗漏的部分。 本文的示例代码都基于从零开始 …

C++ 基础入门 之 注释 ( // 和 /**/ )/变量 /常量 ( #define 和 const )/关键字/标识符(变量名)命名规则

C 基础入门 之 注释 ( // 和 /**/ )/变量 /常量 ( #define 和 const )/关键字/标识符(变量名)命名规则 目录 C 基础入门 之 注释 ( // 和 /**/ )/变量 /常量 ( #define 和 const )/关键字/标识符(变量名)命名规则 一、简单介绍 二、注释 ( // 和 /**/ ) 三、变量 (数据类型…

二分算法笔记

目录 什么是二分 举例 代码模型 例题 题目描述 输入格式 输出格式 AC代码&#xff1a; 什么是二分 假设一维数组 data 已经按升序排列&#xff0c;二分查找算法根据当前需要查找的区间[left&#xff0c;right]定义一个中间位置 middle&#xff1d;(left&#xff0b;ri…

基于simulink的超级电容,电池及DC motor充放电系统仿真

目录 一、理论基础 二、核心程序 三、测试结果 作者ID &#xff1a;fpga和matlab CSDN主页&#xff1a;https://blog.csdn.net/ccsss22?typeblog 擅长技术&#xff1a; 1.无线基带,无线图传,编解码 2.机器视觉,图像处理,三维重建 3.人工智能,深度学习 4.智能控制,智能优…

关于蓝桥杯单片机组自学的经验分享

这篇文章主题如标题所示。先说一下经验分享&#xff0c;文章末再写一些碎碎念。 蓝桥杯单片机组 客观题 程序设计题 数模电 C语言 单片机。 先说第一个等式&#xff0c;是从考题结构看的&#xff0c;程序设计题只要好好练&#xff0c;基本都能实…

WebSocket实现简单聊天功能案例

简介 使用WebSocket实现的一个简单的聊天功能业务 使用了SpringBoot的ApplicationEvent事件监听用来与业务解耦一、Maven的引入 <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-webso…

【计算机网络考研面试】体系结构与参考模型参考模型

文章目录分层结构名词解析认识分层各层次报文组成小结&#x1f351;&#x1f338;&#x1f343;博主昵称&#xff1a;一拳必胜客 博主主页面链接&#xff1a;博主主页传送门 博主专栏页面连接&#xff1a;专栏传送门–计算机考研 &#x1f351;创作初心&#xff1a;本博客的初心…