自学Python第二十九天-feapder框架创建爬虫

news/2024/7/19 11:05:30 标签: python, 爬虫, feapder

自学Python第二十九天-feapder框架创建爬虫

  • 安装
  • `feapder` 的设计架构
  • `feapder` 框架的简单使用
    • 简单创建爬虫
    • 简单爬取数据
    • 简单的数据保存
  • 中间件
  • 校验
  • 浏览器渲染
    • 使用浏览器渲染获取接口数据
  • `feapder` 项目

feapder是一款上手简单,功能强大的 Python爬虫框架,内置 AirSpiderSpiderTaskSpiderBatchSpider四种爬虫解决不同场景的需求。支持断点续爬、监控报警、浏览器渲染、海量数据去重等功能。更有功能强大的爬虫管理系统 feaplat为其提供方便的部署及调度。

feapder 设计思路类似于 scrapy,不过它是国人开发的框架工具,官方文档是中文的,查询比较方便,使用门槛比较低。

官方文档

安装

feapder 需要 python 3.6 以上,且需要依赖特定版的 selenium 等依赖包,所以最好创建单独虚拟环境。另外它有三个版本,区别在于:

  • 精简版:不支持浏览器渲染、不支持基于内存去重、不支持入库mongo
pip install feapder
  • 浏览器渲染版:不支持基于内存去重、不支持入库mongo
pip install "feapder[render]"
  • 完整版:支持所有功能(常用选择)
pip install "feapder[all]"

安装完成后,可以在控制台执行查看是否安装成功

feapder

此时有可能会提示警告:

NotOpenSSLWarning: urllib3 v2 only supports OpenSSL 1.1.1+, currently the 'ssl' module is compiled with 'LibreSSL 2.8.3'

这是因为 feapder 建议使用 urllib3 v1 版本。所以最好降级一下

pip install urllib3=1.26.18

feapder__33">feapder 的设计架构

在这里插入图片描述

模块名称模块功能
spider框架调度核心
parser_control模版控制器负责调度parser
collector任务收集器负责从任务队里中批量取任务到内存,以减少爬虫对任务队列数据库的访问频率及并发量
parser数据解析器
start_request初始任务下发函数
item_buffer数据缓冲队列批量将数据存储到数据库中
request_buffer请求任务缓冲队列批量将请求任务存储到任务队列中
request数据下载器封装了requests,用于从互联网上下载数据
response请求响应封装了response, 支持xpathcssre等解析方式,自动处理中文乱码

feapder 的执行流程为

  1. spider调度 start_request 生产任务
  2. start_request 下发任务到request_buffer
  3. spider调度 request_buffer 批量将任务存储到任务队列数据库中
  4. spider调度 collector 从任务队列中批量获取任务到内存队列
  5. spider调度 parser_controlcollector的内存队列中获取任务
  6. parser_control 调度 request 请求数据
  7. request 请求与下载数据
  8. request将下载后的数据给 response ,进一步封装
  9. 将封装好的 response 返回给 parser_control (图示为多个parser_control,表示多线程)
  10. parser_control调度对应的 parser ,解析返回的response(图示多组parser表示不同的网站解析器)
  11. parser_controlparser解析到的数据item及新产生的request分发到 item_bufferrequest_buffer
  12. spider调度 item_bufferrequest_buffer 将数据批量入库

feapder__64">feapder 框架的简单使用

简单创建爬虫

首先创建爬虫,以豆瓣为例:

feapder create -s douban

执行命令后需要手动选择对应的爬虫模板,模板功能如下:

  • AirSpider 轻量爬虫:学习成本低,可快速上手
  • Spider 分布式爬虫:支持断点续爬、爬虫报警、数据自动入库等功能
  • TaskSpider分布式爬虫:内部封装了取种子任务的逻辑,内置支持从redis或者mysql获取任务,也可通过自定义实现从其他来源获取任务
  • BatchSpider 批次爬虫:可周期性的采集数据,自动将数据按照指定的采集周期划分。(如每7天全量更新一次商品销量的需求)

命令执行成功后选择AirSpider模板。默认生成的代码继承了feapder.AirSpider,包含 start_requestsparser 两个函数,含义如下:

  1. feapder.AirSpider:轻量爬虫基类
  2. start_requests:初始任务下发入口
  3. feapder.Request:基于requests库类似,表示一个请求,支持requests所有参数,同时也可携带些自定义的参数,详情可参考Request
  4. parse:数据解析函数
  5. response:请求响应的返回体,支持xpathrecss等解析方式,详情可参考Response

除了start_requestsparser两个函数。系统还内置了下载中间件等函数,具体支持可参考BaseParser

简单爬取数据

feapder 创建了一个默认示例,是可以直接执行的,并且类似于请求头之类的也是默认设置过的(随机)。feapder 的实际使用方法和 scrapy 很类似。不过 feapder 传递数据更加方便。

import feapder


class Douban(feapder.AirSpider):
    def start_requests(self):
        for page in range(10):
            yield feapder.Request(f"https://movie.douban.com/top250?start={page * 25}&filter=")

    def parse(self, request, response):
        li_list = response.xpath('//ol/li/div[@class="item"]')
        for li in li_list:
            item = dict()
            item['title'] = li.xpath('./div[@class="info"]/div/a/span[1]/text()').extract_first()
            item['detail_url'] = li.xpath('./div[@class="info"]/div/a/@href').extract_first()
            item['score'] = li.xpath('.//div[@class="star"]/span[2]/text()').extract_first()
            # 可以将自定义变量添加到 request 中,例如 item
            yield feapder.Request(item['detail_url'], callback=self.parse_detail, item=item)

    def parse_detail(self, request, response):
        if response.xpath('//div[@class="indent"]/span[@class="all hidden"]//text()'):
            request.item['detail_text'] = response.xpath(
                '//div[@class="indent"]/span[@class="all hidden"]//text()').extract_first().strip()
        else:
            request.item['detail_text'] = response.xpath(
                '//div[@class="indent"]/span[1]//text()').extract_first().strip()
        print(request.item)


if __name__ == "__main__":
    # 开启五个线程完成爬虫任务
    Douban(thread_count=5).start()

简单的数据保存

feapder 封装好了多种支持的数据库保存方式,只需要设置一下就可以直接保存使用,而不需要手写数据保存逻辑,注意数据库中的表和字段等需要提前创建。

数据库中创建表:

from feapder.db.mysqldb import MysqlDB

db = MysqlDB(ip='localhost', port=3306, user_name='root', user_pass='root', db='py_spider')
sql = """
    create table if not exists douban_feapder(
        id int primary key auto_increment,
        title varchar(255) not null,
        score varchar(255) not null,
        detail_url varchar(255) not null,
        detail_text text
    );
"""
db.execute(sql)

# insert ignore: 数据插入,如果数据重复则忽略,例如id重复
insert_sql = """
    insert ignore into douban_feapder (id, title, score, detail_url, detail_text) values (
        0, '测试数据', 10, 'https://www.baidu.com', '测试数据'
    );
"""
db.add(insert_sql)

创建全局设置文件:

feapder create --setting

然后在 settings.py 文件中配置数据库,例如 mysql:

# MYSQL
MYSQL_IP = "localhost"
MYSQL_PORT = 3306
MYSQL_DB = "py_spider"
MYSQL_USER_NAME = "root"
MYSQL_USER_PASS = "root"

或者在爬虫中自定义局部配置

import feapder

class Douban(feapder.AirSpider):
	__custom_setting__ = dict(
		MYSQL_IP="localhost",
		MYSQL_PORT= 3306,
		MYSQL_DB="py_spider",
		MYSQL_USER_NAME="root",
		MYSQL_USER_PASS="root",
	)

然后创建 item 文件,item 的字段名是根据数据库的字段名自动生成的

# 在创建items文件之前必须确保文件名与数据库已存在的表名一致
feapder create -i douban_feapder

最后,在爬虫中,将字典类型替换为 item 类型用于数据校验,并直接 yield 此类型的数据,就可以自动入库了。

import feapder
from douban_feapder_item import DoubanFeapderItem

class Douban(feapder.AirSpider):
    def start_requests(self):
        for page in range(11):
            yield feapder.Request(f"https://movie.douban.com/top250?start={page * 25}&filter=")

    def parse(self, request, response):
        li_list = response.xpath('//ol/li/div[@class="item"]')
        for li in li_list:
            # 将字典类型替换成DoubanFeapderItem用于数据校验
            item = DoubanFeapderItem()
            item['title'] = li.xpath('./div[@class="info"]/div/a/span[1]/text()').extract_first()
            item['detail_url'] = li.xpath('./div[@class="info"]/div/a/@href').extract_first()
            item['score'] = li.xpath('.//div[@class="star"]/span[2]/text()').extract_first()
            yield feapder.Request(item['detail_url'], callback=self.parse_detail, item=item)

    def parse_detail(self, request, response):
        if response.xpath('//div[@class="indent"]/span[@class="all hidden"]//text()'):
            request.item['detail_text'] = response.xpath(
                '//div[@class="indent"]/span[@class="all hidden"]//text()').extract_first().strip()
        else:
            request.item['detail_text'] = response.xpath(
                '//div[@class="indent"]/span[1]//text()').extract_first().strip()

        # 执行yield会将解析好的数据保存到数据库中
        yield request.item

if __name__ == "__main__":
    Douban().start()

中间件

feapder 中间件只有下载中间件,没有爬虫中间件。并且中间件只是类的一个方法而已,不需要另写一个 py 文件。默认的中间件是 download_midware() 方法,除了可以重写此方法外,还可以自定义下载中间件:使用 Request 对象的 download_midware 参数指定自建创建的中间件方法名

import feapder

class Douban(feapder.AirSpider):
    def start_requests(self):
        for page in range(11):
            yield feapder.Request(f"https://movie.douban.com/top250?start={page * 25}&filter=",
            						download_midware=self.custom_download_midware)

    # 默认的下载中间件
    def download_midware(self, request):
        request.headers = {
            'User-Agent': 'abc'
        }
        request.proxies = {
            "http": "http://127.0.0.1:7890"
        }
        return request
    
    # 自定义下载中间件
    def custom_download_midware(self, request):
        request.headers = {
            'User-Agent': '123'
        }
        return request

if __name__ == "__main__":
    Douban().start()

需要注意的是,不同于 scrapy 每个请求或响应都会经过所有的中间件处理,feapder 的请求 (feapder 的中间件不处理响应) 只使用一个中间件进行处理。

校验

由于 feapder 的中间件不处理响应对象,所以 feapder 专门有个处理响应的方法,就是 validate() (校验) 方法。此方法用来检验返回的数据是否正常,可以通过 request.callback_name 来区分不同的回调解析函数,编写不同的校验逻辑。

另外当返回值为 TrueNone 时,进入解析函数;当返回值为 False 时,抛弃响应;当抛出异常时,重试请求(默认最大重试次数100次,也可以引入配置文件或自定义配置进行修改)。另外如果解析函数抛出异常也会进行重试。

class Douban(feapder.AirSpider):
	def start_requests(self):
		pass

	def parse(self, request, response):
		pass

	def validate(self, request, response):
		print('响应状态码:' response.status_code)
		if response.status_code != 200:
			raise Exception('状态码异常')		# 请求重试

if __name__ == "__main__":
    Douban().start()

浏览器渲染

feapder 框架包含了浏览器渲染功能,使用 selenium 渲染动态页面,获取渲染后的页面数据。框架内置一个浏览器渲染池,默认的池大小为1,请求时重复利用浏览器实例,只有当代理失效请求异常时,才会销毁、创建一个新的浏览器实例。

使用时,在 start_requests() 方法中,yieldfeapder.Request 对象的参数中添加 render=True 即可。如需要也可以自定义浏览器渲染配置:

# 在setting.py中有以下代码配置

# 浏览器渲染
WEBDRIVER = dict(
    pool_size=1,  # 浏览器的数量
    load_images=True,  # 是否加载图片
    user_agent=None,  # 字符串 或 无参函数,返回值为user_agent
    proxy=None,  # xxx.xxx.xxx.xxx:xxxx 或 无参函数,返回值为代理地址
    headless=False,  # 是否为无头浏览器
    driver_type="CHROME",  # CHROME、EDGE、PHANTOMJS、FIREFOX
    timeout=30,  # 请求超时时间
    window_size=(1024, 800),  # 窗口大小
    executable_path=None,  # 浏览器路径,默认为默认路径
    render_time=0,  # 渲染时长,即打开网页等待指定时间后再获取源码
    custom_argument=[
        "--ignore-certificate-errors",
        "--disable-blink-features=AutomationControlled",
    ],  # 自定义浏览器渲染参数
    xhr_url_regexes=None,  # 拦截xhr接口,支持正则,数组类型
    auto_install_driver=True,  # 自动下载浏览器驱动 支持chrome 和 firefox
    download_path=None,  # 下载文件的路径
    use_stealth_js=False,  # 使用stealth.min.js隐藏浏览器特征
)

可以在解析函数中,使用 selenium 来进行交互和获取数据

import feapder
from selenium.webdriver.common.by import By
from feapder.utils.webdriver import WebDriver


class Baidu(feapder.AirSpider):
    def start_requests(self):
        yield feapder.Request("https://www.baidu.com", render=True)

    def parse(self, request, response):
        browser: WebDriver = response.browser		# 指定 browser 的类型
        browser.find_element(By.ID, 'kw').send_keys('feapder')
        browser.find_element(By.ID, 'su').click()


if __name__ == "__main__":
    Baidu().start()

使用浏览器渲染获取接口数据

浏览器打开页面后,可能会通过访问接口获取需要渲染的数据。 feapder 可以直接获取接口数据(因为渲染后可能数据会有变化或编码、加密等)

首先在 setting.py 写入接口的正则,以便拦截动态接口数据

WEBDRIVER = dict(
	...
	xhr_url_regexes=[
		'/ad',
		'接口1正则',
		'接口2正则',
	]
)

这样只要接口符合正则,就会被拦截到。然后可以提取数据

browser: WebDriver = response.browser
# 提取文本
text = browser.xhr_text("接口1正则")
# 提取json
data = browser.xhr_json("接口2正则")
# 获取响应对象
xhr_response = browser.xhr_response('/ad')
print("请求接口", xhr_response.request.url)
print("请求头", xhr_response.request.headers)
print("请求体", xhr_response.request.data)
print("返回头", xhr_response.headers)
print("返回地址", xhr_response.url)
print("返回内容", xhr_response.content)

feapder__348">feapder 项目

feapder 可以生成一个项目,用于复杂的爬取需求

feapder create -p wp_shop

执行完成后,会创建 wp_shop 文件夹,其中的文件结构类似于 scrapy,包含:

  • items 目录: 主要用于存放数据结构信息
  • spiders 目录:主要用于存放爬虫文件
  • setting.py 文件:主要配置文件
  • main.py 文件:主要执行文件,用于批量启动、集中管理、定时任务等

创建完成项目后,再在各目录下创建爬虫文件、item 文件等。


http://www.niftyadmin.cn/n/5444863.html

相关文章

蓝桥杯复习之并查集

并查集是一种代码简短的,主要用于解决一些元素分组问题的数据结构。 它管理一系列不相交的集合,并支持两种操作: 合并(Union):把两个不相交的集合合并为一个集合。 查询(Find)&…

SpringBoot+Vue项目(后端项目搭建 + 添加家居)

文章目录 1.使用版本控制管理该项目1.创建远程仓库2.克隆到本地 2.后端项目环境搭建1.创建一个maven项目2.删除不必要的文件夹3.pom.xml文件引入依赖4.application.yml 配置数据源(注意,数据库名还没写)5.com/sun/furn/Application.java 编写…

如何使用Android平板公网访问本地Linux code-server

文章目录 1.ubuntu本地安装code-server2. 安装cpolar内网穿透3. 创建隧道映射本地端口4. 安卓平板测试访问5.固定域名公网地址6.结语 1.ubuntu本地安装code-server 准备一台虚拟机,Ubuntu或者centos都可以,这里以VMwhere ubuntu系统为例 下载code server服务,浏览器…

echarts图表自适应和其他问题

1.使用 eCharts 提供的 resize()方法,监听图表容器的大小并改变图表大小 // 监听 resize 事件 window.addEventListener("resize", function () {this.chart.resize(); }); 报错如下:Uncaught TypeError: Cannot read properties of undefine…

多线程(CAS, ABA问题, Runnable Callable)

CAS (Compare And Swap) 比较并交换, 可以理解成是 CPU 提供一种特殊指令, 该指令是原子的, 可以用其一定程度解决线程安全问题, 具体过程如下 假设内存中有原数据 V, 寄存器中有旧的预期值 A 和修改值 B 比较 V 与 B 的值是否相等如果相等, 则将 B 写入 V返回操作是否成功 上述…

【Linux C | 多线程编程】线程的基础知识

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

软件测试(相关概念)

1. 需求 1.1 什么是需求? 两部分需求,一部分是用户需求,一部分是软件需求 用户需求:可以简单理解为甲方提出的需求,如果没有甲方,那么就是终端用户使用产品时必须要完成 的任务。该需求一般比较简略。软件…

【MySQL】MySQL用户管理

文章目录 一、用户1.用户信息2.创建用户3.删除用户4.修改用户密码 二、数据库的权限1.给用户授权2.回收权限 一、用户 如果我们只能使用root用户,这样存在安全隐患。这时,就需要使用MySQL的用户管理。 1.用户信息 我们安装mysql之后,会自动…