spiderflow的初步使用

news/2024/7/19 11:53:56 标签: 爬虫

1、简介

spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫

官网地址:https://www.spiderflow.org/

2、spiderflow的初步使用

2.1拉取,配置和启动

从gitee上拉取

执行db里面的sql

里面会有6张表

修改配置文件里面的数据库连接的账号密码和地址

修改配置文件里面的开启定时任务,设置为true时定时任务才生效

spider.job.enable=true

直接启动,访问端口号即可,启动成功

爬虫">2.2参照实例写一个爬虫

2.2.1爬取站点分析

https://www.piaohua.com/html/dongzuo/

这是一个电影网站

我想爬取的是电影名称,类别,产地等信息

首先查看网页源代码,看获取的信息是否能从网页中拿到,有的是js动态加载的不能直接获取

这种可以直接获取

然后试着分析页码,点不同页码的时候连接会发生变化,点第四页,数字就变成了4

然后确定要爬取的信息

2.2.2开始写爬虫

2.2.2.1新建爬虫

2.2.2.2配置爬虫url

在url中使用${}来放动态参数,类似jquery。(参考官网表达式语法--基本用法--动态拼接url)

2.2.2.3配置页码和拉取信息

三元运算符和java中的一样(参考官网表达式语法--三元运算符)

获取页面内容 获取页面中class='col-md-6'的所有内容(参考官网 函数说明--抽取函数--selectors)

2.2.2.4 遍历

上面的movieList是一个集合,遍历这个集合

参考官网(快速入门--循环节点),list.length是获取集合的长度,参考官网(函数说明--list--length)

2.2.2.5设置翻页条件

当页码<=10的时候继续爬取

流转条件:当表达式返回true时将流向下一个节点,否则不流转,不填时默认流转

参考官网(快速入门--连接线)

2.2.2.6 定义变量

2.2.2.7输出节点

2.2.2.8测试

点击左上角的测试即可看到输出内容

2.2.2.9输出到数据库

1.在输出节点选中输出到数据库

2.添加数据源

3.输出字段和数据库字段保持一致即可


http://www.niftyadmin.cn/n/414172.html

相关文章

【C++初学者需要掌握的知识点】

安装和配置C开发环境 安装和配置C开发环境的方法因操作系统和IDE而异&#xff0c;一般包括以下步骤&#xff1a; 下载和安装C编译器下载和安装集成开发环境&#xff08;IDE&#xff09;&#xff0c;如CodeBlocks、Visual Studio等设置编译器和IDE的环境变量创建和配置项目&am…

MCP1501基准电源系列输出电容为什么不能超过300P

1 介绍 在我们通常理解中基准的输出电容需要在100nF以上&#xff0c;才能有较好的性能输出&#xff0c;为什么MCP1501系列官方推荐输出负载电容不能超过300P呢 2 原理分析 如下是MCP1501手册中标注的&#xff0c;最大负载电容不能超过300pF&#xff0c;超过300pF容易振荡 MC…

MINIX 已死,Linux 又将如何呢?

导读MINIX 操作系统大约的确已经死了。Minix 原来是荷兰阿姆斯特丹的 Vrije 大学计算机科学系的 Andrew S. Tanenbaum 教授所开发的一个类 Unix 操作系统&#xff0c;全部代码共约 12,000 行&#xff0c;起初是为给学生讲解操作系统的运作细节而开发。 Linus Torvalds 也曾表示…

chatgpt赋能python:Python中Input函数的使用方法

Python中Input函数的使用方法 Python中的input()函数是一个内置函数&#xff0c;它可以用来从用户那里获取输入。它可以在编写Python程序时&#xff0c;和常量和变量一起使用。在本文中&#xff0c;我们将介绍Python中input()函数的使用方法。 什么是Input函数&#xff1f; …

一文简介Spring的IOC和AOP

1、IOC 概念&#xff1a;所谓控制反转&#xff0c;就是把原先我们代码里面需要实现的对象创建、依赖的代码&#xff0c;反转给容器来帮忙实现。当应用了IoC&#xff0c;一个对象依赖的其它对象会通过被动的方式传递进来&#xff0c;而不是这个对象自己创建或者查找依赖对象。 …

rust疑难进阶手册(2)-类型,打印输出(2)

目录 类型转换浮点字面值字符类型数组元组 类型转换 使用as [maisipu192 src]$ cargo runCompiling learnrust v0.1.0 (/home/maisipu/learn/learnrust)Finished dev [unoptimized debuginfo] target(s) in 0.57sRunning /home/maisipu/learn/learnrust/target/debug/learnr…

linux运维故障案例 网站迁移实战

实战训练课程大纲&#xff1a; 01&#xff1a;实战网站替换图片演练 02&#xff1a;网站迁移实战演练 03&#xff1a;数据库迁移实战演练 04&#xff1a;数据备份到存储实战 05&#xff1a;集群和负载均衡讲解 06&#xff1a;手动负载均衡实战演练 07:3台web使用一个数据…

【Spring框架】初识Spirng

目录 Spring是什么&#xff1f;什么是容器&#xff1f;什么是IoC&#xff1f;传统开发ioc 开发(控制反转式程序开发) DI(依赖注入) Spring是什么&#xff1f; Spring指的是Spring Framework(Spring框架)&#xff0c;它是一个开源框架&#xff0c;有着活跃而庞大的社区&#xf…