java语言实现的WEB爬虫平台

news/2024/7/19 10:35:01 标签: java, 爬虫, 大数据

概 述

爬虫平台
一个java语言实现的WEB爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫

主要功能

功能特性
1、支持css选择器、正则提取
2、支持JSON/XML格式
3、支持Xpath/JsonPath提取
4、支持多数据源、SQL select/insert/update/delete
5、支持爬取JS动态渲染的页面
6、支持代理
7、支持二进制格式
8、支持保存/读取文件(csv、xls、jpg等)
9、常用字符串、日期、文件、加解密、随机等函数
10、支持流程嵌套
11、支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等)
12、支持HTTP接口

安装部署

一、准备环境

1、安装JDK
2、安装MYSQl数据库服务器,建议使用5.7版本
3、安装maven3.0服务

二、运行项目

1、前往码云下载页面(https://gitee.com/jmxd/spider-flow)下载解压到工作目录
2、设置Eclipse仓库,菜单Window->Preferences->Maven->User Settings->User Settings 后边的Browse,然后导入自己的Maven目录的conf目录下的settings.xml文件,然后点Apply,在点OK
3、导入到Eclipse,菜单file->Import,然后选择Maven->Existing Maven Projects,点击Next>按钮,选择工作目录,然后点击Finish按钮,即可导入成功
4、导入数据库,基础表:spider-flow/db/spiderflow.sql
5、打开并运行org.spiderflow.SpiderApplication.java
6、打开浏览器,输入(http://localhost:8088/)

三、引入插件

1、首先把需要的插件下载到本地并导入到工作空间或安装到maven库
2、在spider-flow/spider-flow-web/pom.xml中引入插件

读者福利

感谢你看到了这里!
我这边整理很多2021最新Java面试题(含答案)和Java学习笔记,如下图
在这里插入图片描述

上述的面试题答案小编都整理成文档笔记。 同时也还整理了一些面试资料&最新2021收集的一些大厂的面试真题(都整理成文档,小部分截图)免费分享给大家,有需要的可以 点击进入暗号:CSDN!免费分享~

如果喜欢本篇文章,欢迎转发、点赞。

记得关注我!


http://www.niftyadmin.cn/n/1577893.html

相关文章

【面试必备】小伙伴栽在了JVM的内存分配策略。。。

周末有小伙伴留言说上周面试时被问到内存分配策略的问题,但回答的不够理想,小伙伴说之前看过这一块的文章的,当时看时很清楚,也知道各个策略是干嘛的,但面试时脑子里清楚,心里很明白,但嘴里就是…

freemarker里的分页--ftl文件的传值

在上一篇《freemarker里的分页--ftl文件》中我们讨论了分页的逻辑,在这一篇文章中,我们開始看一下怎样进行ftl的传值或许你在上一篇文章中已经发现了端倪。是的,不错,我们须要一个类 package com.yunlu.leagueofitlovers.system.u…

RabbitMQ(8)-集群架构知识的补充以及java实现

2019独角兽企业重金招聘Python工程师标准>>> 由于RabbitMQ集群对延迟非常敏感,所以只适合在本地局域网内使用 一.知识补充 1.设计目标: 允许生产者和消费者在RabbitMQ节点崩溃的情况下继续运行; 通过添加更多的节点来线性扩展消息…

面试中会遇到的 12 个 Java 冷知识,你懂多少?

通常,在面试中,会遇到面试官提一些比较“偏冷”的基础知识,比如基本数据类型所占用的字节数,或者Unicode和UTF-8的区别之类的问题,这时很多应聘者会答错。还有在平常编码的过程中,很多时候会用到除法计算&a…

Java架构师必看 | 应用架构设计原则

软件系统架构设计原则就是把我们在各种场景下的架构设计进行抽选化提取公共特征形成过一定的方法论,这些方法论是经过严格推敲并具备移植性的,我们在设计系统时遵从这些设计规则可以为我们的体统提供更高的扩展性、稳定性。 抽象原则 各平台(含基础设施…

jquery easyui easyui-treegrid 使用异步加载数据

jquery easyui easyui-treegrid 使用异步加载数据 jquery easyui easyui-treegrid 异步请求 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 2015年12月22日 11…

Java架构师职位常见面试题,看完面试不再慌!(未完待续...)

一、架构师的日常职责是什么 ? 总体而言,架构师负责软件领域的顶层设计。架构师需要根据公司的发展,规划企业未来若干年的架构,制定可落地的架构方案,解决技术难题,做技术选型与攻关,落地具体的…

【Linux高级驱动】linux设备驱动模型之平台设备驱动机制【转】

【1:引言: linux字符设备驱动的基本编程流程】 转自:http://www.cnblogs.com/lcw/p/3802579.html1.实现模块加载函数 a.申请主设备号 register_chrdev(major,name,file_operations); b.创建字符设备cdev,注册字符设备 cdev_alloc cdev_init cdev…