企业数据爬虫项目

爬虫>企业数据爬虫项目(艳辉VIP项目)

    • 第一天:下载解析网站页面

第一天:下载解析网站页面

以爬取某电影网上的电影信息为例,通过xpath,regex获取网页上的字段。通过三大sevice,下载网页service,解析网页service和数据存储service,全面爬取网站上的信息。
在这里插入图片描述
爬虫开始——>下载网页——>解析网页——>存数数据
三步走,分成三大service,例如存数数据,可以用jdbcService,也可以用hbaseService,这样方便扩展业务。

/**
	 * 开启一个爬虫入口
	 */
	public void startSpider(){
		while(true){
			//从队列中提取需要解析的url
			String url = urlQueue.poll();
			//判断url是否为空
			if(StringUtils.isNotBlank(url)){
				//下载
				Page page = this.downloadPage(url);
				//解析
				this.processPage(page);
				List<String> urlList = page.getUrlList();
				for(String eachurl : urlList){
					this.urlQueue.add(eachurl);
				}
				
				//if(page.getUrl().startsWith("http://list.youku.com/show_page")){
					//存储数据
					this.storePageInfo(page);
				//}
				
			}else{
				System.out.println("url解析完毕!");
			}
			try {
				Thread.sleep(2000);
			} catch (InterruptedException e) {
				e.printStackTrace();
			}
		}
	}

先爬取电影的标题,电影访问的次数,评论的人数,电影豆瓣的评分等信息。

 String seeNum = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("seeXpath"),
				LoadPropertyUtil.getYOUKU("seeRegex"));
		page.setSeeNum(seeNum);

		// 获取评论数
		String commentNum = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("commentXpath"),
				LoadPropertyUtil.getYOUKU("commentRegex"));
		page.setCommentNum(commentNum);

		// 获取豆瓣评分
		String score = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("scoreXpath"),
				LoadPropertyUtil.getYOUKU("scoreRegex"));
		page.setScore(score);
		String title = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("titleXpath"),
				LoadPropertyUtil.getYOUKU("titleRegex"));
		page.setTitle(title);

需要下载源码可点击 艳学网

下载源码后,记住分享哟!

第一步:微信关注公众号艳学网!

第二步:关注后打开菜单“艳辉福利”——“java福利”,转发文章至朋友圈。

长按自动识别二维码,即可关注微信公众号“艳学网”
在这里插入图片描述


http://www.niftyadmin.cn/n/785356.html

相关文章

【Python】简单实现爬取小说《天龙八部》,并在页面本地访问

背景 很多人说学习爬虫是提升自己的一个非常好的方法&#xff0c;所以有了第一次使用爬虫&#xff0c;水平有限&#xff0c;依葫芦画瓢&#xff0c;主要作为学习的记录。 思路 使用python的requests模块获取页面信息通过re模块&#xff08;正则表达式&#xff09;取出需要的内容…

企业数据爬虫项目(二)

企业数据爬虫项目&#xff08;艳辉VIP项目&#xff09;第一天&#xff1a;下载解析网站页面第二天&#xff1a;多线程定时启动爬虫第一天&#xff1a;下载解析网站页面 第二天&#xff1a;多线程定时启动爬虫 一个爬虫项目&#xff0c;会涉及到数据存储&#xff0c;Queue队列…

关于ckeditor 之 上传功能

度了很多文章&#xff0c;看了很多关于ckeditor配置上传功能的文章&#xff0c;没一个写得清楚的&#xff0c; 就是简单的根目录下.config.js 增加 config.filebrowserUploadUrl"/admin/film/ckeditorUpload"; //文件浏览上传地址然后就是 \plugins\image\dialogs 的…

一起艳学dubbo

一起艳学dubbo 想学习分布式&#xff0c;就从dubbo学起&#xff0c;不要问为什么&#xff0c;因为阿里曾经开源并使用过dubbo。学dubbo&#xff0c;也要从zookeeper学起&#xff0c;动物园的世界你要了解&#xff0c;食物链有金字塔&#xff0c;就有攻击者和被攻击者&#xff0…

Python 函数之装饰器

1、函数 #### 第一波 #### def foo():print foofoo #表示是函数 foo() #表示执行foo函数#### 第二波 #### def foo():print foofoo lambda x: x 1foo() # 执行下面的lambda表达式&#xff0c;而不再是原来的foo函数&#xff0c;因为函数 foo 被重新定义了2、需求 初创…

SSM(spring mvc+spring+mybatis)学习路径——1-1、spring入门篇

目录 1-1 Spring入门篇专题一、IOC接口及面向接口编程什么是IOCSpring的Bean配置Bean的初始化Spring的常用注入方式专题二、BeanBean配置项Bean的作用域Bean的生命周期AwareBean的自动装配(Autowiring)ResourcesBean管理的注解实现及例子专题三、AOP什么是AOP切面AOP实现方式AO…

java将多张图片合成视频

java将多张图片合成视频 需求 近几天&#xff0c;无聊就看看抖音&#xff0c;视频信息传播信息&#xff0c;相亲去抖音&#xff0c;网红去抖音&#xff0c;秀恩爱去抖音。。。走在大街上&#xff0c;几个小妹妹拿着手机自拍干是玩抖音还是直播呢&#xff1f;每个人都想当导演…

MySQL InnoDB Update和Crash Recovery流程

MySQL InnoDB Update和Crash Recovery流程 概要信息首先介绍了Redo&#xff0c;Undo&#xff0c;Log Sequence Number (LSN)&#xff0c;Checkpoint&#xff0c;Rollback Pointer (ROLL_PTR)&#xff0c;Transaction ID (TRX_ID)&#xff0c;Transaction Serialization Number(…