爬虫项目(三)之java文章

爬虫项目(三)之java文章

private void setList(ModelAndView mav, String mavObject, String filePath) {
		List<String> list = _fileUtils.getFiles2(filePath);
		Collections.sort(list);
		List<LoveqVO> loveqVOList = new ArrayList<>();
		for (String s : list) {
			String name = s.substring(s.lastIndexOf("\\") + 1);
			String url = s.substring(s.indexOf("\\"));
			loveqVOList.add(new LoveqVO(name, url));
		}
		mav.addObject(mavObject, loveqVOList);
	}

需求:定时获取某网站的文章到本地以txt格式文件保存,页面展示txt里的内容。这样不用调用数据库,title作为txt的文件名称,文章内容,包含css等样式存储txt里面。这样就可以快速爬取各大网站的文章,机械硬盘一般为1T,大容量储存。每次获取前,可将txt文件全部删除再存储。
在这里插入图片描述

 //第一步:清空文件夹
 filesClean(filePath); 
 //第二步:下载网页
        Yss8Article page = _downloadPageUtils.downloadPage(url);
        //第三步:解析网页
        _processPageUtils.processzhiyinPage(page, title, pat);
        //第四步,存储网页
        _storePageUtils.storePageInfo(page, filePath);
        //第五步:解析完毕
        logger.info("url:" + url + "解析完毕!");
        //休息5秒,再爬取内容
        sleep(5000);

5大步实现爬虫项目,需要代码学习研究,请点击 http://47.98.237.162/detail/1/189


http://www.niftyadmin.cn/n/785334.html

相关文章

musicFm我最爱的电台

musicFm我最爱的电台经过不懈的努力&#xff0c;定位实现了两点间距离的计算&#xff0c;同时可实现无授权式精准定位其位置。在音乐方面&#xff0c;虽暂不能用Ai创作歌曲&#xff0c;但可实现电台自动播放&#xff0c;mp3歌曲作为电脑的闹钟等自动化操作。用蜻蜓fm为例&#…

IE与DOM的事件监听

IE 事件监听 标准DOM不支持 注意几点&#xff1a; window.onload attachEvent detachEvent 标准DOM监听,ie不支持 转载于:https://www.cnblogs.com/JamyWong/p/7637067.html

预处理、const、static与sizeof-#pragma pack的作用

1&#xff1a;有如下代码&#xff1a; #include <iostream.h> #pragma pack(1) struct test{char c;short s1;short s2;int i; };int mian() {cout<<sizeof(test)<<endl;return 0; } 代码第3行用#pragma pack将对其设为1.由于结构体test中的成员s1、s2和i的自…

人工智能之nlp

人工智能之nlp 最近&#xff0c;在写自媒体文章&#xff0c;词穷的我写不出一篇优秀的原创文章&#xff0c;对语言的能力掌控只有ctrl加c。 听别人说&#xff0c;人工智能可以自动写代码&#xff0c;那自动写文章也可以吧。写了2年博客的我还在坚持原创&#xff0c; 但是某些操…

末日搜索神器2.0发布

末日搜索神器2.0发布 什么是搜索引擎 搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从 互联网上搜集信息&#xff0c;在对信息进行组织和处理后&#xff0c;为用户提供检索服务&#xff0c;将 用户检索相关的信息展示给用户的系统。按照搜索引擎给出的优化…

realloc 使用详解(分析realloc invalid pointer、指针无效等错误)【转】

来源&#xff1a;http://www.cnblogs.com/ladd/archive/2012/06/30/2571420.htmlrealloc函数用来为ptr重新分配大小为size的一块内存&#xff0c;看似很简单&#xff0c;在使用过程中却会发生各种错误。函数形式为&#xff1a; void * realloc ( void * ptr, size_t new_size )…

末日搜索神器3.0发布

末日搜索神器3.0发布 想搜什么就搜什么&#xff0c;这是末日搜索的开发宗旨&#xff0c;初衷。 为了迎合自媒体的需求&#xff0c;我们增加了娱乐新闻的搜索&#xff0c;每天更新最新最快的娱乐八卦资讯。 同时解决乱码问题。 试想我们收集八卦信息&#xff0c;然后整合&…

Linux学习日志(一)

1 、Ubuntu 自带python 2 和 python 3的版本&#xff0c;切换方法如下&#xff1a; shell里执行&#xff1a; sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100 sudo update-alternatives --install /usr/bin/python python /usr/bin/python3 …