前嗅ForeSpider教程:采集图片/视频/资源文件

news/2024/7/19 12:38:04 标签: python, 爬虫

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

以图种网站的美食海报为例,采集“所有图片”图片:

第一步:新建任务

①点击左上角“加号”新建任务,如图1:

【图1】

②弹窗里填写采集地址,任务名称如图2:

【图2】

③点击下一步,选择进行数据抽取还是链接抽取,本次采集所有页面的图片,图片链接是通过点击图片列表链接进入的,所以本次需要抽取列表图片链接,所以点击抽取链接,如图3:

【图3】

第二步:选择链接类型

由于本次需要取到的是图片链接,图片链接不同于其他网页链接,所以需要特殊对待,在链接(网址)属性配置下面的“链接类型”中,选择“图片、视频等资源链接”。

【图4】

第三步:通过地址过滤,得到所需链接。

①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到列表链接。找到所需要的列表链接,观察得出所需要的目标链接都包含“.jpg”,如图5所示。

【图5】

②选地址过滤,过滤规则选择包含,填入“.jpg\e”,得到列表链接,如图6所示。

【图6】

③击采集预览确认链接是否过滤完全,如图7

【图7】

第四步:创建翻页链接抽取

方法一:创建任务,勾选链接抽取,直接选择链接列表和普通翻页,如图8

【图8】

方法二:如果创建任务时,只勾选了链接列表,可以点击上一步,回到模板层,补选翻页链接抽取,点击下一步,创建翻页链接

方法三:直接点击模板二,点击上面“新建链接抽取”按钮,得到链接抽取,如图9

【图9】

第五步:通过标题过滤,过滤翻页链接

①点击采集预览,我们可以发现,翻页链接即为名为上一页、下一页两条链接。对于翻页,只需要取到标题名为“下一页”的链接即可。

②里应用标题过滤,过滤规则选择“包含”,过滤串填写“下一页”即可。如图10

【图10】

③击采集预览查看是否过滤成功,如图11

【图11】

第六步:关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。

①联“链接列表”

根据网页跳转规律,将“链接列表”关联模板二“链接列表:02”,此处由于我们开始就选择了创建列表链接,所以软件自动关联好了模板二。如果配置的时候发现关联有问题,可以自己进行更改,如图12

【图12】

②关联“翻页”(对应第四步创建翻页链接抽取)

情况一:创建模板或通过向导,创建的翻页链接抽取,会默认关联模板一,即当前页模板。

情况二:手动点击按钮创建翻页链接抽取,需要手动关联,如图13。

【图13】

第七步:填写模板二示例地址并新建数据抽取

①模板一过滤得到的任意一条链接,作为模板二的示例地址,见图14:

【图14】

②新建数据抽取

方法一:通过点击“下一步”后勾选抽取数据,再次点击“下一步”得到数据抽取,如图15

方法二:直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图15

【图15】

第八步:创建/选择表单

在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的是昵图网的表单,如图16

方法一:通过下拉菜单或表单ID选择已有表单

【图16】

方法二:点击创建表单进入快速建表页面,新建表单

方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的如图17

【图17】

第九步:配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页标题和图片两个个字段,表单如图18

【图18】

第十步:字段取值

取值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。点击“确认选区”按钮,确认操作。

pic_image字段,如图19

【图19】

第十二步:采集预览

点击右上角采集预览,如图20

【图20】

转载于:https://my.oschina.net/forespider/blog/3002417


http://www.niftyadmin.cn/n/834345.html

相关文章

Java并发基础09. 多个线程间共享数据问题

先看一个多线程间共享数据的问题: 设计四个线程,其中两个线程每次对data增加1,另外两个线程每次对data减少1。 从问题来看,很明显涉及到了线程间通数据的共享,四个线程共享一个 data,共同操作一个 data。我…

外媒:危地马拉境内约2000名大篷车移民获联合国援助

中新网1月17日电 据俄罗斯卫星网报道,联合国难民事务高级专员办事处(UNHCR)发言人戴安娜迪亚兹表示,该办事处为约2000名危地马拉境内的大篷车移民提供帮助。资料图:当地时间2018年11月2日,美国得州Hidalgo,中美洲移民大…

javafx 图片作按钮_JavaFx自定义按钮的外观(JavaFx customize button's look)

JavaFx自定义按钮的外观(JavaFx customize buttons look)我将图像上传到我的按钮,但它看起来像这样: 按钮的形状不像图像,按钮颜色在边缘仍然可见。 有没有办法改变这个?I uploaded an image to my button, but it looks like thi…

中国研制成功人工智能探地雷达 可为地下空间做“体检”

1月16日,中国航天科工集团三院35所研制成功的“鹰眼-A”新型人工智能探地雷达,在该所进行产品展示。中新社记者 孙自法 摄该所依托军转民技术研制成功的“鹰眼-A”新型人工智能探地雷达,能够快速、全面、精准地“透视”城市地下多材质市政管线…

024、运行容器的最佳实践(2019-01-17 周四)

参考https://www.cnblogs.com/CloudMan6/p/6942370.html容器按照用途可以分为两大类:服务类和工具类服务类容器以daemon的形式运行,对外提供服务,比如web server,db等。这类容器启动时候使用 docker run -d 以后台方式运行&#…

mysql 事物状态有几种_面试问烂的 MySQL 四种隔离级别,看完吊打面试官!

阅读本文大概需要 5.6 分钟。来源:网络什么是事务事务是应用程序中一系列严密的操作,所有操作必须成功完成,否则在每个操作中所作的所有更改都会被撤消。也就是事务具有原子性,一个事务中的一系列的操作要么全部成功,要…

二十一、冒泡排序算法——JAVA实现(递归与非递归)

1、冒泡排序算法原理:  相邻两节点进行比较,大的向后移一个,经过第一轮两两比较和移动,最大的元素移动到了最后, 第二轮次大的位于倒数第二个,依次进行。2、代码实现:  若n表示数组长度,循环…

关闭 自带日志_这次我要用日志做些不一样的事……

对于技术人员来说,一个项目中打交道最多的事物里,日志绝对是其中之一。日志真的是让人又爱又恨,因为几乎每次都是日志在提醒你还有BUG需要改。每天提心吊胆地与代码“生死搏斗”,为的就是让日志告诉你:你成功了&#x…