ForeSpider数据采集系统脚本的几个小方法

news/2024/7/19 10:11:58 标签: 爬虫, 数据抓取, 图片抓取, 数据采集, 数据

ForeSpider数据采集>数据采集系统脚本的几个小方法

今天给大家介绍一下我平时使用前嗅forespider数据采集>数据采集系统配置模板的时候用到的几种方法,以前写过一个链接抽取的教程,今天就不给大家介绍了,没看过的用户可以关注一下我以前的文章,有很多有用的教程。

首先,大家看一下这是我准备采集数据的网页:

 

截图中三个圈起来的地方就是我要取的三个字段,然后分别取到下面每一行,一直到结束。

像这种多行的数据又不确定行数,我们就要使用循环,先取到最上面一行,然后往下循环。一直到结束。

 

 

上图是我写的数据抽取脚本,这个数据抽取一共有3个字段,名字分别为“word”“inde”“rank”,对应脚本中“re.***”,每一行的脚本上都有绿色的注释,

解释每一行的作用。

总结一下脚本中用到的几种方法:

① DOM.FindClass:HTML文档的操作方法,通过标签class属性值查找标签节点(还有能通过标签名称和ID属性值查找标签节点的方法,本文未使用)。

② DOM.GetTextAll:获取HTML标签节点及所有子节点的可见文本。

③ next:返回标签节点的后一节点。

④ if、while:常见的判断、循环语句。

*想了解更详细的使用方法清看软件文档。

采集示例网址:http://top.chinaz.com/Html/site_ali213.net.html

大家可以根据网页源码,软件帮助文档,对照着脚本看一下,理解每一行的意思。

也可以看一下往期的文章教程,有兴趣的朋友关注一下,经常会更新教程和有意思的东西,希望大家使用的一切顺利。

 


http://www.niftyadmin.cn/n/1191787.html

相关文章

干研发更喜欢无服务器,搞DevOps偏爱容器?

根据DevOps Pulse调查,2018年无服务器采用率从30.55%上升到42.58%。在采用者中,28.54%从事研发工作,44.26%从事DevOps、DevSecOps、SysAdmin或SRE工作。无服务器计算是当前的热门话题&#xff0…

MapReduce(一种编程语言)

MapReduce MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语…

原来快速提升孩子数学成绩的方法是这个

也许你有孩子正在上初中或者高中,也许你经常不惜重金请名师为你的孩子做课外辅导,也许你根本就请不到或者请不起名师为你的孩子做辅导,可是无论怎么样你的孩子的数学成绩始终不尽人意,(如果是这样请你耐心看下去&#…

ForeSpider数据采集系统关键词配置方法

很多人问forespider的关键词怎么配置,今天给大家出一个关键词配置的教程。 一般情况下是这样的:在采集地址处填上准备采集的网站地址,采集源类型选择“关键词搜索”。 然后进入“关键词搜索配置”页面,点击“获取参数”&#xff…

Access转换为 MS SQL 有什么要注意的地方

常在一些bbs上面看见有人在问Access转换为 MS SQL 有什么要注意的地方,或是编写存储过程,现在小弟在此写一些要注意的或者常用的语法给大家参考(部分为asp常用的函数) ----&#xff…

动态语言

Ruby:一种面向对象程序设计的脚本语言) JavaScript:(Javascript是一种由Netscape的LiveScript发展而来的原型化继承的面向对象的动态类型的区分大小写的客户端脚本语言,主要目的是为了解决服务器端语言,比如Perl&…

指针与const

指向常量的指针,不能用于改变其所指对象的值。 指针的类型必须与所指对象的类型一致,但是有两个例外,第一种是允许令一个指向常量的指针指向一个非常量对象: double dra1 3.14; const double *cptr &dra1;//正确&#xff0c…

前嗅ForeSpider数据采集系统表单字段属性设置方法

关于表单字段属性问题 常见的表单字段分为以下几种不同的类型,包括:网页主键、文字文本、网页地址、图片、采集时间、网页源码等。 网页主键是采集网页地址的MD5值,以标识数据的唯一性。 采集表格数据时,表格每一行都需要主键&a…