如何不写代码通过爬虫软件采集表格数据

        采集表格内容,包括列表形式的商品评论信息、正文中的表格等,凡是html代码采用<table>表单形式的表格,都可以不写代码,通过可视化的方式完成采集。

        首先,我们使用的工具是前嗅大数据的ForeSpider数据采集系统。在前嗅大数据官网下载免费版(www.forenose.com),免费版就可以满足我们抓取图片的需求。

        下载安装后,启动软件。根据如下步骤,即可抓取到图片或图片的地址了。


        在ForeSpider中,采集表格的功能称之为“多值”。多值用于存储表格的数据,将表格的不同列对应存入不同字段,表格的不同行分别存储为数据表的多条记录。本文以某表格为例。


【需要多值存储的表格】

(一)创建表单

        根据表格内容,创建一个存储表格数据的表单。在选项卡“表单”中,创建一个表单。


【多值的表结构】

        1.主键

        采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“文档主键”。

        表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)


【主键字段的配置】

        2.其他字段

        其他字段的变量类型选择“string”,取值类型选择“取所有子节点内容”。


【其他字段的配置】

(二)创建数据抽取

        创建数据抽取,为其选择表单“表格”。


【创建数据抽取和字段】

(三)识别多值

        点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。


【定位表格】

        点击“多值”,选区扩大到整个表格。点击“保存”。


【保存表格】

(四)字段取值

        主键字段不需要配置。存储表格内容的字段需要一一取值。

        点击数据抽取的字段,为其一一配置表格不同列的数据。点击“descript”,按Ctrl点击第一列的任意单元格,点击“保存”。


【配置descript字段】

        点击“Apache”,按Ctrl点击第二列的任意单元格,点击“保存”。


【配置Apache字段】

        其他字段同理。一一配置完成后,预览当前模板。表格被完整的采集下来。


【预览结果】



http://www.niftyadmin.cn/n/1191800.html

相关文章

遍历聚合对象中的元素——迭代器模式(三)

遍历聚合对象中的元素——迭代器模式&#xff08;三&#xff09; 3 完整解决方案 为了简化AbstractObjectList类的结构&#xff0c;并给不同的具体数据集合类提供不同的遍历方式&#xff0c;Sunny软件公司开发人员使用迭代器模式来重构AbstractObjectList类的设计&#xff0c;重…

pod的一些实用命令

使用CocoaPods来添加第三方类库&#xff0c;无论是执行pod install还是pod update都卡在了Analyzing dependencies不动 原因在于当执行以上两个命令的时候会升级CocoaPods的spec仓库&#xff0c;加一个参数可以省略这一步&#xff0c;然后速度就会提升不少。加参数的命令如下&a…

并发编程(十)—— Java 并发队列 BlockingQueue 实现之 SynchronousQueue源码分析

BlockingQueue 实现之 SynchronousQueue SynchronousQueue是一个没有数据缓冲的BlockingQueue&#xff0c;生产者线程对其的插入操作put必须等待消费者的移除操作take&#xff0c;反过来也一样。 不像ArrayBlockingQueue或LinkedListBlockingQueue&#xff0c;SynchronousQueue…

前嗅ForeSpider采集大众点评数据教程

我们想要从网上获取自己想要的数据&#xff0c;通常有几种常见的方式&#xff0c;方式一&#xff0c;手动复制粘贴&#xff0c;适合收集少量数据&#xff1b;二&#xff0c;自己编写爬虫脚本&#xff0c;获取自己想要得到的数据&#xff0c;能收集大量数据&#xff0c;但需要自…

遍历聚合对象中的元素——迭代器模式(二)

遍历聚合对象中的元素——迭代器模式&#xff08;二&#xff09; 2 迭代器模式概述 在软件开发中&#xff0c;我们经常需要使用聚合对象来存储一系列数据。聚合对象拥有两个职责&#xff1a;一是存储数据&#xff1b;二是遍历数据。从依赖性来看&#xff0c;前者是聚合对象的基…

TCP/IP学习笔记16--TCP--特点,数据重发,连接管理,段

TCP充分实现了数据传输时各种控制功能&#xff0c;可以进行丢包时的重发控制&#xff0c;还可以对次序乱掉的包进行顺序控制&#xff0c;这些在UDP中都是没有的。UDP是一种没有复杂控制&#xff0c;提供面向无连接通信服务的一种协议。TCP是面向有连接的通信协议&#xff0c;只…

robot API笔记3

robot.htmldata package 包编写HTML格式的输出文件。 这个包被认为是稳定的但不是公共API的一部分。 Submodules robot.htmldata.htmlfilewriter模块 classrobot.htmldata.htmlfilewriter.HtmlFileWriter(output, model_writer)Bases: object write(template)classrobot.htmlda…

遍历聚合对象中的元素——迭代器模式(一)

遍历聚合对象中的元素——迭代器模式&#xff08;一&#xff09; 20世纪80年代&#xff0c;那时我家有一台“古老的”电视机&#xff0c;牌子我忘了&#xff0c;只记得是台黑白电视机&#xff0c;没有遥控器&#xff0c;每次开关机或者换台都需要通过电视机上面的那些按钮来完成…