前嗅教你大数据:采集金融界论坛数据

news/2024/7/19 11:29:21 标签: 大数据, 爬虫

采集网站

【场景描述】采集金融界论坛数据。

【源网站介绍】金融界社区外汇论坛提供全面及时的外汇资讯及信息交流,时刻准确把握本外币信息及央行动态。

【使用工具】前嗅ForeSpider数据采集系统,免费下载:

http://www.forenose.com/view/forespider/view/download.html

采集网站

【入口网址】http://bbs.jrj.com.cn/905

【采集内容】

采集金融界论坛中的帖子信息。

【采集效果】如下图所示:

思路分析

配置思路概览:

配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

2.获取翻页链接

①选择链接抽取,采集预览,找到翻页链接,观察翻页链接中都包含【
http://bbs.jrj.com.cn/forex,】,使用地址抽取的方法,抽取地址中包含该规律的链接。如下图所示:

②关联模板,将翻页链接抽取,关联模板01。

3. 抽取帖子链接

①在模板1下新建一个数据抽取,具体操作如下所示:

②采集预览,观察帖子链接的规律,发现帖子链接中都包含【http://bbs.jrj.com.cn/msg】,使用地址抽取的方法,抽取地址中包含该规律的链接。如下图所示:

4. 抽取帖子数据

①新建模板02,在模板02下新建一个数据抽取,具体操作如下所示:

将模板01下的帖子链接抽取,关联模板02.

②数据建表,按照下图所示建数据表。(注意字段属性等应严格按照下图进行设置)

③将新建好的数据表,关联到模板中去,如下图所示:

④填写示例地址

采集预览,复制任意一条帖子链接,并填写在模板02的示例地址处:

⑤使用定位取值的方法抽取数据:

Title字段:

author字段:

Pubtime字段:

Num字段:

Text字段:

⑥采集预览

采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①建立数据表单:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【jinrong】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。

②开始采集

选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

③导出数据

④导出的文件打开如下图所示:

*本教程仅供教学使用,严禁用于商业用途!

前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!


http://www.niftyadmin.cn/n/1191387.html

相关文章

html5的cavans

canvas 元素用于在网页上绘制图形。 什么是 Canvas? HTML5 的 canvas 元素使用 JavaScript 在网页上绘制图像。 画布是一个矩形区域,您可以控制其每一像素。 canvas 拥有多种绘制路径、矩形、圆形、字符以及添加图像的方法。 创建 Canvas 元素 向 HTML5 …

iOS 8个实用小技巧(总有你不知道的和你会用到的)

作者:_南山忆 原文链接:http://www.jianshu.com/p/a3156826c27c --------------注:(非海腾原创) 在开发过程中我们总会遇到各种各样的小问题,有些小问题并不是十分容易解决,这里主要讲一些你可能不知道的&a…

ESLint: The array literal notation [] is preferable. (no-array-constructor)

为什么80%的码农都做不了架构师?>>> var xx new Array() 改为 var xx [] 找到一篇不错的文章,总结的不错。 https://blog.csdn.net/zcfzfc123456789/article/details/87899298 转载于:https://my.oschina.net/uwith/blog/3025891

爬虫入门必学——常见的几种网站类型

在学习爬虫前,我们需要先掌握网站类型,才能根据网站类型,使用适用的方法来编写爬虫获取数据。 今天小编就以国内知名的ForeSpider爬虫软件能够采集的网站类型为例,来为大家盘点一下数据采集常见的几种网站类型。 l常见网站类型 1…

数据分析相关管理职位的崛起

数据分析相关管理职位的崛起 企业对于信息技术的要求越来越高,对于IT人才的需求也越来越大,从CEO到CFO到COO到CIO,这些高端的管理职位,成为从事不同行业人多追求,也是企业中重要的,可以起关键作用的核心人物…

爬虫入门——爬虫可以采集哪些格式的数据?

上一篇为大家介绍了爬虫可以采集的数据范围及采集场景,今天来为大家继续介绍一下爬虫可以采集的数据格式有哪些。 1.采集文本数据 也就是文字,爬虫可以采集网页/app中公开展示的文字内容。这是最最常见的数据格式。 ForeSpider数据采集器,可…

技术文章-异常与异常处理

在Java编程中,出现程序异常的情况很常见,可能是编译时就出现了异常,也可能是程序运行时才出现异常,出现异常不一定都是坏事,异常也是可以被利用的。 1.Java异常的关键字与作用 try关键字: 首先try肯定会配合…

一分钟带你了解分布式集群采集

数据采集一般可分为两种:集中式数据采集和分布式数据采集。 我们通常所说的采集某个或某些平台上的数据一般属于集中式采集,指的是一个爬虫采集一个或多个网站的情况。 那么什么是分布式集群采集呢? 在此之前我们先来了解什么是分布式。 举个…