【从零开始学爬虫】采集事业单位最新招聘信息

【从零开始学爬虫】采集事业单位最新招聘信息

news/2024/7/19 10:18:20 标签: 爬虫, 大数据

l 采集网站

【场景描述】采集上海交通大学最新招聘信息。

【爬虫下载】http://forenose.com/view/forespider/view/download.html

【入口网址】https://postd.sjtu.edu.cn/bshzp/10.htm

【采集内容】

采集该网站上发布的招聘公告信息，采集字段为：招聘标题、发布时间、招聘正文。

l 思路分析

配置思路概览：

l 配置步骤

1. 新建采集任务

选择【采集配置】，点击任务列表右上方【+】号可新建采集任务，将采集入口地址填写在【采集地址】框中，【任务名称】自定义即可，点击下一步。

继续勾选列表链接、普通翻页，然后点击完成，创建成功。

2. 抽取列表链接

配置列表链接，将所有招聘公告的链接都抽取出来，在此使用定位过滤链接的方法来抽取列表链接。具体操作如下图所示：

①选中模板中的链表链接。

②选中列表链接选区，shift+鼠标单击某个链接，Ctrl、+鼠标单击其他翻页扩大选区，从而选中所有列表链接。

③点击【确认选区】。

④保存配置。

⑤采集预览

点击右上角【采集预览】，看所需要的列表链接是否都抽取出来。

3. 抽取翻页

翻页抽取也是用定位过滤链接的方法，进行抽取。具体如下图所示：

①选中模板中的普通翻页链接抽取。

②选中所有翻页选区，shift+鼠标单击某个翻页，Ctrl+鼠标单击其他翻页扩大选区，从而选中所有翻页。

③确认选区。

④点击【保存】按钮，保存配置。

⑤采集预览

点击右上方【采集预览】，选择普通翻页，查看是否采集到所以翻页，如下图所示即为采集到。

4. 关联模板

检查模板01中的两个链接抽取关联模板是否正确。列表链接应关联模板02，普通翻页应关联模板01，分别如下图所示。

5. 数据抽取

①选中列表链接02，新建一个数据抽取。具体操作如下图所示：

②此时要完成数据建表的工作：选择【数据建表】，点击【采集数据表结构】中的【+】，即可添加数据表，名称可以自定义。

添加字段，各字段属性如下图所示：

③数据表配置完成，选择【数据抽取】右侧数据属性配置，表单选择刚建立的“招聘信息”数据表，则可看到表单中的字段在右侧显示。

④填写示例地址

采集预览，右击任意一条链接，复制该招聘链接。

将该链接填写在模板02的示例地址中，并点击右上角保存按钮。如下图所示：

⑤抽取字段数据

双击内置浏览器空白处，这时内置浏览器显示为刚才示例地址页面，使用定位过滤的方法配置每一个字段。

title字段：选中title字段，shift+点击页面中标题，ctrl+鼠标单击扩大选中区域，选中标题后，点击【确认选区】按钮，点击【保存】按钮。

pubtime字段：操作步骤类似，但是由于选中的为【时间：2021年07月05日】，所以使用数据清洗功能，清洗掉【时间：】，具体设置如下图所示:

content字段：操作步骤类似，具体如下图所示：

⑥以上完成全部字段配置，效果预览如下：

6.数据采集

模板配置完成，采集预览没有问题后，可以进行数据采集。

①首先要建立采集数据表：

选择【数据建表】，点击【表单列表】中该模板的表单，在【关联数据表】中选择【创建】，表名称自定义，这里命名为zhaopin（注意命名不能用数字和特殊符号），点击【确定】。

创建完成，勾选数据表，点击保存。

②选择【数据采集】，勾选任务名称，点击【开始采集】，则正式开始采集。

③可以在【数据浏览】中，选择数据表查看采集数据。

④导出数据

导出数据表如下图所示：

http://www.niftyadmin.cn/n/1191422.html

相关文章

Volley的三种基本用法StringRequest的Get和post用法以及JsonObjectRequest

Volley的三种基本用法StringRequest的Get和post用法以及JsonObjectRequest

首先做出整个应用的全局请求队列 1 package com.qg.lizhanqi.myvolleydemo;2 3 import android.app.Application;4 5 import com.android.volley.RequestQueue;6 import com.android.volley.toolbox.HttpStack;7 import com.android.volley.toolbox.Vo…

阅读更多...

vue的渐进式理解

vue的渐进式理解

链接：https://www.zhihu.com/question/51907207/answer/136559185渐进式代表的含义是：主张最少。每个框架都不可避免会有自己的一些特点，从而会对使用者有一定的要求，这些要求就是主张，主张有强有弱，它的强…

阅读更多...

救援行动(save)

救援行动(save)

题目描述 Angel被人抓住关在一个迷宫了！迷宫的长、宽均不超过200，迷宫中有不可以越过的墙以及监狱的看守。Angel的朋友带了一个救援队来到了迷宫中。他们的任务是：接近Angel。我们假设接近Angel就是到达Angel所在的位置。假设移动需要1单位时…

阅读更多...

【从零开始学爬虫】采集京东商品信息

【从零开始学爬虫】采集京东商品信息

l 采集网站【场景描述】采集京东电视分类中的所有商品信息。【使用工具】前嗅ForeSpider数据采集系统，免费版本下载链接：http://www.forenose.com/view/forespider/view/download.html 【入口网址】https://list.jd.com/list.html?cat737,794,798&…

阅读更多...

python-Django与Nginx整合gunicorn模块

python-Django与Nginx整合gunicorn模块

1.pip install gunicorn 2.修改Nginx配置文件 vim /etc/nginx/conf.d/virtual.conf 1 server {2 listen 192.168.1.120:8000;3 #listen somename:8080;4 server_name localhost;5 6 location static/admin/ {7 root /usr/lib/python2.…

阅读更多...

【从零开始学爬虫】采集易贝（ebay）商品信息

【从零开始学爬虫】采集易贝（ebay）商品信息

l 采集网站【场景描述】采集易贝（ebay）中某一类别的所有商品信息。【源网站介绍】易贝（eBay）是一个可让全球民众上网买卖物品的线上拍卖及购物网站。ebay于1995年9月4日由Pierre Omidyar以Auctionweb的名称创立于加利福尼亚州…

阅读更多...

网站被劫持反复被上传了indax.html以及indax.php如何修复

网站被劫持反复被上传了indax.html以及indax.php如何修复

近期发现公司网站首页文件经常被篡改为indax.php或indax.html,导致网站的功能无法正常使用，百度搜索关键词,在显示结果中点击公司网站,打开后跳转到别的网站上去了，尤其我们在百度做的推广，导致客户无法访问到我们公司网站上，给公…

阅读更多...

【从零开始学爬虫】通过新浪财经采集上市公司高管信息

【从零开始学爬虫】通过新浪财经采集上市公司高管信息

l 采集网站【场景描述】采集新浪财经所有行业板块中上市公司的高管信息。【源网站介绍】新浪财经，提供7X24小时财经资讯及全球金融市场报价,覆盖股票、债券、基金、期货、信托、理财、管理等多种面向个人和企业的服务。【使用工具】前嗅ForeSpider数据采集系…

阅读更多...

最新文章