【爬虫计划】Scrapy框架的学习及跟课学习

接着上篇存储到本地文件后，对于规则与爬取对象的选取这部分工作放到了Selector选择器部分，可以理解为对于目标的解析方法。

本节关键词：直接使用 | xpath | 正则匹配 | CSS

1.直接使用

对于这部分，使用一个小demo演示，在命令行处执行发现直接跳转到编译器pycharm，于是就用pycharm来运行了。代码在下自取：

# encoding:UTF-8
'''
为了检验Selector直接使用的用法
'''

from scrapy import Selector

content = '<html><head><h3>hello world</h3><meta http-equiv="Content-Type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /><link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" /><link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu_85beaf5496f291521eb75ba38eacbd87.svg"><link rel="dns-prefetch" href="//dss0.bdstatic.com"/><link rel="dns-prefetch" href="//dss1.bdstatic.com"/><link rel="dns-prefetch" href="//ss1.bdstatic.com"/><link rel="dns-prefetch" href="//sp0.baidu.com"/><link rel="dns-prefetch" href="//sp1.baidu.com"/><link rel="dns-prefetch" href="//sp2.baidu.com"/><title>百度一下，你就知道</title>'

selector = Selector(text=content)
print(selector.xpath('/html/heal/title/text()').extract_first())
print(selector.css("h3::text").extract_first())
print("text")

在演示过程中，使用的是【文件名加后缀名】后直接回车的方式直接运行，经测试并没有输出结果，直接打开了编译器，所以转向编译器：

其text部分的输出测试是为了排除匹配不成功，没有获取到结果所以没有输出的结果，考虑直接执行，编译的仍然是python文件，猜想是因为没有设置默认编译py文件，这里贴出在pycharm中运行成功的截图，继续往后走：

进入shell中发现，使用命令后出现上一个文件执行结果，并且对baidu网页进行采集：

scrapy shell https:www.baidu.com

采集结束后进入shell模式，可以使用两条命令查看采集网页状态码及url：

response.status

response.url

针对百度网页的selector用法分别获取到html-head-title下的文本信息，其中extract( )、extract_first( )两个函数分别取出其中文本信息和列表中首条信息(下个部分对于xpath方法这部分有具体讲解)，因此获取结果不同：

继续对网页进行提取操作，例如对所有a标签的提取文本和超链接：

2.XPath选择器

讲完直接选择器，开始对xpath方法进行讲解，其中xpath方法和另三种extract*类方法的功能如下：

讲完理论照例，使用一个例子来说明xpath的具体用法，这次下手的是taobao网页（参照上面shell+网址命令，将网址换成 https://www.taobao.com/tbhome/page/special-markets），继续采集工作，输入后我的采集进程较慢，不知是不是网速影响，稍等一会就能出来：