第三百四十节,Python分布式爬虫打造搜索引擎Scrapy精讲—css选择器

news/2024/7/19 11:30:48 标签: python, 爬虫

第三百四十节,Python分布式爬虫打造搜索引擎Scrapy精讲—css选择器

 

css选择器

1、

 

2、

 

3、

 ::attr()获取元素属性,css选择器

::text获取标签文本

 

举例:

extract_first('')获取过滤后的数据,返回字符串,有一个默认参数,也就是如果没有数据默认是什么,一般我们设置为空字符串

extract()获取过滤后的数据,返回字符串列表

 

# -*- coding: utf-8 -*-
import scrapy

class PachSpider(scrapy.Spider):
    name = 'pach'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/all-posts/']

    def parse(self, response):

        asd = response.css('.archive-title::text').extract()  #这里也可以用extract_first('')获取返回字符串
        # print(asd)

        for i in asd:
            print(i)

 


http://www.niftyadmin.cn/n/1205429.html

相关文章

寻找树中和为定值的所有路径

2016.8.18改 You are given a binary tree in which each node contains a value. Design an algorithm to print all paths which sum up to that value. Note that it can be any path in the tree-it does not have to start at the root.思路:一层一层的遍历&am…

js 字符串转换成数字的三种方法

在js读取文本框或者其它表单数据的时候获得的值是字符串类型的,例如两个文本框a和b,如果获得a的value值为11,b的value值为9 ,那么a.value要小于b.value,因为他们都是字符串形式的.在网上找了一下js字符串转数字的文章,这个比较全 方法主要有三种 转换函数、强制类型转换、利用j…

投硬币问题

想兑换100元零钱&#xff0c;有1元&#xff0c;2元&#xff0c;5元&#xff0c;10元四种面值&#xff0c;总共有多少种兑换方法目前只想到穷举法&#xff1a;点击(此处)折叠或打开 #include<stdio.h> #include<stdlib.h> int kindofMoney( ) { int l1,l2…

《JAVA与模式》之代理模式

代理模式是对象的结构模式。代理模式给某一个对象提供一个代理对象&#xff0c;并由代理对象控制对原对象的引用。 代理模式的结构 所谓代理&#xff0c;就是一个人或者机构代表另一个人或者机构采取行动。在一些情况下&#xff0c;一个客户不想或者不能够直接引用一个对象&…

完美洗牌算法(1)

题目描述;有一个长度为2n的数组{a1,a2,a3,...,an,b1,b2,...,bn}&#xff0c;希望排序后变成{a1,b1,a2,b2,...an,bn}.解法1&#xff1a;位置置换算法设定数组下标从 1开始 原始序列 A1 A2 A3 A4 B1 B2 B3 B4 数组下标 1 2 3 4 5 6…

NIO编程介绍

NIO称为Non-block IO&#xff0c;即非阻塞IO。IO&#xff08;BIO&#xff09;和NIO的本质区别就是阻塞和非阻塞的区别。 阻塞&#xff1a;应用程序在获取网络数据的时候&#xff0c;如果网络传输数据很慢&#xff0c;那么程序就一直等着&#xff0c;直到传输完毕为止。非阻塞&…

查看SSD寿命

查看SSD寿命 查看SSD寿命 起初买mac book pro的时候挺担心SSD使用寿命的&#xff0c;过保了后&#xff0c;还搞了个移动硬盘&#xff0c;尽可能的把编译什么的都移动到移动硬盘上进行&#xff0c;实际上这样做都是没有必要的。 安装软件smartctl Smartctl&#xff08;S.M.A.R.T…

c语言中的输入函数

scanf( )函数和gets( )函数都可用于输入字符串&#xff0c;但在功能上有区别。若想从键盘上输入字符串"hi hello"&#xff0c;则应该使用gets函数。 gets可以接收空格&#xff1b;而scanf遇到空格、回车和Tab键都会认为输入结束&#xff0c;所有它不能接收空格。 c…