python中用xpath匹配文本段落内容的技巧

news/2024/7/19 10:50:15 标签: python, 爬虫, javascript
content = item.xpath('//div[@class="content"]/span')[0].xpath('string(.)')

content = item.xpath('//div[@class="content"]/span//text()')

 

两种匹配规则,都能匹配到图中的文本段落内容:

 

 

 

 

第一种匹配到的结果是:

"content":

"\n\n\n小儿子5岁天生戏精在高铁站,一对夫妻带一男孩也5岁左右,小男孩坐地上耍赖,小夫妻与小男孩全程英语交流,坐他们对面的小儿子看的云里雾里,突然转过头跟我说,“妈妈,他们说的话我也会。”正在我惊讶之际,这小子一首“ABCDEFG……”好吧~\n\n"

 

第二种匹配到的结果是:

"content":

["\n\n\n小儿子5岁天生戏精", "在高铁站,一对夫妻带一男孩也5岁左右,小男孩坐地上耍赖,小夫妻与小男孩全程英语交流,坐他们对面的小儿子看的云里雾里,突然转过头跟我说,“妈妈,他们说的话我也会。”", "正在我惊讶之际,这小子一首“ABCDEFG……”", "好吧~\n\n"]

 

  • 第一种匹配规则得到的content,内容中的<br/>自动忽略,得到包含全部字符内容的整串,但是原本用换行符断句处没有逗号,产生的内容阅读起来可能不连贯。

 

  • 第二种匹配规则得到的content,也将忽略内容中的<br/>,同时会以<br/>为间隔,将文本内容用逗号切开,最终得到一个字符串列表。

 

在对文本内容要求比较精确的情况下,可以将第二种规则匹配后的结果,用 "\n".join() 来对字符串列表进行处理,不会出现不连贯情况。

 

转载于:https://www.cnblogs.com/longyincug/p/8433144.html


http://www.niftyadmin.cn/n/1670084.html

相关文章

PHP记录点击数方法

1.第一种方法: $id $_GET[id]; //获取文章ID$sql "UPDATE base SET hits hits1 WHERE id $id"; //数据库的执行语句header("location: read.php?id$id"); //跳转语句给你思路,语句自己写..数据库里除了题目,发表时间,内容这些你已经有的字段外,增加一…

php服务启动参数,php配置php-fpm启动参数及配置详解_php技巧

约定几个目录/usr/local/php/sbin/php-fpm/usr/local/php/etc/php-fpm.conf/usr/local/php/etc/php.ini一&#xff0c;php-fpm的启动参数 代码如下:#测试php-fpm配置/usr/local/php/sbin/php-fpm -t/usr/local/php/sbin/php-fpm -c /usr/local/php/etc/php.ini -y /usr/local/p…

java四目运算符_小心! JAVA三目运算符

Double a null;double b 0;Scanner in new Scanner(System.in);boolean t in.next().equals("y");System.out.println(t ? a : b);执行上述代码, 如果t为true则会抛出NPE, 执行javap查看反编译结果如图image可以看到54行执行了一次拆箱操作, 所以以下两行代码是…

如何在python中import

用法 1.import同一个路径下的.py文件. 这是import关键字最基本的用法,import moudle1可以理解为直接将module1.py的语句复制到对应的代码段. 2.import package的基本用法. 很多时候实现某一个功能的模块的代码需要分在几个.py中文件中写,可以将这些功能写在一个python的package…

布局物联网,高通不仅看中了“网”,在“物”端也憋了“大招”

我们身边的一切事物都在变得越来越智能&#xff0c;从每天最离不开的手机&#xff0c;到水杯、冰箱、跑鞋、汽车……无一例外。而这一切变化与物联网技术的发展有着莫大的关系。 Gartner预测&#xff0c;到2020年&#xff0c;全球物联网互联的“设备”将超过200亿台。这是一个非…

php判断空值_php中的空值判断方法

在使用 php 编写页面程序时&#xff0c;我经常使用变量处理函数判断 php 页面尾部参数的某个变量值是否为空&#xff0c;开始的时候我习惯了使用 empty() 函数&#xff0c;却发现了一些问题&#xff0c;因此改用 isset() 函数&#xff0c;问题不再。顾名思义&#xff0c;empty …

判断IP是否规范并添加或修改IP地址的shell脚本

. #!/bin/bashread -p "请输入ip:" IPread -p "请输入掩码:" MASK #read -p "IP ADDRESS:" IPADDecho $IP > /tmp/tmpserveripecho $IP | grep "^[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}$" > /dev/nullif [ $?…

解决ArrayList的ConcurrentModificationException

【问题现象】 该问题的主要原因是由于主线程在读取数组过程中&#xff0c;子线程移除了数组中的部分项引起&#xff0c; 本想通过锁来控制&#xff0c;但太麻烦又容易出错&#xff0c;而且接口中的数组指针是直接可以给外部模块使用。 【问题解决】 还没想到解决办法&#xff0…