BeautifulSoup文档5-详细方法 | 修改文档树应该注意什么?

news/2024/7/19 11:50:13 标签: beautifulsoup, python, 爬虫

5-详细方法 | 修改文档树应该注意什么?

  • 1 修改tag的名称和属性
  • 2 修改 .string
  • 3 append()
  • 4 NavigableString() 和 .new_tag()
  • 5 insert()
  • 6 insert_before() 和 insert_after()
  • 7 clear()
  • 8 其他几个方法
  • 9 本文涉及的源码

  • BeautifulSoup本身最强大的功能是文档树的搜索;
  • 但也可以修改文档树。

1 修改tag的名称和属性

python">soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
tag = soup.b
print(f"修改前:{tag}")
tag.name = "blockquote"
tag['class'] = 'verybold'
tag['id'] = 1
print(f"修改后:{tag}")
del tag['class']
del tag['id']
print(f"删除后:{tag}")
  • 输出为:
python">修改前:<b class="boldest">Extremely bold</b>
修改后:<blockquote class="verybold" id="1">Extremely bold</blockquote>
删除后:<blockquote>Extremely bold</blockquote>

2 修改 .string

  • tag.string 属性赋值,就相当于用当前的内容替代了原来的内容;
python">markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup, 'html.parser')

tag = soup.a
tag.string = "New link text."
print(tag)
  • 输出为:
python"><a href="http://example.com/">New link text.</a>

3 append()

  • Tag.append() 方法是给tag中添加内容;
python">soup = BeautifulSoup("<a>Foo</a>", 'html.parser')
soup.a.append("Bar")
print(soup)
print(soup.a.contents)
  • 输出为:
python"><a>FooBar</a>
['Foo', 'Bar']

4 NavigableString() 和 .new_tag()

  • 添加一段文本内容到文档中,使用NavigableString()
  • 创建一段注释或 NavigableString 的任何子类, 只要调用 NavigableString
  • 创建一个tag最好的方法是调用工厂方法 BeautifulSoup.new_tag()
python">soup = BeautifulSoup("<b></b>", 'html.parser')
original_tag = soup.b

new_tag = soup.new_tag("a", href="http://www.example.com")
original_tag.append(new_tag)
print(original_tag)
new_tag.string = "Link text."
print(original_tag)
  • 输出为:
python"><b><a href="http://www.example.com"></a></b>
<b><a href="http://www.example.com">Link text.</a></b>

5 insert()

  • Tag.insert() 方法与 Tag.append() 方法类似;
  • 区别是不会把新元素添加到父节点 .contents 属性的最后;
  • 而是把元素插入到指定的位置。
python">markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup, 'html.parser')
tag = soup.a

tag.insert(1, "but did not endorse ")
print(tag)
print(tag.contents)
  • 输出为:
python"><a href="http://example.com/">I linked to but did not endorse <i>example.com</i></a>
['I linked to ', 'but did not endorse ', <i>example.com</i>]

6 insert_before() 和 insert_after()

  • insert_before() 方法在当前tag或文本节点前插入内容;
  • insert_after() 方法在当前tag或文本节点后插入内容;

7 clear()

  • Tag.clear() 方法移除当前tag的内容;
python">markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup, 'html.parser')
tag = soup.a
tag.clear()
print(tag)
  • 输出为:
python"><a href="http://example.com/"></a>

8 其他几个方法

方法说明
PageElement.extract()将当前tag移除文档树,并作为方法结果返回
Tag.decompose()将当前节点移除文档树并完全销毁
PageElement.replace_with()移除文档树中的某段内容,并用新tag或文本节点替代它
PageElement.wrap()可以对指定的tag元素进行包装 ,并返回包装后的结果
Tag.unwrap()将移除tag内的所有tag标签

9 本文涉及的源码

python"># -*- coding:utf-8 -*-
# 作者:NoamaNelson
# 日期:2023/2/22 
# 文件名称:bs05.py
# 作用:Beautiful Soup的使用
# 联系:VX(NoamaNelson)
# 博客:https://blog.csdn.net/NoamaNelson

from bs4 import BeautifulSoup

# 修改tag的名称和属性
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
tag = soup.b
print(f"修改前:{tag}")
tag.name = "blockquote"
tag['class'] = 'verybold'
tag['id'] = 1
print(f"修改后:{tag}")
del tag['class']
del tag['id']
print(f"删除后:{tag}")

# 修改 .string
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup, 'html.parser')

tag = soup.a
tag.string = "New link text."
print(tag)

# append()
soup = BeautifulSoup("<a>Foo</a>", 'html.parser')
soup.a.append("Bar")
print(soup)
print(soup.a.contents)

# NavigableString() 和 .new_tag()
soup = BeautifulSoup("<b></b>", 'html.parser')
original_tag = soup.b

new_tag = soup.new_tag("a", href="http://www.example.com")
original_tag.append(new_tag)
print(original_tag)
new_tag.string = "Link text."
print(original_tag)

# insert()
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup, 'html.parser')
tag = soup.a

tag.insert(1, "but did not endorse ")
print(tag)
print(tag.contents)

# insert_before() 和 insert_after()

# clear()
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup, 'html.parser')
tag = soup.a
tag.clear()
print(tag)
# extract()
# decompose()
# replace_with()
# wrap()
# unwrap()

http://www.niftyadmin.cn/n/91397.html

相关文章

Spring Cloud基础组件

Netfix组件一览表1、Eureka服务治理--服务生命周期管理--高可用架构2、Ribbon负载均衡--多种内置负载均衡策略--IPing IRule 灵活扩展--无缝集成各组件3、Hystrix服务容错--降级、熔断、线程隔离--轻量级客户端组件--Hystrix Turbine Dashboard4、Zuul服务网关--服务路由--一…

媒体见面会怎么做?

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好媒体见面会是企业与媒体沟通的一种常见形式&#xff0c;以下是一些媒体见面会的建议&#xff1a;1&#xff0c;确定目标和主题&#xff1a;在媒体见面会前&#xff0c;企业应该确定目标和主题。这包括确定想要传达的信息、受…

shell的测试语句

一、shell的条件测试语句 在写shell脚本时&#xff0c;经常遇到的问题就是判断字符串是否相等&#xff0c;可能还要检查文件状态或进 行数字测试&#xff0c;只有这些测试完成才能做下一步动作。 1.1、shell脚本中的条件测试如下&#xff1a; 1、文件测试 2、字符串测试 3、数…

Spring Batch 高级篇-多线程步骤

目录 引言 概念 案例 转视频版 引言 接着上篇&#xff1a;Spring Batch ItemWriter组件&#xff0c;了解Spring Batch ItemWriter处理组件后&#xff0c;接下来一起学习一下Spring Batch 高级功能-多线程步骤 概念 默认的情况下&#xff0c;步骤基本上在单线程中执行&…

电脑应用程序在c盘怎么转移到d盘?建议先收藏

电脑应用程序在c盘怎么转移到d盘&#xff1f;很多小伙伴第一反应就是直接剪切&#xff0c;这种方法对于普通文件来说很简单、也很方便&#xff0c;只需执行CtrlX就能办到&#xff0c;然而对于已安装的应用程序&#xff0c;这并不是明智的做法。因为直接剪切粘贴后&#xff0c;应…

肖臻公开课(四)——比特币中的共识协议

本笔记对应北京大学肖臻老师《区块链技术与应用》公开课第四课。 0.前言 本节的内容非常多&#xff0c;肖老师首先提出两种有缺陷的电子货币解决思路引出使用区块链做电子货币的必要性。之后着重讲解了两个关键问题&#xff1a; 谁来发行货币? 怎样防止double spending atta…

【华为OD机试真题】用 C++ 实现 - 最小施肥机能效

最近更新的博客 华为OD机试 - 入栈出栈(C++) | 附带编码思路 【2023】 华为OD机试 - 箱子之形摆放(C++) | 附带编码思路 【2023】 华为OD机试 - 简易内存池 2(C++) | 附带编码思路 【2023】 华为OD机试 - 第 N 个排列(C++) | 附带编码思路 【2023】 华为OD机试 - 考古…

Mysql插入数据从指定选项中随机选择、插入时间从指定范围随机生成、Navicat使用存储过程模拟插入测试数据

场景 Navicat通过存储过程批量插入mysql数据&#xff1a; Navicat通过存储过程批量插入mysql数据_霸道流氓气质的博客-CSDN博客 上面使用过Navicat借助存储过程批量插入数据。但是插入数据是固定的 insert语句&#xff0c;如果在本地开发时需要模拟插入一些随机数据(从指定…