Beautiful Soup 4.4.0 文档: https://beautifulsoup.readthedocs.io/zh_CN/latest/
使用 BeautifulSoup 解析一段 HTML 代码,能够得到一个 BeautifulSoup 的对象。
1. 安装 Beautiful Soup 与 解析器
pip install beautifulsoup4 # 安装 Beautiful Soup
# 安装解析器
pip install lxml
pip install html5lib
解析器 | 使用方法 | 优势 | 劣势 |
Python标准库 | BeautifulSoup(markup,"html.parser") |
|
|
lxml HTML 解析器 | BeautifulSoup(markup,"lxml") |
|
|
lxml XML 解析器 |
|
|
|
html5lib | BeautifulSoup(markup,"html5lib") |
|
|
2. 如何导入 BeautifulSoup
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
soup1 = BeautifulSoup(open("index.html"))
soup2 = BeautifulSoup("<html>data</html>")
3. soup.prettify() 方法
这个方法可以将解析的 HTML 代码进行基于 bs4 库的 HTML 的格式输出,让 html 代码更友好的显示。
print(soup.prettify())