在爬虫过程中,我们获取到了页面之后,通常需要做的就是解析数据,将数据持久化到数据库为我所用。如何又快又准确得提取有效数据?这是一门技术,看了我的博客之前可能略有难度,但各位大师看了我的博客之后,那只能说解析页面就像砍瓜切菜,喝水吃饭一般简单。
废话不说,直接搞示例,请看下面这个页面源码:
<tr><th>性別:</th><td>男</td></tr><tr>
来来来,写个python代码提取性别?
分析一下,这不就是td标签内的数据嘛?写一个正则,提取<td>男</td>
中间的中文。
正则得这么写,开头是<td>
中间是要提取的内容,使用()括起来,不管中间是啥,()内就写.*?
最后以</td>
结尾,想法是可以搞定的,上代码试试。
看代码:
# coding=utf-8
import re
html_string = '''<tr><th>性別:</th><td>男</td></tr><tr>'''
regex = r'<td>(.*?)</td>'
result = re.findall(regex,html_string)
print(result)
这个代码跑起来看看是牛还是马喽==>
果然是牛,🐂🐂🐂!
是不是感觉自己又行了,就是这么简单,后面慢慢试试复杂点页面,但都是解析方法从这个代码升级的,就是白开水,一眼望到底呀!
今天懒得写了,我得去钓鱼了。已经空军16天,今天必须破龟,明天来继续搞代码。