re模块提供了一个郑则表达式的引擎接口,可以让你的Re string变异成对象并用它来进行匹配,这样效率比较高。附上例子让我们一块体验一下吧。


以下是我写的类似与爬虫的小脚本,供大家参考


python">#!/usr/bin/python
# coding=utf-8
import urllib
import re
import os
def getHtmlData():
    return urllib.urlopen("http://news.cnblogs.com/n/93182").read()
def getImageList():
    #reg1 = re.compile(r'(http.*jpg)\" t')
    reg2 = re.compile(r'src=\"(http.*jpg)\"')
    text = getHtmlData()
    #list1 = reg1.findall(text)
    list2 = reg2.findall(text)
    x = 30
    print os.getcwd()
    for p_w_picpathUrl in list2:
        print p_w_picpathUrl
        urllib.urlretrieve(p_w_picpathUrl, r"jpg/%s.jpg" % x) 
        x+=1
getImageList()



reg2 = re.compile(r'src=\"(http.*jpg)\"')匹配 “src=”开头,“结尾的字符,小括号中的http.*jpg是要索取的内容,把这样一个表达式编译成一个对象


例子中网页“http://news.cnblogs.com/n/93182”内容在附件里。这个小脚本的功能是:查找页面中高清图片,并下载保存到当前目录的jpg文件夹下。