python正则表达式 1

python正则表达式 1

news/2024/7/19 9:22:58 标签: python, 爬虫

re模块提供了一个郑则表达式的引擎接口，可以让你的Re string变异成对象并用它来进行匹配，这样效率比较高。附上例子让我们一块体验一下吧。

以下是我写的类似与爬虫的小脚本，供大家参考

python">#!/usr/bin/python
# coding=utf-8
import urllib
import re
import os
def getHtmlData():
    return urllib.urlopen("http://news.cnblogs.com/n/93182").read()
def getImageList():
    #reg1 = re.compile(r'(http.*jpg)\" t')
    reg2 = re.compile(r'src=\"(http.*jpg)\"')
    text = getHtmlData()
    #list1 = reg1.findall(text)
    list2 = reg2.findall(text)
    x = 30
    print os.getcwd()
    for p_w_picpathUrl in list2:
        print p_w_picpathUrl
        urllib.urlretrieve(p_w_picpathUrl, r"jpg/%s.jpg" % x) 
        x+=1
getImageList()

reg2 = re.compile(r'src=\"(http.*jpg)\"')匹配 “src=”开头，“结尾的字符，小括号中的http.*jpg是要索取的内容，把这样一个表达式编译成一个对象

例子中网页“http://news.cnblogs.com/n/93182”内容在附件里。这个小脚本的功能是：查找页面中高清图片，并下载保存到当前目录的jpg文件夹下。

转载于:https://blog.51cto.com/yongbird/1548471

http://www.niftyadmin.cn/n/1503320.html

相关文章

【canal1.1.5】mysql8主从数据库实时增量同步

【canal1.1.5】mysql8主从数据库实时增量同步

canal简介准备mysql修改canal-deployer安装配置canal-adapter安装配置测试遇到过的问题canal caching_sha2_password Auth failed简介阿里巴巴旗下的一款开源项目，纯java开发， 基于数据库增量日志解析，提供增量数据订阅&消费&#xff0…

阅读更多...

数据同步工具

数据同步工具

sqoop：开源、离线、Hadoop(Hive)与关系数据库(mysql、postgresql…)之间、双向导入导出；hadoop生态datax：python、开源、各种异构数据源（关系型、非关系型、无结构化、阿里数仓）之间；业务场景复杂、统计can…

阅读更多...

【tomcat】安装配置

【tomcat】安装配置

确保已安装jdk，若无：yum install java 进入Tomcat下载官网下载：wget https://mirrors.tuna.tsinghua.edu.cn/apache/tomcat/tomcat-9/v9.0.45/bin/apache-tomcat-9.0.45.tar.gz 解压：tar -zxvf apache-tomcat-9.0.45.tar.gz …

阅读更多...

【swagger-ui】【swagger-bootstrap-ui】生成接口文档

【swagger-ui】【swagger-bootstrap-ui】生成接口文档

依赖 <dependency><groupId>io.springfox</groupId><artifactId>springfox-swagger2</artifactId><exclusions><exclusion><groupId>io.swagger</groupId><artifactId>swagger-anno…

阅读更多...

【nginx】采坑合集

【nginx】采坑合集

buginvalid PID number ““ in “/usr/local/nginx/logs/nginx.pid“反向代理swagger-bootstrap-uiinvalid PID number ““ in “/usr/local/nginx/logs/nginx.pid“ nginx -c /usr/local/nginx/nginx.confnginx -s reloadnginx -s reopen 反向代理swagger-bootstrap-ui 问…

阅读更多...

create 执行存储过程报错出现符号_Hive SQL使用过程中的奇怪现象

create 执行存储过程报错出现符号_Hive SQL使用过程中的奇怪现象

hive是基于Hadoop的一个数据仓库工具，用来进行数据的ETL，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。Hive SQL是一种类SQL语言，与关系型数据…

阅读更多...

【bug】【docker】IPv4 forwarding is disabled. Networking will not work

【bug】【docker】IPv4 forwarding is disabled. Networking will not work

vmware centos7 docker 原因：没有开启转发,网桥配置完后，需要开启转发，不然容器启动后，就会没有网络 vi /etc/sysctl.conf添加代码：net.ipv4.ip_forward1重启network服务：systemctl restart network &…

阅读更多...

反射体验(转)

反射体验(转)

一、麻烦前的宁静： “老赵，嗯，帮忙测试一下这个方法。”唉，同伴传过来一个托管dll文件。唉，真麻烦啊，为什么不用CVS呢？用个VSS也好啊。老赵一边抱怨着一边打开了VS.Net 2003。测试嘛&#xff0…

阅读更多...

最新文章