Python实现简单抓取功能

news/2024/7/19 9:28:34 标签: python, 爬虫

一直以来都想好好学习Python,但是每次学习了从基础感觉学了一会就感觉没意思。今天学习一下爬虫,也算是自己学python的目的吧,但是在学习过程中遇到很多困难,但幸好遇到了一篇好博文,分享给大家:http://www.cnblogs.com/fnng/p/3576154.html

源码:

#encoding : utf-8
import urllib
import  re
def getHtml(url):
    page = urllib.urlopen(url)
    html =page.read()
    return html

def getImg(html):
    reg =  r'src="(.+?\.jpg)" size'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0

    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' %x)
        x+= 1


html = getHtml("https://tieba.baidu.com/p/5154456009")
print getImg(html)

 

转载于:https://www.cnblogs.com/Mr0wang/p/7054468.html


http://www.niftyadmin.cn/n/1092712.html

相关文章

Bash脚本入门

新建一个脚本的基本流程为 新建脚本文件(后缀为sh)touch script.sh打开并修改脚本文件open script.sh or emacs script.sh修改脚本文件的权限(增加可执行权限,x代表execute)chmod x script.sh 注意事项: …

RS锁存器,D锁存器、D触发器简介

文章目录RS锁存器(RS latch)D锁存器(D latch)D触发器(D flip flop)本片博客主要介绍一下RS锁存器(RS latch),D锁存器(D latch)和D触发器&#xff…

Static静态修饰符

高级类特性修饰符--Static 一:不管是属性,方法,构造方法,都可以用高级类特性修饰符来提高特性。高级类特性修饰符包括: 1,Static 2,final 3,abstract 4,synchronized 二&…

variadic template with lambda

C11引入了variadic template(可变参数模板)的概念,这是一个可以接受任意参数个数的模板(为了实现任意参数个数,必须使用到递归). 维基百科上面有着比较详细的讲解:link 有几个重要的地方&…

Emacs配置入门

文章目录准备工作安装Emacs修改.emacs文件Emacs C/CEmacs PythonEmacs VerilogEmacs Java除非明确表明,默认使用的是MacOS/Linux系统。准备工作 安装Emacs MacOS用户:brew install emacsWindows用户:直接官网下载Ubuntu用户&#xff1a…

Ubuntu设置ssh key登录

文章目录Step1 本地生成密钥Step2 上传公钥文件Step3 利用密钥ssh登录很多人可能都遇到过这样的场景,每次远程ssh登录服务器都需要输入一次密码,既不安全又麻烦,让我们来一起看看如何使用公钥私钥避免输入密码登录吧。欢迎到我的博客网站查看…

数据结构-----顺序表的实现

数据结构: 数据按逻辑结构分类有: 线性结构(队列,栈,串):有且仅有一个开始结点和一个终端结点,并且所有结点都最多只有一个直接前趋和一个直接后继 非线性结构:一个结点可…

Django实现迷你淘宝(一) --- PostgreSQL

最近疫情待在家里,天天就是写作业,写写博客换换脑子,顺便总结一下这段时间所学。 本系列打算分为5部分, 分别是: postgres安装与入门django安装与入门基于django的用户验证系统实现基于Bootstrap的商品页面设计与美化…