Python爬虫1-----urllib模块

news/2024/7/19 8:39:48 标签: python, 爬虫

1、加载urllib模块的request

from urllib import request

2、相关函数:

(1)urlopen函数:读取网页

  • webpage=request.urlopen(url,timeout=1)   【读取网页,参数timeout表示1秒之后为超时,遇到无效网页时可以跳过】
  • data=webpage.read()   【读取页面内容】

  【使用webpage.read()读取的页面内容text内容为bytes-object,打印内容为b’……‘】

  • data=data.decode('utf-8')    【解码】

  【text为bytes-object,将其转换为字符串text.decode(),默认参数为空,也可使用编码方式参数,格式为decode(“gb2312”)。】

  • pat='<div class="name">(.*?)</div>'

  res=re.compile(pat).findall(str(data))【记得str(data)】

  【无法直接使用到re.search(),使用前需要转换为string类型。res就是获取的内容】

(2)urlretrieve函数:读取网页并可以保存在本地,成为本地网页

  • urllib.request.urlretrieve( url , filename=" 本地文件地址//1.html" )

(3)urlcleanup()函数:使用urlretrieve函数会导致一些缓存,使用它可以清除。

  • urllib.request.urlcleanup()

(4)info()函数:返回网页的一些信息。

(5)getcode():若返回200表明爬取正常

(6)geturl():返回正在爬取的网页

(7)(可以查一下llib.request.Request函数)post和get请求

 

转载于:https://www.cnblogs.com/Lee-yl/p/9010759.html


http://www.niftyadmin.cn/n/837967.html

相关文章

html表单数据没被提怎么办,处理表单数据

客户请求的处理&#xff1a;表单数据1、表单数据作用http://host/path?userMartyHall&originbwi问好后面的部分被称为表单数据(form data)或查询数据(query data).表单数据可以跟在问好后面附加到URL的结尾&#xff0c;GET请求即采用这种方式&#xff1b;表单数据还可以在…

iOSApp重签名

流程 以微信为例&#xff1a; 拿到砸过壳的ipa包&#xff0c;可以从pp助手下载&#xff0c;或者自己动手丰衣足食。解压这个ipa包&#xff0c;这样子就可以&#xff0c;后缀改zip也可以。 这个文件&#xff0c;显示包内容。 删除plugins插件文件&#xff08;个人账号无法对插件…

Idea中application.properties文件中中文乱码问题解决

2019独角兽企业重金招聘Python工程师标准>>> File文件--->右击 Settings 转载于:https://my.oschina.net/u/3892666/blog/1835919

html5控件结构图,HTML5之元素与标签结构

HTML5新增标签新增的结构元素&#xff1a;●section: 标签定义文档中的节(section、区段)。比如章节、页眉、页脚或文档中的其他部分。●article: 标签规定独立的自包含内容。一篇文章应有其自身的意义&#xff0c;应该有可能独立于站点的其余部分对其进行分发。元素的潜在来源…

VB6.0 取 毫秒级 时间戳

如题&#xff1a;先加载API 要点&#xff1a;毫秒级时间戳只是在秒级时间戳后面多了当前时间得三位毫秒数。 代码&#xff1a; Public Declare Function timeGetTime Lib "winmm.dll" () As Long Public Function GetUnixTime_ms() As String GetUnixTime_ms DateDif…

JAVA电商项目面试题(一)

我是小谷粒0人评论1783人阅读2018-02-25 16:25:25需要按照功能点把系统拆分&#xff0c;拆分成独立的功能。单独为某一个节点添加服务器。需要系统之间配合才能完成整个业务逻辑。叫做分布式。集群&#xff1a;同一个工程部署到多台服务器上。优点&#xff1a;1、把模块拆分&am…

SSM整合(二):配置文件编写

把项目建好了&#xff0c;下一步干嘛&#xff1f; step2: 面对空荡荡的项目&#xff0c;首先当然是想着导入这三个框架啦&#xff0c;就要进行基础配置了。 先放上我的配置文件结构图&#xff1a; 因为是学习的缘故&#xff0c;我把每个项目都分开来了&#xff0c;当然&#xf…

ios 格式化html字符串,iOS:剥离img...来自NSString(一个html字符串)

使用正则表达式&#xff0c;发现在你的字符串中的配衬&#xff0c;并删除它们&#xff01; 下面是如何NSRegularExpression *regex [NSRegularExpression regularExpressionWithPattern:"]*>" options:NSRegularExpressionCaseInsensitiveerror:nil];NSMutableSt…