urllib
库是Python内置的非常基础的HTTP请求库,在它的助力下,我们可以通过短短的几行代码就完成一次从网页请求到处理响应结果的过程。而且urllib
库是Python
的内置库,也就是说我们无需进行额外的安装。
urllib
中包含四个基础模块:
request
:它是urllib
中最核心的模块,可以帮助我们向服务器发送HTTP请求。我们只需要将URL以及所需的参数传递给相应的方法,就可以实现这个过程。error
:这是urllib
中的异常处理模块,用来帮助我们捕获异常并做针对性的处理。parse
:它是urllib
中的一个工具模块, 可以帮助我们实现对URL的拆分、合并、解析等操作。robotparser
:它主要用来帮助我们识别网站的robos.txt
文件,以判断哪些页面可以爬取,哪些页面不可以爬取。实际上我们很少用到它。
在接下来的三个章节里,我们会重点学习一下这四个模块中的核心功能。
首先,我们先看一下最核心的request
模块。request
模块实现了发起网络请求所需的各种功能,包含了处理身份验证、使用代理和Cookies
等一些能力,接下来,我们一个个地看。
一、urlopen
方法
**前边提到,**request
模块是