2019独角兽企业重金招聘Python工程师标准>>>
基本任务:
I 搭建python开发环境
II 写一个简单的网络爬虫,在某一个网站将一部小说各章节(一般是一个章节一个网页)粘贴到一个文本文件内。
1 首先了解几个概念
1.1 网络爬虫
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。
网络爬虫可以模拟浏览器浏览网页,自动批量下载网络资源(能够访问到的,放在网络服务器的文件)。
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
1.2 小说网站的基本结构
首页(总目录)→分类→小说目录页→小说各章节;
1.3 与网站的交互
通常都是用户通过浏览器(当IE)访问网站(网络上的服务器)。
浏览器:网址(href)、请求(requests)→网站服务器:响应(response)给浏览器→浏览器:缓存并呈现回复的内容。
1.4 开发环境
用高级语言写的代码需要解释或编码到机器代码,才能被计算机执行。
所以开发一个程序,最基本的需求是一个文本编辑器(写)和解释器或编译器。
开发复杂的程序,需要调试查错、需要引入第三方库,需要边结各文件,所以,一般来说,一个简单的文本编辑器加一个解释器或编译器是不够的,需要一个支持某种高级语言的调试器的较复杂的编辑器。这样的编辑器同时还支持可以方便写代码(如颜色分类显示、代码提示)的插件加入。
2 搭建python开发环境
2.1 下载和安装解释器python3.6
想学习可以加Python学习(q-u-n )-二二七,四三五,四五零 即可获取,内附:开发工具和安装包,以及视频资料系统学习路线图