学习Python爬虫真的不难,只需要明白这四个点!

news/2024/7/19 11:33:32 标签: 爬虫, python, 运维
学习Python<a class=爬虫真的不难,只需要明白这四个点!" />

环境:操作系统:Windows10

IDE: PyCharm2018.1

解释器:python3.6

1,只需短短4行

或许Python爬虫给大家的感觉就是比较高级,比较牛逼的一项技术,而其实呢,它的核心代码就只有以下几行!(至少对于初学者来说,只需要知道它如何使用)

1 import requests # 导入requests模块。如果报错,就是没有安装该模块;安装:鼠标点击红色部分->【ALT+回车】->回车。或在命令行使用pip install requests安装。
2
3 url = "网页链接要爬取网站的网址,一定要加http://
4 page = requests.get(url) # 模拟请求(与浏览器原理相同)
5 print(page.text) # 输出网站的源码(HTML代码)

2、对比

一开始大家(包括我自己)接触比较多的可能是urllib和urllib3;python2用的是urllib和urllib2,在python3中已经没有urllib2了,所以在看教程的时候一定要看清是python2还是python3。

其实用哪个库都没有太大关系,因为他们其实都是在底层实现了HTTP协议,然后自己再把接口封装以下,理解了原理其实都是差不多的;但是推荐大家使用requests库(我看很多大牛都推荐这个),他是个第三方库(不是python自家的),所以需要安装,代码中给出了安装方法。这个库给我的感觉就是使用起来更加简单,可读性很好,比较符合Python的风格,大牛们推荐他可能还有其他原因,有待学习!

3,解析

所谓爬虫,其实也就是在互联网这张大网中筛选我们需要的信息。上面的代码只是把整个页面的内容下载下来了,并没有什么实际作用。而我们实际需要的是其中的一些图片或者某些文字,那就需要对这些下载下来的内容进行解析了,最简单粗暴的方法是使用正则(re)表达式来匹配(这是必备的,网上有很多学习教程);而更好的方法是先使用xpath(一种解析html文档的语法)获取想要的内容,然后再用re处理获取的内容,使内容更符合我们需要。

学习Python<a class=爬虫真的不难,只需要明白这四个点!" />

4,要学什么

上面是让大家更好地理解爬虫,和基本步骤;下面就是初学需要学些什么东西:

爬虫三部曲:

1,下载页面:使用requests下载网站页面;学习requests模块的基本使用。

2,解析页面:在下载下来的页面中获取想要的信息;学习lxml模块,re模块,xpath语法和re语法的基本使用。

3,保存信息:把解析后的信息保存到本地(先学会保存到Excel表);学习xlwt模块。


http://www.niftyadmin.cn/n/1408277.html

相关文章

align-items和align-content的区别

最近在研究flex布局&#xff0c;容器中有两个属性&#xff0c;是用来定义crossAxis测轴排列方式的。一开始接触align-items还可以理解感觉不难,后来看到align-content就感觉有点混淆了&#xff0c;特开一篇博客记录一下我的学习过程。先来看看两个属性的基本用法和定义&#xf…

Spring之父Rod Johnson

Rod在悉尼大学不仅获得了计算机学位&#xff0c;同时还获得了音乐学位。更令人吃惊的是在回到软件开发领域之前&#xff0c;他还获得了音乐学的博士学位。有着相当丰富的C/C技术背景的Rod早在1996年就开始了对Java服务器端技术的研究。他是一个在保险、电子商务和金融行业有着丰…

前端技术周刊 2018-11-26:WebSocket

好久不见&#xff0c;小编终于从双11项目室放出来啦&#xff0c;周刊恢复每周更新。一边写 Bug 一边买买买的时候&#xff0c;可别忘记了点个关注或订阅哦。 前端快爆 WebKit 推出新的着色语言 WHLSL&#xff0c;它对 HLSL 进行了扩展&#xff0c;变得更安全、更可靠。? 最新的…

我们为什么要使用 AOP

http://www.importnew.com/26951.html

如何用Uber JVM Profiler等可视化工具监控Spark应用程序?

关键要点 持续可靠地运行Spark应用程序是一项具有挑战性的任务&#xff0c;而且需要一个良好的性能监控系统。 -在设计性能监控系统时有三个目标——收集服务器和应用程序指标、在时序数据库中存储指标&#xff0c;并提供用于数据可视化的仪表盘。 Uber JVM Profiler被用于监控…

如何用 Uber JVM Profiler 等可视化工具监控 Spark 应用程序?

关键要点持续可靠地运行 Spark 应用程序是一项具有挑战性的任务&#xff0c;而且需要一个良好的性能监控系统。- 在设计性能监控系统时有三个目标——收集服务器和应用程序指标、在时序数据库中存储指标&#xff0c;并提供用于数据可视化的仪表盘。Uber JVM Profiler 被用于监控…