Python爬虫基本原理

news/2024/7/19 10:16:50 标签: 爬虫, json, 人工智能

WebSpider

网络爬虫:.网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。请求网站并提取数据的自动化程序,可以理解为在网络上爬来爬去的一只蜘蛛,互联网可以比喻成一张大网,爬虫在这张大网爬,遇到一些自己感兴趣的网站资源,就可以模拟浏览器把它抓取下来,之后存入到CSV 数据库等

 

请求网站:就是要用程序实现这个过程,就需要写代码来实现模拟浏览器向服务器发送一个请求,来获取这些网络资源,获取到的是一串html代码,然后我们从里面提取数据存入数据库完成数据采集的过程!.

 

自动化:我们写完程序之后就让他一直运行,他可以代替浏览器向服务器发送请求, 不停的循环运行就可以批量的、大量的获取一些数据,这些就是网络爬虫运行的基本流程.

 

发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应.

 

获取响应内容:如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,内容可以有HTML,json字符串,二进制数据(如图片视频)等类型.

 

解析内容:得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析.可能是json,可以直接转为json对象解析,可能是二进制数据,可以做保存或者进一步的处理.

 

保存数据:保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件.

 

Request与Response的区别:

浏览器就发送消息给该网址所在服务器,这个过程叫HTTP Request.

服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器.

浏览器收到服务器响应的Response信息后,会对信息进行相应处理,然后展示.

Request包含:

①请求方式:主要有GET、POST两种类型,另外还有HEAD、PUT、DELETE、OPTIONS等.POST请求需要构造一个表单提交才可以构造一个POST请求.

②请求URL:URL全称统一资源定位符,如一个网页文档,一张图片,一个视频等都可以用URL唯一来确定.

③请求头:包含一些浏览器重要的配置信息,请求时的头部信息,如User-Agent、Host、Cookies等信息,用来保证我们的程序是可以正常运行的.User-Agent用来指定浏览器请求头,有头之后服务器识别浏览器返回响应,如果不携带请求头服务器可能会认为你是一个非法的请求,不会给你返回页面.

④请求体:请求时额外携带的数据,如表单提交时的表单数据.在GET方式请求的时候请求体是不会携带任何内容的,POST请求Form Data会把表单提交时的一些参数通过配置传给服务器,比如做登录窗口、文件上传的时候这些配置都会被附加到请求体.

 

 

 

 

Response包含:

①响应状态:有多种响应状态,如200代表成功,301代表跳转,404表示找不到页面,502服务器错误.

HTTP状态码分类

HTTP状态码(status code)由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP状态码共分为5种类型:

HTTP状态码分类
分类分类描述
1**信息,服务器收到请求,需要请求者继续执行操作
2**成功,操作被成功接收并处理
3**重定向,需要进一步的操作以完成请求
4**客户端错误,请求包含语法错误或无法完成请求
5**服务器错误,服务器在处理请求的过程中发生了错误
HTTP状态码列表
状态码状态码英文名称中文描述
100Continue继续。客户端应继续其请求
101Switching Protocols切换协议。服务器根据客户端的请求切换协议。只能切换到更高级的协议,例如,切换到HTTP的新版本协议
 
200OK请求成功。一般用于GET与POST请求
201Created已创建。成功请求并创建了新的资源
202Accepted已接受。已经接受请求,但未处理完成
203Non-Authoritative Information非授权信息。请求成功。但返回的meta信息不在原始的服务器,而是一个副本
204No Content无内容。服务器成功处理,但未返回内容。在未更新网页的情况下,可确保浏览器继续显示当前文档
205Reset Content重置内容。服务器处理成功,用户终端(例如:浏览器)应重置文档视图。可通过此返回码清除浏览器的表单域
206Partial Content部分内容。服务器成功处理了部分GET请求
 
300Multiple Choices多种选择。请求的资源可包括多个位置,相应可返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择
301Moved Permanently永久移动。请求的资源已被永久的移动到新URI,返回信息会包括新的URI,浏览器会自动定向到新URI。今后任何新的请求都应使用新的URI代替
302Found临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URI
303See Other查看其它地址。与301类似。使用GET和POST请求查看
304Not Modified未修改。所请求的资源未修改,服务器返回此状态码时,不会返回任何资源。客户端通常会缓存访问过的资源,通过提供一个头信息指出客户端希望只返回在指定日期之后修改的资源
305Use Proxy使用代理。所请求的资源必须通过代理访问
306Unused已经被废弃的HTTP状态码
307Temporary Redirect临时重定向。与302类似。使用GET请求重定向
 
400Bad Request客户端请求的语法错误,服务器无法理解
401Unauthorized请求要求用户的身份认证
402Payment Required保留,将来使用
403Forbidden服务器理解请求客户端的请求,但是拒绝执行此请求
404Not Found服务器无法根据客户端的请求找到资源(网页)。通过此代码,网站设计人员可设置"您所请求的资源无法找到"的个性页面
405Method Not Allowed客户端请求中的方法被禁止
406Not Acceptable服务器无法根据客户端请求的内容特性完成请求
407Proxy Authentication Required请求要求代理的身份认证,与401类似,但请求者应当使用代理进行授权
408Request Time-out服务器等待客户端发送的请求时间过长,超时
409Conflict服务器完成客户端的PUT请求是可能返回此代码,服务器处理请求时发生了冲突
410Gone客户端请求的资源已经不存在。410不同于404,如果资源以前有现在被永久删除了可使用410代码,网站设计人员可通过301代码指定资源的新位置
411Length Required服务器无法处理客户端发送的不带Content-Length的请求信息
412Precondition Failed客户端请求信息的先决条件错误
413Request Entity Too Large由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息
414Request-URI Too Large请求的URI过长(URI通常为网址),服务器无法处理
415Unsupported Media Type服务器无法处理请求附带的媒体格式
416Requested range not satisfiable客户端请求的范围无效
417Expectation Failed服务器无法满足Expect的请求头信息
 
500Internal Server Error服务器内部错误,无法完成请求
501Not Implemented服务器不支持请求的功能,无法完成请求
502Bad Gateway充当网关或代理的服务器,从远端服务器接收到了一个无效的请求
503Service Unavailable由于超载或系统维护,服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中
504Gateway Time-out充当网关或代理的服务器,未及时从远端服务器获取请求
505HTTP Version not supported服务器不支持请求的HTTP协议的版本,无法完成处理

 ②响应头:如内容类型,内容长度,服务器信息,设置cookie等等.

③响应体:最主要的部分,包含了请求资源的内容,如网页HTML,图片等二进制数据等.

 

 

理论上,只要能看的到的数据,都可以抓取.

 

解析方式

1.直接解析:用来处理一些简单直接的网页.

2.json解析:有的网站数据是用ajax加载的,通常返回的是一些json格式的字符串,我们需要把json字符串解析 转换成json对象,然后提取我们需要的数据

3.正则表达式:就是一个规则字符串,把HTML代码里面相应的文本提取出来

4.Beautifulsoup:解析库

5.PyQuery:解析库

6.xpath:解析库

如何解决JavaScript渲染问题

1.分析ajax请求返回json格式的字符串,方便我们提取数据

2.Selenuim/WebDriver驱动一个浏览器来模拟加载网页

3.splash

4.PyV8.Ghost.py 等

如何保存数据

1.纯文本json,xml等

2.关系型数据库 MySQL  Oracle SQL server等具有结构化表结构形式存储

3.非关系型数据库 MongoDB Redis等key-value形式存储

4.二进制文件,如图片视频音频等直接保存成特定格式即可.

转载于:https://www.cnblogs.com/qi_1998/p/9679813.html


http://www.niftyadmin.cn/n/682441.html

相关文章

卓忆翻译:英中对照:Odoo报表设计进阶篇

卓忆翻译:英中对照:Odoo报表设计进阶篇 卓忆科技 2015-10-27 67 阅读卓忆翻译:英中对照: Odoo 报表设计进阶篇 Report Design Workshop 原文: http://odoo.guide/report-design-workshop/ 多图翻译加整理测试&#xff…

笔记本电脑处理器排名_游戏笔记本电脑性价比排行2020-游戏笔记本电脑性价比排名...

玩游戏性价比高的笔记本电脑都有哪些?国庆中秋双节临近之际,不少朋友们都准备入手一款游戏笔记本电脑,那么性价比高的游戏笔记本电脑哪款值得购买?小编为大家分享一下游戏笔记本电脑性价比排名,欢迎前来了解一下。1、三…

Odoo8.0不能创建客户问题的解决 Document type: res.partner, Operation: read

Odoo8.0不能创建客户问题的解决 (2015-01-25 19:42:27) 转载▼标签: openerp odoo 不能创建客户 分类:OpenERP问题解决 Odoo8.0不能创建客户问题的解决原文地址:http://shine-it.net/index.php?topic16646.msg29128#msg29128现象&#xff1a…

机械制造工艺基础_机械制造与自动化专业考研就业前景如何?

摘要:中国是举足轻重的制造业大国,通过多年的努力和沉淀,如今已从低端劳动密集型开始,转向高端智能制造领域。自2018年以来,国家针对制造业出台了,降低制造业企业成本的政策举措。意图十分明显,…

stat命令输出结果中, Access,Modify,Change的含义

先建立一个空白文件a.txt 1[emduseremd tmp]$ touch a.txt2 3[emduseremd tmp]$ ls -al a.txt4 5-rw-rw-r-- 1 emduser emd 0 Dec 14 16:44 a.txt利用stat命令查看文件a.txt的各种属性01[emduseremd tmp]$ stat a.txt02 03 File: a.txt04 05 Size: 0 Blocks: 0…

OpenERP库存管理的若干概念讲解(新增库存价值)

OpenERP库存管理的若干概念讲解(新增库存价值) 于: 六月 03, 2011, 09:01:50 下午 一、复式库存(Double-Entry Stock Management)和库存移动(Stock Move)OpenERP的库存管理采取了独特的复式库存(Double-Entry Stock M…

LINUX下/ect/rc.d/目录的作用

init.d/ :各种服务器和程序的二进制文件存放目录。 rcx.d/: 各个启动级别的执行程序连接目录。里头的东西都是指向init.d/的一些软连接。具体的后边叙述。 还有三个脚本:rc.sysinit, rc, rc.local redhat的启动方式和执行次序是: 1加载内核 2执行init程序 3/etc/r…

OpenERP采购的两种不同情况

OpenERP采购的两种不同情况 原材料采购有两种情况,一种是先收货,并按实际收货数量付款;一种是先付款,对方再发货。对于国内的供应商,通常都采用前者处理,但有些进口原材料,对方会要求先付款&am…