《精通Python网络爬虫:核心技术、框架与项目实战》——3.5 身份识别

news/2024/7/19 9:22:20 标签: 爬虫, python

本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第3章,第3.5节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.5 身份识别

爬虫对网页爬取的过程中,爬虫必然需要访问对应的网页,正规的爬虫一般会告诉对应网页的网站站长其爬虫身份。网站的管理员则可以通过爬虫告知的身份信息对爬虫的身份进行识别,我们称这个过程为爬虫的身份识别过程。

那么,爬虫应该如何告知网站站长自己的身份呢?

一般地,爬虫在对网页进行爬取访问的时候,会通过HTTP请求中的User Agent字段告知自己的身份信息。一般爬虫访问一个网站的时候,首先会根据该站点下的Robots.txt文件来确定可爬取的网页范围,Robots协议是需要网络爬虫共同遵守的协议,对于一些禁止的URL地址,网络爬虫则不应爬取访问。同时,如果爬虫在爬取某一个站点时陷入死循环,造成该站点的服务压力过大,如果有正确的身份设置,那么该站点的站长则可以想办法联系到该爬虫方,然后停止对应的爬虫程序。

当然,有些爬虫会伪装成其他爬虫或浏览器去爬取网站,以获得一些额外数据,或者有些爬虫,会无视Robots协议的限制而任意爬取。从技术的角度来说,这些行为实现起来不难,但是这些行为是我们不提倡的,因为只有共同遵守一个良好的网络规则,才能够达到爬虫方和站点服务方的双赢。


http://www.niftyadmin.cn/n/1825802.html

相关文章

九九乘法表的运算原理注解

图中所示的是九九乘法表运算的两种方式,一个是从1到9,(1)一个是从9到1(-1)。 首先设定一个等于或1的变量赋值,方便以后调,第二部使用while循环(外循环)设定循…

elasticsearch5.0集群+kibana5.0+head插件插件的安装

elasticsearch5.0集群kibana5.0head插件插件的安装es集群的规划:两台16核64G内存的服务器:yunva_etl_es1 ip:1.1.1.1 u04es01.chinasoft.comyunva_etl_es2 ip:2.2.2.2操作系统:centos7.2 x86_641.安装jdk1.8和elasticsearch5.0.1rpm -ivh j…

mysql 安装,启动,配置系统服务,开机启动

在window环境下 安装 mysqld --initialize 启动myql mysqld 配置系统服务 5.0及以下版本 mysqld-nt --install 服务名mysqld-nt --install 服务名--defaults-file<文件名.ini或文件名.cnf>mysqld-nt --install mysql --defaults-filemy.ini5.1以上版本 mysqld.exe --inst…

《Linux/UNIX OpenLDAP实战指南》——1.8 自动化运维解决方案

本节书摘来自异步社区《Linux/UNIX OpenLDAP实战指南》一书中的第1章&#xff0c;第1.8节&#xff0c;作者&#xff1a;郭大勇著&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看 1.8 自动化运维解决方案 1.8.1 互联网面临的问题当今局域网、互联网不断发展&…

《Origin 9.0科技绘图与数据分析超级学习手册》一2.2 窗口类型

本节书摘来自异步社区《Origin 9.0科技绘图与数据分析超级学习手册》一书中的第2章&#xff0c;第2.2节&#xff0c;作者 张建伟&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看 2.2 窗口类型 Origin 9.0科技绘图与数据分析超级学习手册Origin 9.0为图形和数…

PHP扩展安装方法

php扩展安装方法极简单. 也遵循3大步.但多出一个phpize的步骤.1.pecl.php.net 在右上解的输入框 中输入需要的扩展 比如 redis2.搜索完成后会看到两个蓝色的框 . 下方有个表格. 表格内容如 search results (1 of 1) 再下面有一行不起眼的结果. 其中就有一个redis(搜索什…

SQLmap是一款用来检测与利用SQL漏洞的注入神器。

sqlmap 重要参考 http://www.kali.org.cn/forum-75-1.html SQLmap是一款用来检测与利用SQL漏洞的注入神器。开源的自动化SQL注入工具&#xff0c;由Python写成&#xff0c;具有如下特点&#xff1a; 完全支持MySQL、Oracle、PostgreSQL、Microsoft SQL Server、Microsoft Acce…

jquery的2.0.3版本源码系列(1)总体结构

为什么选择2.X版本&#xff0c;而不是1.X版本&#xff0c;因为2.X不兼容IE6/7/8&#xff0c;所以少了兼容代码&#xff0c;让我们更专注于jquery原理的代码。 一共有8830行。 1.1 匿名函数自执行 首先&#xff0c;匿名函数的作用是&#xff0c;把函数内部的变量和函数变成"…