[转]Httrack工具与使用指南

news/2024/7/19 11:54:29 标签: python, 爬虫
  1. HTTrack工具介绍

    HTTrack是一个网站镜像工具,本来是用来抓取网站做离线浏览用的。但是HTTrack爬虫特性和搜索引擎蜘蛛爬虫非常的像,这也逐渐应用到 SEO(搜索引擎优化)工作中。其实这两种看似不同的爬虫做的都是同样的工作,就是复制网站并存储下来(网站在搜索引擎中的网页快照就是被存储下来的内容)。

HTTrack Website Copier界面如下图所示:

 

    我们一般用 HTTrack Website Copier 来对网站进行检测或测试,模拟爬虫对受保护服务的爬行、抓取、收录,以来测试我们的防护设备对爬虫的防护。

  1. HTTrack工具使用

第一步:创立项目的名称(工程名)

第二步:选择操作方式,再点击添加URL”,将我们的网站地址添加进去。

 

    第三步:进入选项,设定爬行和抓取规则等选项

 

在选项中,取消使用代理进行FTP传输

进入扫描规则,为HTTrack程序设定爬行和抓取规则,HTTrack里面自带了一些,可以自己设置,也可以默认。

 

这样的扫描规则搜索引擎也一定会有的,比如不收录.exe文件,zip文件等等。然后不收录一些特定的跟踪链接, 如 ad.doubleclick.net 。你需要把一些搜索引擎爬虫不收录的特征加进去。

然后在“搜寻”里面,很多的特征都是现在搜索引擎爬虫的特征:

 

一般的搜索引擎不会接收cookies,因此测试时我们也将此项去掉。

第四步:一般按照以上设置就可以,其他的默认就行。点击下一步:

 

在此页面,我们不用选择任何项,直接点击完成就可以进行测试了,如下图

 

    此时,HTTrack开始对网页进行爬行,抓取。

原文地址:https://wenku.baidu.com/view/b128946327d3240c8447ef61.html

转载于:https://www.cnblogs.com/dirgo/p/7382700.html


http://www.niftyadmin.cn/n/1314267.html

相关文章

引导错误无法启动linux,CentOS GRUB引导错误无法进入系统解决办法 | 系统运维

问题:CentOS开机出现GRUB引导错误,无法进入系统,如下图所示解决办法:使用CentOS安装光盘进行开机GRUB引导修复具体操作:使用CentOS系统光盘引导计算机(系统盘要与原来安装的系统版本相同)如下图所示按F5进入系统修复模…

leetcode Search in Rotated Sorted Array II

每次二分有四种情况&#xff1a; 1. nums[mid] target&#xff0c;则可以返回mid 2. nums[mid] < nums[right]&#xff0c;说明在[mid, right]区间是右边递增的区间&#xff0c;然后判断target是否在这个区间内 1&#xff09;如果nums[mid] < target < nums[right]&a…

linux系统管理权限代码,Linux 系统管理 01:文件权限管理(示例代码)

这篇文章主要包括如下主题&#xff1a;一、基础概念二、安全上下文三、基本权限四、特殊权限五、文件访问控制列表一、基础概念1、文件拥有者&#xff1a;属主2、文件拥有组&#xff1a;属组二、安全上下文1、进程是以某用户发起从而运行的&#xff0c;故进程会以运行其用户的权…

junit initializationError和找不到或无法加载主类

今天在做Junit测试的时候 出现了initialzationError , 在网上查找&#xff0c;一般都是因为Jar 包冲突或者缺少Jar包导致的&#xff0c; 但是我的其他方法是可以使用Junit 的&#xff0c; 所以感觉应该跟这个没有关系 但是把网上的前人的经验先记录下 &#xff0c; 以防之后遇…

linux shell echo -n read op,shell编程学习笔记之标准输入输出(readecho)

2017-07-17 09:32:07输入read&#xff1a;用途&#xff1a;从标准输入读取一行&#xff0c;或者从文件描述符FD(file descriptor)中读取一行&#xff0c;并且将其分割成字段。用法&#xff1a;read [-ers] [-a 数组] [-d 分隔符] [-i 缓冲区文字] [-n 读取字符数] [-N 读取字符…

练手之经典病毒熊猫烧香分析(上)

熊猫烧香病毒在当年可是火的一塌糊涂&#xff0c;感染非常迅速&#xff0c;算是病毒史上比较经典的案例。不过已经比较老了&#xff0c;基本上没啥危害&#xff0c;其中的技术也都过时了。作为练手项目&#xff0c;开始对熊猫烧香病毒进行分析。首先准备好病毒样本(看雪论坛有)…

linux中的struct有什么作用,Linux_Struct_inode() 结构体详解

*索引节点对象由inode结构体表示&#xff0c;定义文件在linux/fs.h中*/struct inode {struct hlist_node i_hash; /* 哈希表 */struct list_head i_list; /* 索引节点链表 */struct list_head i_dentry; /* 目录项链…

IDEA中不同项目配置不同JDK

安装JDK后&#xff0c;选择其中一个配置环境变量&#xff0c;在IDEA中可以给不同项目选择不同的JDK版本。如下图两个项目&#xff1a; 转载于:https://www.cnblogs.com/zhima-hu/p/7401528.html