什么是网络爬虫?
网络爬虫又称网页蜘蛛,网络机器人,是一种按照一定规则,自动请求万维网网站并且提取网页信息的程序或脚本
爬虫可以分为几类
- 按照使用场景分类
- 按照爬取形式分类
- 按照爬取数据的存在方式
法律风险
Robots协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots ExclusionProtocol),是一种网届通行的道德规范,围绕搜索技术应服务于人,同时尊重信息提供者的意愿,并维护其隐私权;网站有义务保护其使用者的个人信息和隐私不受侵犯。
网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取. 根据协议,网站管理员可以在网站域名的根目录下放一个robots.txt 文本文件,里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面,指定的页面由正则表达式表示。 网络爬虫在采集这个网站之前,首先获取到这个文件,然后解析到其中的规则,然后根据规则来采集网站的数据。 注意,这个协议的存在更多的是需要网络爬虫去遵守,而起不到防止爬虫的功能。
避免风险:
- 严格遵守网站设置的robots协议;
- 在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
- 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除
爬虫伪装
- 设置User-Agent
- 使用代理IP
- 降低访问频率
- 如果自己没有代理IP,那就降低爬取频率,减小服务器的压力