爬虫入门必学——常见的几种网站类型

news/2024/7/19 9:15:25 标签: 爬虫, 大数据, python

在学习爬虫前,我们需要先掌握网站类型,才能根据网站类型,使用适用的方法来编写爬虫获取数据。

今天小编就以国内知名的ForeSpider爬虫软件能够采集的网站类型为例,来为大家盘点一下数据采集常见的几种网站类型。

l常见网站类型

1.js页面

JavaScript是一种属于网络的脚本语言,被广泛用于Web应用开发,常用来为网页添加各式各样的动态功能,为用户提供更流畅美观的浏览效果。通常JavaScript脚本是通过嵌入在HTML中来实现自身的功能的。

ForeSpider数据抓取工具可自动解析JS,采集基于js页面中的数据,即可采集页面中包含JS的数据。

Ajax即异步的JavaScript和XML,它不是一门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。

我们浏览网页的时候,经常会遇到这样的情况,浏览某页面时,往后拉页面,页面链接并没有变化,但是网页中却多了新内容,这就是通过Ajax获取新数据并呈现出来的过程。

ForeSpider数据采集系统支持Ajax技术,可采集Ajax网页中的内容。

2.post/get请求

在html语言中,有两种方式给服务器发送表单(你在网页中填写的一些数据)。一种是POST一种是GET。POST把表单打包后隐藏在后台发送给服务器;GET把表单打包发送前,附加到URL(网址)的后面。

ForeSpider采集器可采集数据在post/get请求中的网页内容,即采集post/get请求中的数据。

3.需要Cookie的网站

Cookie指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。Cookie基于 Internet的各种服务系统应运而生,是由 Web 服务器保存在用户浏览器上的小文本文件,它可以包含有关用户的信息,是用户获取、交流、传递信息的主要场所之一,无论何时用户链接到服务器,Web 站点都可以访问 Cookie 信息。

一般用户的账号信息记录在cookie中,爬虫爬取数据的时候,可以使用cookie模拟登录状态,从而获取到数据。

ForeSpider数据采集分析引擎可设置cookie来模拟登陆,从而采集需要用到cookie的网站内容。

4. 采集需要OAuth认证的网页数据

OAUTH协议为用户资源的授权提供了一个安全的、开放而又简易的标准。同时,任何第三方都可以使用OAUTH认证服务,任何服务提供商都可以实现自身的OAUTH认证服务,因而OAUTH是开放的。

业界提供了OAUTH的多种实现如PHP、Java Script,Java,Ruby等各种语言开发包,大大节约了程序员的时间,因而OAUTH是简易的。互联网很多服务如Open API,很多大公司如Google,Yahoo,Microsoft等都提供了OAUTH认证服务,这些都足以说明OAUTH标准逐渐成为开放资源授权的标准。

ForeSpider爬虫软件支持OAuth认证,可以采集需要OAuth认证的页面中的数据。

l 前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

 


http://www.niftyadmin.cn/n/1191383.html

相关文章

数据分析相关管理职位的崛起

数据分析相关管理职位的崛起 企业对于信息技术的要求越来越高,对于IT人才的需求也越来越大,从CEO到CFO到COO到CIO,这些高端的管理职位,成为从事不同行业人多追求,也是企业中重要的,可以起关键作用的核心人物…

爬虫入门——爬虫可以采集哪些格式的数据?

上一篇为大家介绍了爬虫可以采集的数据范围及采集场景,今天来为大家继续介绍一下爬虫可以采集的数据格式有哪些。 1.采集文本数据 也就是文字,爬虫可以采集网页/app中公开展示的文字内容。这是最最常见的数据格式。 ForeSpider数据采集器,可…

技术文章-异常与异常处理

在Java编程中,出现程序异常的情况很常见,可能是编译时就出现了异常,也可能是程序运行时才出现异常,出现异常不一定都是坏事,异常也是可以被利用的。 1.Java异常的关键字与作用 try关键字: 首先try肯定会配合…

一分钟带你了解分布式集群采集

数据采集一般可分为两种:集中式数据采集和分布式数据采集。 我们通常所说的采集某个或某些平台上的数据一般属于集中式采集,指的是一个爬虫采集一个或多个网站的情况。 那么什么是分布式集群采集呢? 在此之前我们先来了解什么是分布式。 举个…

Java中创建操作文件和文件夹的工具类

Java中创建操作文件和文件夹的工具类 FileUtils.java 1 import java.io.BufferedInputStream;2 import java.io.BufferedOutputStream;3 import java.io.File;4 import java.io.FileInputStream;5 import java.io.FileNotFoundException;6 import java.io.FileOutputStream;7 i…

阿里云发布云安全中心,普惠云原生安全能力

3月21日,在2019阿里云峰会北京上,阿里云正式发布云安全中心,依托云的原生能力,实现从安全预防到主动防御为一体的自动化安全运营闭环,有效降低企业安全运营门槛、提升企业整体安全水位,有望成为安全行业标准…

久等了~史上最全爬虫采集场景终于来了

前嗅每天都接到很多数据采集的需求,虽然来自不同行业、网站及企业,不过各需求的采集场景都有很多类似之处。小编结合大家的数据采集需求,总结了以下几种爬虫常见的数据采集场景。 1.实时采集并更新新增数据 对于很多舆情或政策监测的数据采集…

初步了解Canvas

<--------一些理论储备&#xff1a; --------------------------------------------------------------------------------------------------------------------------------->HTML5 Canvas元素允许我们在HTML5页面中的canvas区域自由的绘制图形。在HTML5 Canvas上绘制图…