.Net开源网络爬虫Abot介绍(转)

news/2024/7/19 9:20:53 标签: 爬虫, javascript, 测试

转载地址:http://www.cnblogs.com/JustRun1983/p/abot-crawler.html

.Net中也有很多很多开源的爬虫工具,abot就是其中之一。Abot是一个开源的.net爬虫,速度快,易于使用和扩展。项目的地址是https://code.google.com/p/abot/

对于爬取的Html,使用的分析工具是CsQuery, CsQuery可以算是.net中实现的Jquery, 可以使用类似Jquery中的方法来处理html页面。CsQuery的项目地址是https://github.com/afeiship/CsQuery

一. 对Abot爬虫配置

1. 通过属性设置

先创建config对象,然后设置config中的各项属性:

复制代码
CrawlConfiguration crawlConfig = new CrawlConfiguration(); 
crawlConfig.CrawlTimeoutSeconds = 100; 
crawlConfig.MaxConcurrentThreads = 10; 
crawlConfig.MaxPagesToCrawl = 1000; 
crawlConfig.UserAgentString = "abot v1.0 http://code.google.com/p/abot"; 
crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue1", "1111"); 
crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue2", "2222");
复制代码

2. 通过App.config配置

直接从配置文件中读取,但是也任然可以在修改各项属性:

CrawlConfiguration crawlConfig = AbotConfigurationSectionHandler.LoadFromXml().Convert(); 
crawlConfig.CrawlTimeoutSeconds = 100; 
crawlConfig.MaxConcurrentThreads = 10;

3. 应用配置到爬虫对象

PoliteWebCrawler crawler = new PoliteWebCrawler();
PoliteWebCrawler crawler = new PoliteWebCrawler(crawlConfig, null, null, null, null, null, null, null);

二,使用爬虫,注册各种事件

爬虫中主要是4个事件, 页面爬取开始、页面爬取失败、页面不允许爬取事件、页面中的链接不允许爬取事件。

下面是示例代码:

复制代码
crawlergeCrawlStartingAsync += crawler_ProcessPageCrawlStarting;//单个页面爬取开始 
crawler.PageCrawlCompletedAsync += crawler_ProcessPageCrawlCompleted;//单个页面爬取结束 
crawler.PageCrawlDisallowedAsync += crawler_PageCrawlDisallowed;//页面不允许爬取事件 
crawler.PageLinksCrawlDisallowedAsync += crawler_PageLinksCrawlDisallowed;//页面链接不允许爬取事件

void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e)
{
        PageToCrawl pageToCrawl = e.PageToCrawl;
        Console.WriteLine("About to crawl link {0} which was found on page {1}", pageToCrawl.Uri.AbsoluteUri, pageToCrawl.ParentUri.AbsoluteUri);
}

void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e)
{
        CrawledPage crawledPage = e.CrawledPage;
        if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)
                Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);
        else
                Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);
        if (string.IsNullOrEmpty(crawledPage.Content.Text))
                Console.WriteLine("Page had no content {0}", crawledPage.Uri.AbsoluteUri);

}

void crawler_PageLinksCrawlDisallowed(object sender, PageLinksCrawlDisallowedArgs e)
{
        CrawledPage crawledPage = e.CrawledPage;
        Console.WriteLine("Did not crawl the links on page {0} due to {1}", crawledPage.Uri.AbsoluteUri, e.DisallowedReason);
}

void crawler_PageCrawlDisallowed(object sender, PageCrawlDisallowedArgs e)
{
        PageToCrawl pageToCrawl = e.PageToCrawl;
        Console.WriteLine("Did not crawl page {0} due to {1}", pageToCrawl.Uri.AbsoluteUri, e.DisallowedReason);
}
复制代码

 

三, 为爬虫添加多个附加对象

Abot应该是借鉴了Asp.net MVC中的ViewBag, 也为爬虫对象设置了对象级别的CrwalBag和Page级别的ViewBag.

复制代码
PoliteWebCrawler crawler = new PoliteWebCrawler();
crawler.CrawlBag.MyFoo1 = new Foo();//对象级别的CrwalBag
crawler.CrawlBag.MyFoo2 = new Foo();
crawler.PageCrawlStartingAsync += crawler_ProcessPageCrawlStarting;
...
void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e)
{
        //获取CrwalBag中的对象
        CrawlContext context = e.CrawlContext;
        context.CrawlBag.MyFoo1.Bar();//使用CrwalBag
        context.CrawlBag.MyFoo2.Bar();

        //使用页面级别的PageBag
        e.PageToCrawl.PageBag.Bar = new Bar();
}
复制代码

四,启动爬虫

启动爬虫非常简单,调用Crawl方法,指定好开始页面,就可以了。
复制代码
CrawlResult result = crawler.Crawl(new Uri("http://localhost:1111/"));

if (result.ErrorOccurred)
        Console.WriteLine("Crawl of {0} completed with error: {1}", result.RootUri.AbsoluteUri, result.ErrorException.Message);
else
        Console.WriteLine("Crawl of {0} completed without error.", result.RootUri.AbsoluteUri);
复制代码

五,介绍CsQuery

在PageCrawlCompletedAsync事件中, e.CrawledPage.CsQueryDocument就是一个CsQuery对象。

这里介绍一下CsQuery在分析Html上的优势:

cqDocument.Select(".bigtitle > h1")
这里的选择器的用法和Jquery完全相同,这里是取class为.bittitle下的h1标签。如果你能熟练的使用Jquery,那么上手CsQuery会非常快和容易。

转载于:https://www.cnblogs.com/yxlblogs/p/7088681.html


http://www.niftyadmin.cn/n/1115032.html

相关文章

nvm的下载,安装与使用

nvm的下载,安装与使用 1,nvm作用: 进行nodejs版本控制 2,nvm下载地址: github.com/coreybutler… 注意: github服务器在国内较少,下载速度会很慢链接:pan.baidu.com/s/1DEk3-VJg… 备…

世界是数字的读书笔记

最近在读了《世界是数字的》这本书,由于忙于其他学习并没有把这本书看完,不过在以后会把这篇文章补充完整。 总结一下这几天看这本书的所获: (1)计算机的逻辑构造: 计算机在逻辑上或者功能上的体系结构处理…

调用webservice查询手机号码归属地信息

Web Services是由企业发布的完成其特定商务需求的在线应用服务,其他公司或应用软件能够通过Internet来访问并使用这项在线服务。在这里我们使用soap协议往webservice发送信息,然后得到webservice服务器返回过来的信息,以此来查询手机号码的归…

房地产行业商业智能解决方案分享

中国地产行业经过了20多年的发展,房地产行业整合已成大势所趋,逐步由区域开发转变为集团化的跨地区综合开发商。然而,对于处在超常规速度发展的房地产企业来说,其面临的挑战也是超常规的。首先,房地产企业要在有限的资…

UDP 通讯设置超时时间

<?php function Send_socket_xdcoder_udp($service_port, $address, $in) { //采用php socket技术使用UDP协议连接设备 $socket socket_create(AF_INET, SOCK_DGRAM, SOL_UDP);      //设置超时时间为两秒socket_set_option($socket, SOL_SOCKET, SO_RCVTIMEO, array…

redirect uri 参数错误 怎么办

这种情况&#xff0c;多数是因为请求地址不合法所致。 去公众号中添加合法的地址。 这种地址需要满足一些条件。 设置地址 满足的条件 保证可以访问到安全文件 如果访问不到的话&#xff0c;将无法保存 这里是文件存放位置 经过这些处理&#xff0c;就不会出现redirect uri 参数…

PHP学习-验证用户名密码

登录页&#xff1a;login.php 1 <?php2 //登录3 if(!isset($_POST[submit])){exit(非法访问!);}4 $username $_POST[adname];5 $password $_POST[adpass];6 //包含数据库连接文件7 include(conn.php);8 //检测用户名及密码是否正确9 $check_query mysql_query("sel…

C# 》.NET Api跨域

1.找方法名称是get开头的2.找get请求类型的自定义webapi的路由规则&#xff0c;控制到action跨域设置&#xff1a;&#xff08;服务端&#xff09;webconfig文件中&#xff0c;system.webServer节点下添加<!--跨域请求&#xff1a;三个配置信息--><httpProtocol>&l…