几个Java的网络爬虫

news/2024/7/19 8:44:00 标签: 爬虫, java, c#
几个Java的网络爬虫,有兴趣的可以参考一下,也可以改成C#的。我用过其中J-spider,只爬取网页,不做解析。感兴趣的可以把这个下载下来,看看源代码。我最初的爬虫就是用J-spider扩展的,后来因为字符的编码问题,就放弃了改用C#。
 

页面:http://www.open-open.com/68.htm

item.gifHeritrix   点击次数:9563

Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

item.gifWebSPHINX   点击次数:7273

WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。

item.gifWebLech   点击次数:5880

WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

item.gifArale   点击次数:5666

Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

item.gifJ-Spider   点击次数:6210

J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩展你所需要的功能。

item.gifspindle   点击次数:5715

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

item.gifArachnid   点击次数:5487

Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

item.gifLARM   点击次数:6079

LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫

item.gifJoBo   点击次数:5769

JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。

item.gifsnoics-reptile   点击次数:5057

snoics-reptile是用纯Java开发的,用来进行网站镜像抓取的工具,可以使用配制文件中提供的URL入口,把这个网站所有的能用浏览器通过GET的方式获取到的资源全部抓取到本地,包括网页和各种类型的文件,如:图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬盘内,并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如:Apache)中,就可以实现完整的网站镜像。
下载地址:
snoics-reptile2.0.part1.rar
snoics-reptile2.0.part2.rar
snoics-reptile2.0-doc.rar    

item.gifWeb-Harvest   点击次数:5284

Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作

转载于:https://www.cnblogs.com/jadepark/archive/2007/08/02/839783.html


http://www.niftyadmin.cn/n/1366226.html

相关文章

截图不管用_好用到飞起!用了就回不去的8款Windows软件,试完你会感谢我的

有一天,你和你的朋友一起去买电脑,刚好看中了同一款电脑,于是就各自买了不同颜色的同款笔记本电脑。过了几个月之后,你去朋友家玩耍的时候,突然有事情需要借用电脑,然后……没错,你发现朋友的电…

jitter 如何优化网络_网络营销专员浅析网络营销过程中如何做好网站权重流量的优化...

在搜索引擎中通过检索关键词后所展示出来的首页网站大多都有着不错的流量和权重,这对于企业网站来说是网站优化运营和网络营销推广专业水准的体现,这也是无数专业人士背后默默运营得出的结果。通常情况下,网站权重和流量越高,搜索…

.Net 2.0 正则表达式里的$在Multiline模式下的精确含意

在使用正则表达式处理文本的过程中,我经常发现在RegexTester里测试好的正则表达式写到代码中后根本不能匹配.一步步追踪后,终于发现,原来这里牵扯到$在Multiline模式下的精确含意的问题.在正则表达式里,$本来代表字符串的结尾,但是如果使用了RegexOptions.Multiline选项的话,它…

u9系统的使用方法仓库_临沂WMS仓库管理系统的使用价值

临沂仓库管理系统(WMS)有哪些好处现代制造业企业中,智能化的工厂条码仓库管理系统、WMS仓库管理系统都是必备的管理系统,那什么是仓库管理系统(WMS)呢?WMS即仓库管理系统,仓库管理系统是通过入库业务、出库业务、仓库调拨、库存调…

第十二章 齐桓公不计前嫌用良才 管夷吾庙堂陈谋论国是

众人唱着管仲创作的歌曲,很快就进了齐国的的境内,大家累得不行,管仲倒是长出了一口气,刚才他一直在担心鲁庄公派人追杀他,现在已经安全无忧了,可以好好考虑接下来的事情了。因数刚才一阵急走,众…

python显示所有列_【python后台admin】所有属性显示设置

# 在列表页显示的字段,默认会显示所有字段,有对应的方法可以重写list_display (__str__,)# 在列表页显示的字段中,可以链接到change_form页面的字段list_display_links ()# 右侧的筛选,必须是字段,可以继承自SimpleListFilter来自定义筛选字段和规则,SimpleListFilter的方法在…

@data 重写set方法_解释的很清楚!为什么重写equals()方法必须重写hashcode()方法?...

今天来点比较基础的。equals方法是Object类的方法,比较的是地址是否相等,跟是等价的,注意,这说的是Object中是等价的。public boolean equals(Object obj) { return (this obj); }但是,往往我们会重写这个方法&#x…

VBA EXCEL实例 wj-wangjun

DimMyVarPrivateSub CommandButton1_Click()Sub CommandButton1_Click()Dim cgVar, jhVar, xgNumber, xNo, yNo For xNo 3 To 60 cgVar ActiveWorkbook.Worksheets("采购").Range("E" & CStr(xNo)).Value jhVar ActiveWorkbook.Worksheets…