搜索引擎技术网站

news/2024/7/19 10:41:44 标签: 爬虫, 数据库, java

Lucene:

IBM入门教程:http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/

Lucene中国网站:http://www.lucene.com.cn/

lucene.net:http://lucene.apache.org/lucene.net/

Heritrix:

官网:http://crawler.archive.org/


Heritrix从互联网上抓取网页,Lucene建立索引数据库,在索引数据库中搜索排序

爬虫

http://blog.csdn.net/wangkun9999/archive/2007/05/02/1594496.aspx

http://www.codeproject.com/cs/internet/Crawler.asp

HTML解析器:

http://www.codeproject.com/KB/cs/html2xhtmlcleaner.aspx

http://www.cnblogs.com/dragon/archive/2006/12/06/174946.html

http://www.codeproject.com/dotnet/xpath_visualizer.asp

Keywor: lucene heritrix 爬虫 全文搜索 搜索引擎网站 搜索引擎技术


http://www.niftyadmin.cn/n/1011594.html

相关文章

C语言相关常见面试题:volatile、static、extern、const关键字

1、volatile 一个变量可能是供多方使用的,那么就有可能在某一个程序运行时,这个变量的值被其他程序改变(内存地址中的值被改变),但是读取这个变量时,可能是直接从寄存器中读取,而此时寄存器中的…

感谢所有常来我博客的朋友

好久没有来51CTO更新博客,现在不太愿意写是一个原因,另一个原因就是觉得现在我离纯粹的IT技术工作越来越远。 目前我从事的工作,与IT总是有些关联,但不是主要的。例如自动化、DCS、机房供电系统、机房环境监控系统、机房直流系统等…

数据库 objrs.eof 的理解

今天做数据库的时候又想当然了一把!结果一道题花了一个半小时才解决。 前提是这样的,我在查数据库中的某列时,把查询列跟已知列搞混了,我觉得不管我输入那个列,只要数据库中存在,这个objrs.eof 就不会是tr…

在while里使用scanf_s,输出带有“[“的解决方案

一、问题 在while中使用scanf_s函数&#xff0c;出现以下问题&#xff1a; 出错代码&#xff1a; #include<stdio.h> int main() {char c;while (scanf_s("%c", &c) ! EOF) {printf("%c", c 4);}return 0; }输出结果&#xff1a; 输出结果应…

Lucene .net 下载

目前&#xff0c;lucene.net最新版本是2.9.2 地址&#xff1a;https://svn.apache.org/repos/asf/lucene/lucene.net/tags/Lucene.Net_2_9_2/ 呵呵&#xff0c;当我看到那么多文件夹&#xff0c;目录&#xff0c;也不是rar格式的&#xff0c;我当时都蒙了&#xff0c;这可怎么…

Apache2 httpd.conf 中文版

为什么80%的码农都做不了架构师&#xff1f;>>> # # 基于 NCSA 服务的配置文件。 # #这是Apache服务器主要配置文件。 #它包含服务器的影响服务器运行的配置指令。 #参见<URL: http://httpd.ache.org/doc-2.0/ >以取得关于这些指令的详细信息 # #不要只是简单…

while里面scanf()被忽略的解决办法

一、问题 运行以下代码&#xff1a; #include<stdio.h> #include<stdlib.h> int main() {int a, b;char cNULL;while (c!n){printf("请输入a的值:");scanf_s("%d", &a);switch (a){case 1:printf("%d", a * a); break;case 2:p…