列表格式显示

热搜词:winrar    ftp   office   photoshop   输入法   ghost   win7  

09编程开发 - 分类

广告招商中......
联系方式!

编程工具 - 时间排序 更多...
    编程工具 - 点击排序 更多...
      编程工具 - 大小排序 更多...
        作者

         

        最近发布的软件 更多>>

        首页 >> 09编程开发>> 编程工具>>Apache Nutch 发布者:admin >> 本人发布的更多软件

        广告招商中...... 联系方式!

        Apache Nutch 

             
        软件厂家: 官方网站:
        大小: 语言:
        类型: 类别:
        更新时间: 运行环境:
        ;开始下载地址

        apache nutch 是一款用于java编程工具的搜索引擎软件,快速完成java数据编程,智能检索java资源便捷使用。快来绿色资源网下载体验吧!

        软件介绍

        nutch是一个开源java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和web爬虫。nutch诞生于2002年8月,是apache旗下的一个用java实现的开源搜索引擎项目,自nutch1.2版本之后,nutch已经从搜索引擎演化为网络爬虫,接着nutch进一步演化为两大分支版本:1.x和2.x,这两大分支最大的区别在于2.x对底层的数据存储进行了抽象以支持各种底层存储技术。nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的web搜索引擎.

        使用原理

        在创建一个webdb之后(步骤1), “产生/抓取/更新”循环(步骤3-6)根据一些种子urls开始启动。当这个循环彻底结束,crawler根据抓取中生成的segments创建索引(步骤7-10)。在进行重复urls清除(步骤9)之前,每个segment的索引都是独立的(步骤8)。最终,各个独立的segment索引被合并为一个最终的索引index(步骤10)。

        其中有一个细节问题,dedup操作主要用于清除segment索引中的重复urls,但是我们知道,在webdb中是不允许重复的url存在的,那么为什么这里还要进行清除呢?原因在于抓取的更新。比方说一个月之前你抓取过这些网页,一个月后为了更新进行了重新抓取,那么旧的segment在没有删除之前仍然起作用,这个时候就需要在新旧segment之间进行除重。


        本页Html网址:/htmlsoft/57879.html

        本页aspx网址:/soft.aspx?id=57879&bianhao=20240101_015758_033965&kind1=09编程开发&kind2=编程工具

        上一篇:udk3引擎

        下一篇:masm5.0 64位

        增加   


        相关评论        新窗口打开查看评论