Nutch 使用入门(二）——互联网抓取

softkid

浏览: 100862 次
性别:
来自: 长沙

最近访客更多访客>>

小卒大兵

boboshenqi

tyrival

blankcw

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

互联网 QQ 网络协议搜索引擎 Gmail

/** 
 *本人亦初学者，如有不正确的地方请多多指教。谢谢！ 
 **/

Nutch 互联网抓取

1. 下载列表获取

真正实现全互联网数据抓取需要一个比较大的入口 URL 列表，幸运的是 Nutch 在设计时考虑到了这个问题。通过 DmozPraser 工具提供了对开放式互联网 DMOZ 目录库的支持。 DMOZ 目录库可以直接从网上下载使用，目前最新版的数据压缩文件 content.rdf.u8.gz 有 295MB ，解压缩后达到 1.91GB 。使用 DmozPraser 工具可以从文件中随机抽取部分数据，生成文件列表，详细操作命令如下所示：

bin/nutch org.apache.tools.DomzPraser content.rdf.u8 -subset 3000 >domzurls.txt

命令执行的结果是 Nutch 根目录下生成了一个 dmozurls.txt 的文本文件。该文件可以作为入口地址添加到下载库中。如果要建立全互联网的搜索引擎，可以把 content.rdf.u8 中的所有数据添加到下载库。下载全网数据是一项费时费力的工作，且超过了个人实验的范围，而且 dmozurls 文本文件中包含了很多国外的站点，我们访问比较慢。所有我们将采取另外一种办法。

另外一种办法是查找国内比较大的互联网站点。这些站点的 URL 是通过分析 http://top.chinalabs.com/， http://top.chinaz.com/， http://www.chinarank.org.cn/ 三大中国互联网排行网站获得。应该说可以具有代表性。分析的原理和过程在此不作赘述。得到一个 chinaurls.txt 的文本。部分结果如下：

http://www.baidu.com
http://www.qq.com
http://www.google.cn
http://www.sina.com.cn
http://www.163.com
http://www.taobao.com
http://www.soso.com
http://www.sohu.com
http://www.youku.com
http://www.tianya.cn
http://www.hao123.com
http://www.kaixin001.com
http://www.alibaba.com
http://www.sogou.com
http://www.ifeng.com
http://www.cnzz.com
http://www.chinaz.com
http://www.xunlei.com
http://www.soufun.com
http://www.126.com

2. 下载大量网站

入口 URL 列表准备好之后，下一步的工作就是导入 Nutch 系统，完成下载工作，具体过程如下：

1) 打开 Nutch 的根目录，新建一个 InternetWeb 和 urls 目录

2) 复制 chinaurls.txt 文件到 Nutch 的根目录下的 urls 目录。利用文件内容向 InternetWeb 目录数据库里面添加初始的入口 URL ，命令及执行结果如下：