↧
Nutch配置文件的加载
Nutch的配置文件主要有三类: Nutch插件的配置文件,这些配置文件主要是在加载插件的时候由插件自己加载的,主要是filter和normalizer插件的配置文件 Nutch自己的配置文件,nutch-default.xml和nutch-site.xml Hadoop的配置文件,hadoop-default.xml和hadoop-site.xml...
View Article用tsocks代替sockscap来转发网络请求
你有没有遇到过这种情况: 某一台机器A的网速特别快, 另外一台机器B和A机器在同一个局域网内, 但是B机器的带宽有限, 由于A机器和B机器由于是在局域网内, 传输速度很快, 所以如果能把B机器的网络请求先发到A, 再由A转发出去, 这样B机器的网速可以一样很快了. 那么怎样来转发请求呢? 很显然, 用代理软件就可以做到. 但是, 我在这里给大家提供一个更简便的架设socks代理的方法,...
View Articlenutch的分布式抓取
前段时间我写了一篇文章讲nutch的简单使用,是单台机器抓取,今天我讲一下nutch的分布式抓取。 由于nutch的分布式是采用hadoop,所以nutch的分布式抓取主要涉及到hadoop和nutch本身两方面的配置。 hadoop的配置 hadoop的配置主要涉及到以下几个文件: hadoop-env.sh hadoop-env.sh里面是一些hadoop脚本文件需要用到的环境变量。...
View Article