如何将nutch2.3的bin/crawl脚本改写为java类
如何将nutch2.3的bin/crawl脚本改写为java类
在nutch2.3的bin目录下,默认的crawl脚本是用shell脚本编写的。如果要将其改写为java类,则需要做一些修改。
首先,需要修改bin/crawl脚本中的第一行,将#!/bin/sh改为#!/usr/bin/env java,这样才能使脚本在java环境中运行。
然后,在脚本中找到以下行:
NUTCH_JAVA_OPTS=""
将其改为:
NUTCH_JAVA_OPTS="-Djava.awt.headless=true"
这样就可以在没有图形界面的环境中运行脚本了。
接下来,需要修改脚本中的一些变量名,将其改为java中的变量名。例如,将变量名“segment”改为“seg”,将变量名“crawldb”改为“crawlDb”,将变量名“linkdb”改为“linkDb”等等。
最后,需要将脚本中的一些命令改为java中的命令。例如,将命令“echo”改为“System.out.println”,将命令“mkdir”改为“new File(dir).mkdirs()”,将命令“rm”改为“FileUtils.deleteDirectory(new File(dir))”等等。
修改完以上内容后,就可以将nutch2.3的bin/crawl脚本改写为java类了。
相关文章