Nutch数据集的目录具体内容是什么

2023-04-06 10:06:00 数据 目录 具体内容

Nutch数据集的目录包含了一个crawl文件夹,里面存放着爬取的网页数据,还有一个parse文件夹,里面存放着解析后的网页数据。crawl文件夹下的网页数据是按照网页的URL结构存储的,parse文件夹下的网页数据是按照网页的内容结构存储的。

相关文章