导入nltk库时未找到语料库/停止字
问题描述
我尝试在python2.7中导入nltk包
import nltk
stopwords = nltk.corpus.stopwords.words('english')
print(stopwords[:10])
运行此命令会出现以下错误:
LookupError:
**********************************************************************
Resource 'corpora/stopwords' not found. Please use the NLTK
Downloader to obtain the resource: >>> nltk.download()
因此,我打开我的python termin并执行以下操作:
import nltk
nltk.download()
这给了我:
showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
然而,这似乎并没有停止。再次运行它仍然会给我带来相同的错误。您认为这出了什么问题?
解决方案
您当前正在尝试下载nltk数据中的每个项目,因此这可能需要很长时间。您可以尝试仅下载所需的停用字:
import nltk
nltk.download('stopwords')
或命令行(感谢Rafael Valero's answer):
python -m nltk.downloader stopwords
引用:
- Installing NLTK Data - Command line installation
相关文章