ICTClAS2016(NLPIR) 的
【注】该实现方法较为复杂,可以考虑python推出的pyNLPir包来进行分词,具体操作参见博文【windows7 32位环境下pynlpir的安装与使用】
最近在使用Python做自然语言处理的实验,python3.4下安装最新版的ICTClAS2016操作如下:
环境:win7 32位
在Python下可以采用的较好的中文分词工具是结巴中文分词和中科院的分词系统。我选用的是中科院分词系统ICTClAS。
步骤:
一、配置python的集成开发环境:
PyCharm是用于开发python程序的集成开发环境。
1.首先下载安装python3.4,下载地址:https://www.python.org/downloads/
下载后按步骤安装即可。安装成功后配置环境变量,在path中添加python路径。
2.下载最新版的pycharm5.0.3专业版,地址:http://www.jetbrains.com/pycharm/download/#section=windows
P.s:(1)pycharm是收费的,有30天的试用期,破解办法:运行前先将自己的电脑日期往后设置几年,比如设置到2020.1.1,然后运行pycharm后,再将电脑时间改回即可。
(2)使用pycharm的时候选择解释器的时候,选择已安装的python即可。
二、安装python下的NLPIR/ICTCLAS
1.下载最新版的NLPIR/ICTCLAS,下载地址:http://ictclas.nlpir.org/downloads
2.将【Data】整个文件夹拷贝到【sample】--【pythonsample】下。
3.将【lib】文件夹里的各个型号的dll 拷贝到【pythonsample】 --【nlpir】里,替换原来的旧的dll,文件名字要对应更改,如拷过来的是win32下的NLPIR.dll,要对应的改成NLPIR32.dll 放到【pythonsample】 --【nlpir】里。
4.打开【pythonsample】里的nlpir.py :
(1)将libFile = './nlpir/NLPIR64.dll' 这一句里的dll改成对应自己系统版本的dll,例如是32位的,就改成libFile= './nlpir/NLPIR32.dll'
(2)第213行if not Init('',ENcoding.UTF8_CODE,''):改为:
### if not Init('',ENCODING.UTF8_CODE,''): #use this line for python 2.x
if not Init(b'',ENCODING.UTF8_CODE,b''): #use this line for python 3.x; for python3, string parameters should be bytes type
相关文章