删除POS标签器的标签

2022-04-23 00:00:00 stanford-nlp pos-tagger java

可以去掉句子中的标签吗?你可以通过扫描文件并找到标签并删除它们来实现这一点,但由于标签很多(一些型号有30+,一些型号大约有48-50,它们基本上遵循penn treebank pos tags),有没有一种快速而甜蜜的方法来更有效地删除标签? 我确实检查了API,但没有这样的方法来移除标签。


解决方案

没有为此专门构建的内容,但由于输出既包括单词又包括其标记,我不确定为什么需要再次扫描原始文档。难道不能通过删除最后一个标记分隔符(‘/’或其他字符)直到空格来删除标记吗?或者,它可以更简单地使用

-outputFormat tsv

然后,您将获得两列输出,其中单词在第一列,标记在第二列,完成后只需保留第一列。

相关文章