在Spacy Ner中区分国家和城市

2022-05-15 00:00:00 python spacy

问题描述

我正在尝试使用Spacy NER从组织地址中提取国家/地区,然而,它使用相同的标签GPE标记国家/地区和城市。有什么方法可以区分它们吗?

例如:

nlp = en_core_web_sm.load()

doc= nlp('Resilience Engineering Institute, Tempe, AZ, United States; Naval Postgraduate School, Department of Operations Research, Monterey, CA, United States; Arizona State University, School of Sustainable Engineering and the Built Environment, Tempe, AZ, United States; Arizona State University, School for the Future of Innovation in Society, Tempe, AZ, United States')

for ent in doc.ents:
    if ent.label_ == 'GPE':
        print(ent.text)

回馈

Tempe
AZ
United States
United States
Tempe
AZ
United States
Tempe
AZ
United States

解决方案

如其他答案所述,预先培训的Spacy模式的GPE适用于国家/地区、城市和州。但是,有一种解决办法,我相信可以使用几种方法。

一种方法:您可以向模型添加自定义标记。Towards Data Science上有一篇很好的文章可以帮助你做到这一点。为此收集培训数据可能很麻烦,因为您需要在句子中根据城市/国家/地区的各自位置来标记它们。我引用Stack Overflow的答案:

Spacy Ner模型培训包括提取其他&Quot;隐式&Quot;特征,如词性和周围单词。

当您尝试针对单个单词进行训练时,无法获得足够的通用特征来检测这些实体。

以下是解决此问题的一个更简单的解决方法:

安装geonamescache

pip install geonamescache

然后使用以下代码获取国家和城市列表

import geonamescache

gc = geonamescache.GeonamesCache()

# gets nested dictionary for countries
countries = gc.get_countries()

# gets nested dictionary for cities
cities = gc.get_cities()

文档说明您还可以获得许多其他位置选项。

使用以下函数从嵌套词典(从该answer获取)中获取某个名称的键的所有值

def gen_dict_extract(var, key):
    if isinstance(var, dict):
        for k, v in var.items():
            if k == key:
                yield v
            if isinstance(v, (dict, list)):
                yield from gen_dict_extract(v, key)
    elif isinstance(var, list):
        for d in var:
            yield from gen_dict_extract(d, key)

分别加载citiescountries的两个列表。

cities = [*gen_dict_extract(cities, 'name')]
countries = [*gen_dict_extract(countries, 'name')]

然后使用以下代码进行区分:

nlp = spacy.load("en_core_web_sm")

doc= nlp('Resilience Engineering Institute, Tempe, AZ, United States; Naval Postgraduate School, Department of Operations Research, Monterey, CA, United States; Arizona State University, School of Sustainable Engineering and the Built Environment, Tempe, AZ, United States; Arizona State University, School for the Future of Innovation in Society, Tempe, AZ, United States')

for ent in doc.ents:
    if ent.label_ == 'GPE':
        if ent.text in countries:
            print(f"Country : {ent.text}")
        elif ent.text in cities:
            print(f"City : {ent.text}")
        else:
            print(f"Other GPE : {ent.text}")

输出:

City : Tempe
Other GPE : AZ
Country : United States
Country : United States
City : Tempe
Other GPE : AZ
Country : United States
City : Tempe
Other GPE : AZ
Country : United States

相关文章