知识抽取的关键技术是:实体抽取、关系抽取、属性抽取。
实体抽取:在技术上更多称为NER(Named Entity Recognition,命名实体识别),指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确、召回率等将直接影响到知识库的质量。因此,实体抽取是知识抽取中最为基础与关键的一步;
关系抽取(Relation Extraction):目标是解决实体间语义链接的问题,早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后,实体间的关系模型逐渐替代了人工预定义的语法与规则。
属性抽取:属性抽取主要是针对实体而言的,通过属性可形成对实体的完整勾画。由于实体的属性可以看成是实体与属性值之间的一种名称性关系,因此可以将实体属性的抽取问题转换为关系抽取问题。
在此过程后还包含了实体统一技术和指代消融技术,以提高知识提取的实体的实体统一和指代消融。指代消解和实体统一是知识抽取中比较难的环节。
实体统一(Entity Resolution)指的是同一个本本中可能有不同的写法,比如说“LBJ”就是詹姆斯的缩写,因此“勒布朗詹姆斯”和“LBJ”指的就是同一个实体,实体统一就是处理这样问题的一项技术。