知识图谱的构建形式:
自顶向下:先为知识图谱定义好本体与数据模式,再将实体加入到知识库。
自底向上(常用) :从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。
(1)语义信息抽取; (2)多元数据集成与验证(知识融合); (3)知识图谱补全
知识库分类:
开放链接知识库:Freebase、Wikidata、DBpedia、YAGO。包含大量半结构化、非结构化数据。
垂直行业知识库(特定领域):IMDB(影视)、MusicBrainz(音乐)、ConceptNet(概念)等。
基于规则与词典的方法(为目标实体编写模板,然后进行匹配):编写大量规则或模板,覆盖领域有限,难以适应新需求
基于统计机器学习的方法(机器学习,训练模型,识别实体):监督学习算法受训练集限制,准确率和召回率不够理想
( 召回率:真阳性 / 真阳性 + 假阳性;准确率:真阳性 + 真阴性 / 真阳性 + 假阳性 + 真阴性 + 假阴性 )
面向开放域的抽取方法(面向海量的Web语料):通过少量实体实例建立特征模型,再通过它应用于新的数据集,给新实体做分类与聚类。(迭代扩展)
早期:人工构造语义规则以及模板的方式;
实体间的关系模型代替了早期的人工构造;
面向开放域的信息抽取框架(OIE):对隐含关系抽取性能低下。
( 隐含关系抽取:基于马尔科夫逻辑网、基于本体推理的深层隐含关系抽取方法 )
可以将实体属性的抽取问题转换为关系抽取问题
分布式表示 目的在于用 一个综合的向量来表示实体对象的语义信息 ,这种形式在知识图谱的计算、 补全 、推理等方面起到重要的作用:
1、语义相似度计算:实体间的语义关联程度,为自然语言处理(NLP)等提供了极大的便利
2、
消除异构数据中实体冲突、指向不明等不一致性问题。
(1)待对齐数据分区索引;
(2)利用相似度函数或相似性算法查找匹配实例;
(3)对齐算法(成对实体对齐、全局(局部)集合实体对齐)进行实例融合。
经过实体对齐后得到一系列的基本事实表达,然后事实并不等于知识,它只是知识的基本单位。
本体相当于知识库的模具,使其具有较强的层次结构和较小的冗余程度。
可分为人工构建和数据驱动自动构建。
数据驱动的本体自动构建:
①纵向概念间的并列关系计算:计算两个实体间并列关系的相似度,辨析他们在语义层面是否属于同一个概念。
②实体上下位关系抽取。
③本体生成:对各层次得到的概念进行聚类,并为每一类的实体指定1个或多个公***上位词。
通常是与实体对齐任务一起进行:对知识可信度进行量化,保留置信度较高的,舍弃置信度较低的。
主要包括模式层的更新与数据层的更新。
一阶谓词逻辑、描述逻辑以及规则等
(1)一阶谓词逻辑:以命题为基本,命题包含个体(实体)和谓词(属性或关系)。
(2)基于描述逻辑的规则推理:在(1)的基础上发展而来,目的是在知识表示能力与推理复杂度之间追求一种平衡。
(3)通过本体的概念层次推理。
一些算法主要是 利用了关系路径 中的蕴涵信息:
通过图中两个实体间的多步路径来预测它们之间的语义关系,即从源节点开始,在图上根据路径建模算法进行游走,如果能够到达目标节点,则推测源节点和目标节点间存在联系。
( 关系路径的建模研究仍处于初期阶段,需要进一步探索完成 )
参考文献:
[1]徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(04):589-606.