成语大全网 - 成语词典 - 基于词典信息增强的中文医疗领域NER

基于词典信息增强的中文医疗领域NER

TODO

TODO

在普通的BiLSTM+CRF的NER框架基础上,加入针对中文的额外 编码方式 和 医学领域词典 信息,进一步增强了模型的表现。

增强方式分为两种:模式匹配和***同训练

1. 模式匹配

基于准确的模式匹配,直接得到input sentence的 Term Matching Embedding,加入joint embedding集合。

2.***同训练

由于文本中某些信息和dictionary中是同一个意思,但是不完全相同,模式匹配无法匹配到,因此采用***同训练的方式,即通过训练使CNN layer学到词典中NER的knowledge。

TODO

TODO