bert为什么加不加crf都行,加crf好处在哪?
加crf:相当于是显式地去捕捉标签之间的依赖关系。
但是为什么很多人说bert和bert+crf效果差不多,我觉得bert能够表达的语义空间足够丰富,去捕捉到标签之间的依赖关系。也有人说bert+crf还是会好一些,我认为可能是数据集相关特性的关系,或者调参等等原因。
1.BERT+BiLSTM+CRF>BiLSTM+CRF
多了一层BERT初始化word embedding,比随机初始化肯定要好,这个就不多解释了。
2.BERT+BiLSTM+CRF>BERT+CRF
首先BERT使用的是transformer,而transformer是基于self-attention的,也就是在计算的过程当中是弱化了位置信息的(仅靠position embedding来告诉模型输入token的位置信息),而在序列标注任务当中位置信息是很有必要的,甚至方向信息也很有必要(我记得复旦大学去年的一篇NER论文TENER当中有提到过这一点,感兴趣可以直接知乎搜TENER),所以我们需要用LSTM习得观测序列上的依赖关系,最后再用CRF习得状态序列的关系并得到答案,如果直接用CRF的话,模型在观测序列上学习力就会下降,从而导致效果不好。(纯属个人见解)