Glove词向量出自于论文《Glove:Global Vectors for Word Representation》
Glove的全称是Global Vectors for Word Representation,中文意思是全局词向量,它是一个基于 全局词频统计(count-based&overall statistics) 的 词表征(word representation) 工具。
跟word2vec一样,它可以把一个单词表示成一个由实数组成的向量,向量可以捕捉单词之间的一些语义特性,如相似性(similarity)、类比性(analogy)。并且通过对向量的运算,如欧几里得距离或cosine相似度,可以计算两个单词之间的 语义相似性。
3.构造loss function:
这个损失函数是最简单的mean square loss,只不过在此基础上增加了一个权重函数 ,它的作用在于:对于在一个语料库中经常一起出现的单词(frequent occurrence),
文中,作者采用了符合上述条件的分段函数:
文中的所有实验, 的取值都是 的取值都是 。
虽然很多人声称Glove是一种无监督(unsupervised learning)的学习方式,即不需要人工标注数据,但实际上它还是有标签的,这个标签就是 ,而向量 和 就是要不断更新学习的参数。因此,本质上它的训练方式和监督学习的训练方式没有什么不同,都是基于梯度下降的。
训练的具体做法是:采用AdaGrad的梯度下降算法,对矩阵 中的所有非零元素进行随机采样,学习率设置为0.05,在vector size小于300的情况下迭代50次,其他大小的vector size迭代100次,直至收敛。
因为 是对称的,所以最终学到的两个词向量 和 应该也是对称的,等价的,只不过由于初始值不一样,导致最终的值不一样。为了提高鲁棒性,最终选择两者之和 作为最终的词向量(两者的初始化不同相当于加了不同的随机噪声所以能提高鲁棒性)。
这个图一***采用了三个指标:语义准确度,语法准确度以及总体准确度。那么我们不难发现Vector Dimension在300时能达到最佳,而context Windows size大致在6到10之间。
如果本身语料比较小,微调没什么作用,或者自己直接训练没有很强的算力,直接使用采用大数据进行预训练的glove词向量也会有比较好的效果。