在自然语言中,我们的目标是对句子理解,对句子生成。但是由于计算机对电脑理解有一些障碍:模糊、不确定、不完整等。
我们在这里简单介绍语法树Syntax Tree和语言模型。
语法指的是一些规则、原理、过程决定着自然语言句子的结构。也可以说语法就是对不同单词(比如:名词、动词、短语等)进行排序组成完整的句子。
一个语法树是由不同类别的词所体现的,它可以帮助我们理解句子结构。
如果我们有一个由 m 个词组成的序列(或者说一个句子),我们希望算得概率
,根据链式规则,可得 N-gram :
这个概率显然并不好算,不妨利用马尔科夫链的假设,即当前这个词仅仅跟前面几个有限的词相关,因此也就不必追溯到最开始的那个词,这样便可以大幅缩减上述算式的长度。即
N-gram也依次原理类推。