在自然语言处理中,另外一个重要的应用领域,就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域的一种应用。不过这些应用,都是由多到少的生成。这里我们介绍另外一种应用,由少到多的生成,包括句子的复写,由关键词、主题生成文章或者段落等。
主要应用关键词提取、同义词识别等技术来实现。
本节处理的场景是:由文本到文本的生成。这个场景一般主要涉及:文本摘要,句子压缩,文本复写,句子融合等文本处理技术。其中本节涉及文本摘要和句子复写两个主要技术。文本摘要如前所述主要涉及:关键词提取、短语提取、句子提取等。句子复写则根据实现手段的不同、大致分为如下几种:
1.基于同义词的改写方法。这也是本节使用的方法,这种方法是词汇级别的,能够在很大程度上保证替换后的文本与原文语义一致。缺点就时会造成句子的通顺度有所降低,当然可以结合隐马尔可夫模型对句子搭配进行校正提升整体效果。
2.基于模板的改写方法。这也是本节使用的方式。该方法的基本思想是,从大量收集的语料中统计归纳出固定的模板,系统根据输入句子与模板的匹配情况,决定如何生成不同的表达形式
3.基于统计模型和语义分析生成模型的改写方法。这类方法就是根据语料库中的数据进行统计,获得大量的转换概率分布,然后对于输入的语料根据已知的先验知识进行替换。这类方法的句子是在分析结果的基础上进行生成的,从某种意义上说,生成实在分析的指导下实现的,因此,改写生成的句子有可能具有良好的句子结构,但是其所依赖的语料库是非常强大的,这样就需要人工标注很多数据。对于这些问题,新的深度学习技术可以解决部分问题。同时结合知识图谱的深度学习,能够更好地利用人的知识,最大限度地减少对训练样本的数据需求。
有拼音生成汉字和文本自动生成场景模式是相同的,都是由给定的文本信息,生成另外一些文本信息。区别在于前者是生成当前元素对应的汉字,而这里是生成当前元素对应的下一个汉字。
原理