工程语言学的研究成果已广泛应用于人机对话和自然语言信息处理领域,主要包括机器翻译、信息自动检索、语种识别、程序教学,以及书报自动编排系统、自动控制系统、国际通讯网络等领域。(参见:王德春,1997:411-415)
如前所述,俄罗斯工程语言学最富实用性的研究目标之一是设计建造语言自动机,在此我们将主要探讨语言自动机建造的相关理论与技术问题。
一、语言自动机建造的信息-符号学原理和语言学策略
(一)语言自动机建造的信息-符号学原理
皮奥特罗夫斯基等将语言自动机理解为人类言语思维活动的实际运作模型,它是计算手段和程序手段的综合体。其主要构件有:1)功率相当强大的专业化计算机或通用计算机;2)涵盖大容量词库和必要语法信息的语言知识库(лингвистическаяинформационнаябазаданных,ЛИБД);3)语言学程序保障(лингвистическоепрограммноеобеспе-чение,ЛПО);4)配套的应用系统和服务手段、ЛИБД和ЛПО的运行程序。(Пиотровскийидр.,1993:125)
皮奥特罗夫斯基等认为,探索建立文本生成、转换与感知的某种符号学图式,既是形成语言自动机观念的理论基础,也是构建工程语言学模块的基石。语言学、心理语言学以及认知科学等领域的研究成果,为人机交流模式提供了必要的理论保障。通过对现有理论学说的深入研究和综合整理,俄罗斯学者提出一种扩展式的索绪尔语言符号模型,该模型成为建造语言自动机的心理语言学符号图式。(Пиотровский,1984:22-23;Шингарева,1987:6-29)这一图式能描述话语的形成过程:从反映客观现实的明指意义(Dn1)出发,经过主题所指层面,直至该话语的词汇-语法编码和拼写-语音编码。话语的展开是在交际-语用算子(коммуникативно-прагматическийоператор,КПО)的控制下进行的,(Piotrowskii,1990:108)该算子保障从词库大全(тезаурус,θ)和语言能力(лингвистическаякомпетенция,ЛК)构件中选取必要的信息,并且自动调节话语生成过程中的层次转换。
至于对话语感知和解码的研究,СтР研究组主要依据以下两个图式:
根据第一个假设图式,将用户所接收到的声音或视觉(图像)信号与置入ЛК构件中的感觉样式(语音的或文字的)进行对比。如果这种对比得到肯定性的结果,那么就应包括句子及其组成成分-词组和词汇用法-的表层词汇-语法分析。随后,在所指意义层次上进行深层的主位-述位分析,它主要依据从百科词典、ЛК及语境分析中获取的语义-句法信息。最后,在明指(денотат)意义层次上对各个层次的话语信息进行概括性解释。上述源于个人语用、预设以及对语境的预先认识所实施的操作,能够使用户获得话语的明指信息(Dn2)。等式Dn1=Dn2表明,用户所接受的信息完全符合信息发出者的原意,而在Dn1≠Dn2的情况下,用户对话语信息的解码则与信息发出者所赋予的意义不一致。
按照第二个假设图式,在对话语信息的感知解码和词汇-语法解码时,用户就已经开始对Dn2的搜索。在搜索的最初阶段,语句的关键标志(个别图式、词组、简单的语义-句法图式)便突显出来。搜索本身是由用户在其个人语用意向和期待的基础上实现的,包括在所指环境中的参照和预设,随之形成关于所接受话语意义的假设。紧接着,基于用户的语用意向和预设,必要时还得进行词汇-语法分析,将所获取的信息与登录在θ和ЛК中的语义-句法框架信息加以比较,以便选择与话语明指(意思形象)最为贴切的假设。文本识别的所有操作均在КПО的控制下得以实现。
(二)语言自动机建造的语言学策略
语言自动机建造的语言学策略主要有两种:
第一种策略是指在研制语言自动机的通用算法时,应当对词汇优先性或语法优先性(лексическаяилиграмматическаяприоритетность)做出选择。在解决这一问题时,СтР研究组基于以下两种考虑:1)将词汇作为文本研究的信息指数,因为词汇负载着文本所蕴含的绝大部分信息;2)与弱化对单个词汇单位进行机器分析与合成的作用、夸大输入语句语法分析和输出语句句法结构生成作用的一贯做法相反,建造语言自动机并不是从语法算法的研制入手,而是把语言自动机的词库建设和编制文本词汇单位的语义处理程序放在首位。
第二种策略是指在乔姆斯基严格的演绎模式和言语概率功能语法之间做出选择。演绎模式在现代机器翻译系统所采用的形式语法中仍具影响力,例如管辖与约束语法(governmentandbindinggrammar)(Chomsky,1982.)、树连接语法(tree-adjoininggrammar)(Joshi,1987)和短语结构语法(GPSG)(Ristad,1990)。其实,言语概率功能语法的基本观点早在20世纪60年代就体现在格林伯格(Гринберг,1970)、菲尔默(Филлмор,1981)和韩礼德(Halliday,1984)等人的著述中。
简言之,在语言自动机中模拟文本的分析与综合过程,СтР研究组所采取的语言学策略就是面向以典型情景的配价模式(框架)为依据的功能语言学、面向歧义消解的概率模式、面向文本意思形象的形式识别。(Пиотровскийидр.,1993:127)
二、语言自动机的基本构架与表征图式
(一)语言自动机的构架原则
为了描述语言自动机的构架,需要制定受上述语言学策略制约的两条指导性原则:
1)建立开放的层级(模块-层次)组织,它一方面观察语言自动机中模块增减的可能性,另一方面显示每一模块与话语生成和感知特定层次的关联性;
2)在语言自动机构拟、运作和完善的整个过程中,人与机器发生持续的交互作用。这就意味着,在编制机器词典和机器语法并赋予语言自动机自学习功能时,不仅应当利用有关自然语言传统的“人类”知识,而且需要广泛使用各种体裁的大规模真实文本的机器调查结果。每一个虚拟文本库(корпусвиртуальныхтекстов,КВТ)都应看作是一个知识库,在此基础上才可能建立起某种文体的功能机器语法。
(二)语言自动机的表征图式
语言自动机是一个复杂的系统,其多维表征建立在计算机硬件(hardware)、系统-服务软件(software)和语言学程序保障构件(lingware)等基础上的模型和图式。下面介绍两种用于语言自动机表征的图式:结构-功能图式与管辖-决策图式。
1.结构-功能图式(структурно-функциональнаясхема)
该图式是一个包含下述四个层次的层级系统:
1)低层指语言信息数据库,其作用类似于人的言语思维中的词库大全和语言能力构件,包括输入和输出的词汇手册、词素清单及其他语法项目清单。
2)中层涵盖大量的功能模块,其中每个模块都完成具体的语言学任务,模拟人类言语思维活动的某种功能。
这些功能模块又分解为以下两个子集:
第一个子集包括10个分析性模块(анализирующиемодули):
—文本解码模块(d),
—文本校对模块(c),
—文本中关键词汇单位的词汇分析模块(lk),
—文本中所有词汇单位的词汇分析模块(l),
—文本中词汇用法的自动词法分析模块(q),
—文本中关键词汇单位的词汇-词法分析模块(λk),
—文本中所有词汇单位的词汇-词法分析模块(λ),
—文本的表层结构分析模块(g),
—文本的深层(主位-述位)结构分析模块(s1),
—文本的语义-语用分析模块(s2)。
第二个子集包括8个综合性模块(синтезирующиемодули):
—文本的文字或语音表征(编码)模块(k),
—文本校对模块(c),
—词汇综合模块(l’),
—自动词法综合模块(q’),
—词汇用法和词组的词汇-词法综合模块(λ’),
—输出文本的表层结构综合模块(g’),
—输出文本的主位-述位结构综合模块(s1’),
—文本的语义-语用综合模块(s2’)。
3)上层由集成的程序-功能综合体(F)构成,它对中层的功能模块以及语言信息数据库中的词汇(L)和语法(G)信息进行处理。
俄罗斯学者承认,目前尚未成功地建造包括上述所有模块的完整的语言自动机,但是小型语言自动机的建造获得了成功,它们可用于文本校对与编辑、初步的词汇-词法分析、文本的“粗略”翻译等。
4)高层体现为人机交互作用的形式,而这种交互作用可以有条件地看作是部分类似于人类言语思维图式中的动机与КПО。
2.管辖-决策图式(схемауправленияирешения)
同人类言语思维活动一样,任何文本自动处理系统往往都与不确定性条件下的识别操作相联系。这种不确定性以多项选择的形式包含在机器词典和机器语法中,具有人工智能特征的语言自动机应对其做出正确的决策。语言自动机的决策图式可分为三个层次:
1)自组织层通常以人机交互方式选定完成总体任务的最优策略,并依据此策略确定必要的子系统和功能模块;
2)语言自动机文本处理的适应层主要解决语言学问题,其作用是消除文本中词汇单位、词法形式和句法模式的多义性等不定性因素,弥补语言信息数据库中语言学知识和百科性知识的不足;
3)所确定任务的解决方案选择层针对具体的语言工程项目制定不同的研制方案,包括技术路线、具体算法、实施步骤等诸多方面。
第五节俄罗斯工程语言学的两大学术中心及其代表人物和主要成就
我们通过对学科学术史的考察不难发现,俄罗斯工程语言学研究已经走过近半个世纪的发展历程,取得了辉煌的学术成就,形成了两大学术中心-圣彼得堡中心和莫斯科中心。应当看到,俄罗斯工程语言学既有自己鲜明的学科特色,同时也离不开世界学术发展的大背景。早期的机器翻译实验以及西方的形式语言学理论,对前苏联及解体以后的俄罗斯应用语言学相关学科研究产生了重要影响。
一、圣彼得堡学术中心
圣彼得堡学术中心的代表人物首推皮奥特罗夫斯基,他被誉为“前苏联计算语言学的创始人”当之无愧。他率领的СтР研究组已成为国际性的学术团体,著述颇丰,在工程语言学基础理论研究与应用开发领域中取得了令国际学术界瞩目的成就,特别是对工程语言学的学科建设发挥了重要作用,其专著(Пиотровский,1979)至今仍被列为俄罗斯许多高等学校语文学专业的教学参考书目,其学术思想在俄罗斯著名机器翻译公司ПРОМТ的软件开发中得到成功利用。本书绪论部分通过对工程语言学学科概貌的粗线条勾勒,并对语言自动机设计原理与整体构架的扼要描述,我们已获得对圣彼得堡学术流派主要成就的大致了解。本书第一章和第二章第一节还将有更为详尽的介绍与评述,在此不赘。
在圣彼得堡学术中心,值得引起注意的另一研究集体是圣彼得堡大学数理语言学教研室,其领军人物是格尔德(А.С.Герд)。多年来,该研究集体成员在应用语言学的诸多分支学科领域取得了丰硕成果,在本书有关章节将分别加以介绍。圣彼得堡大学有着数学背景的学者图佐夫(В.А.Тузов),对计算语义学和机器语义词典进行了卓有成效的研究工作。
二、莫斯科学术中心
莫斯科学术中心最具影响力的代表人物当推梅里丘克(И.А.Мельчук),他于20世纪60年代开始倡导建立的《意思Û文本》语言学模型理论,被认为是前苏联第一个具有控制论色彩的语言学理论,其实用目的是在意思与文本之间建立双向的语言处理器。后来梅里丘克移居加拿大,在蒙特利尔大学翻译&语言学系成立“意思-文本语言学观察站”,潜心于理论研究和实际应用,著述颇丰,他本人被西方语言学界誉为“了不起的局外人”(greatoutsider)。(Bolshakov,Gelbukh,2000)近40多年来,在俄罗斯、加拿大、西班牙、法国、德国、日本和韩国等国家,一批志同道合的研究者纷纷开展了基于该理论模型设计机器翻译系统,或尝试以本国语为目标语编纂双语词典等方面的工作,取得了许多应用性成果,在国际计算语言学界和理论语言学界的影响不断扩大。本书第二章第二节将对梅里丘克的学术思想进行详细评介。
以俄罗斯科学院院士阿普列相(Ю.Д.Апресян)为代表的莫斯科语义学派秉承《意思Û文本》语言学模型理论的核心思想,逐渐发展为语言的整合描写与系统词典学理论。(Апресян,1995)阿普列相院士率领俄罗斯科学院信息传输问题研究所计算语言学实验室同仁,将基础研究定位在研制一种基于《意思Û文本》理论的全效形式语言模型,主持研发了ЭТАП系列机器翻译实验系统。