语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等
(1)计算机的迅速发展;
(2)转换生成语言学派对语料库语言学的批判不都正确(如指责计算机分析语料是伪技术),有的是片面的甚至是错误的(如对语料数据价值的否定)。
两种含义:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,***有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。
另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库
?加拿大议会会议录(Canadian Hansards) e.html
?香港立法委员会会议记录(Hong Kong Hansards) http://catalog.ldc.upenn.edu/LDC2000T50
?香港新闻(Hong Kong News)
?香港法律(Hong Kong Laws)
历时8年,两个阶段:1996年至2000年为第一阶段,主要完成了形态和句法分析层的标注工作,形成了PDT 1.0版;2000年至2004年为第二阶段,主要进行树库的深层语法层(tectogrammaticallayer) 的信息标注,形成PDT 2.0 版。
http://www.chineseldc.org (192. 168. 88. 2)