关于所有词性的中英文对照说法,具体内容如下:
一、英语的形态分析:包含以下五种情况,特殊形式的单词识别,如:let’s,I’。有规律化单词的形态还原,如:ed,ing。动词、名词、形容词、副词不规则变化,如:choose、chose、chosen,axis、axes。
对于表示年代、时间、百分数、货币、序数词的数字形态还原,如:?20。合成词的形态还原,如:Human-computer。
二、形态分析的一般方法:
查词典,如果词典中有该词,直接确定该词的原型。根据不同情况查找相应规则对单词进行还原处理,如果还原后在词典中找到该词,则得到该词原型。如果找不到相应变换规则或者变换后词典中仍然查不到该词,则作为未登录词处理。
自动分词是汉语句子分析的重要基础。词语的分析具有广泛的应用统计。文献处理以词语为文本特征。以词定字,以字定音。
三、主要问题:
汉语分词规范问题,“词是什么”、“什么是词”这是两个基本问题。
困难主要来自于两方面单字词和词素之间的划界,词与短语的划界。
四、歧义切分字段处理:
交集型切分歧义汉字串AJB被称为交集型切分歧义,如果满足AJ、BJ同时为词,此时J被称作交集串。链长一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。