下载SRILM:
解压
cd srilm
export SRILM=`pwd`
make MACHINE_TYPE=i686-m64
ldd bin/i686-m64/ngram
试一下:
cd test/
make all
make clean
cd ..
语言模型 ngram:
cd lm/
./bin/i686-m64/ngram-count -text /home/yli/oralTest/data/read -lm LM
-text后为要统计的原文件,LM是输出语言模型名字
没用词典的话结果各词与标点都混在一起
./bin/i686-m64/ngram-count -text /home/yli/oralTest/data/read -vocab 863.lmlist -lm LM
加入词典:863.lmlist 191.1K 同WIN下结果
语言模型融合
./bin/i686-m64/ngram -lm a.arpa -lambda 0.3 -mix-lm b.arpa -mix-lm2 c.arpa -mix-lambda2 0.3 -write-lm mixabc.arpa