因为有些pdf是邮扫描图片组成的,可按以下方法处理
1.用雪莹DocConvert输出成jpg格式
2.用汉王文豪7600对图片进行识别
公式、徽标中的文字、流程图等无法识别,在版面分析之后修改成图形对象