我觉得几乎不可能。(以下讨论仅涉及一些我了解的比较低端的统计方法,若有高手了解更高阶的方法请不吝赐教)基于统计的方法总需要事先有一个假设,比如破译替换加密的密码你需要知道英文字母的出现概率,类似的,如果外星人要破译人类的语言,必须先知道人类的生活规律和思维规律,这两者分别大约与语言中的实词和虚词对应。先看实词,用distributional semantics的方法倒是可以找到词汇之间的关联强弱,比如“江河湖海”都与“水”,“流动”有较大的关系,但是仅此而已,如果不知道人类是碳基生物,需要水来维持生命,那么水这个词出现多少次也没有用。至于虚词,他们也只能用统计方法找出哪些词是虚词,由于思维方式的不同,要理解虚词的含义几乎不可能,举个极端点的例子,如果他们拿到的资料仅包含某段时期的中文,那么他们大概还会把“茅住席”,“江清同志”,“街机敌人”,“饭动粉子”这些词分类为虚词,进一步分析其含义就搞笑了,‘“茅住席”<实体词A> “江清同志”<实体词B>’也许是一种逻辑关系……总而言之,基于统计的方法其实是一种非常粗糙的方法,只有在拥有非常可靠的假设的情况下才能得到稍微靠谱的结果,人类对于自己的语言,用大量标记语料以及know-how的参数设置进行监督机器学习,尚且不能得到满意的结果,何况是对于人类一无所知的外星人。换一个角度说,如果人类真的想让外星人了解自己,至少该把基本的数学物理化学逻辑学知识用符号系统总结好并且与文字对齐吧,不过考虑到连图像资料都不舍得给,这些也就不用奢望了。不厚道地说,也许外星人能从信息载体获得的信息量比信息本身还大。