为什么机械翻译总是不够准确
近日打开手机APP,频频被一款红色软件霸占屏幕,这款软件并非淘宝、拼多多,更非阿里巴巴,而是小红书。进入首页不久,便可看到大量来自国外IP地址的动态内容,有些是外国朋友的个人自拍,有些是人们抱着猫狗交“猫税狗税”,还有一些是使用拙劣的中文机翻来互动、求助,甚至帮忙完成英语和中文作业的社交帖。
拥有小红书账号且多次确认IP的情况下,我不禁怀疑这里究竟是国内还是国外。转瞬之间,这款App突然变得如此国际化,这让我感到难以置信。
为了融入本地社区,外国人小心谨慎地使用生硬的中文,同时配合英语双语介绍,用词严谨,语气诚恳。他们似乎表现出小时候写作文时的认真态度,生怕因用词不当而招致原住民的反感。为避免机翻错误,他们还细心地附上英文原文,以展示诚意。
随后,大家发现,表情包才是最准确表达情绪的神奇方式。于是,东西半球的人们展开了表情包分享活动,评论区充斥着中英混搭的机翻中英配合搞笑表情包的留言。
在寻找乐子的同时,我也发现了一个问题。尽管评论区用英文回复或通过翻译器自动翻译中文句子很滑稽,却可能使人感到困惑。为了更清晰地理解问题,我通常直接查看英文原文。然而,只要点击右上角的自动翻译按钮,看到的中文与原意常常有所出入。那么为何机器翻译经常词不达意?有没有人对机器翻译的原理感到好奇?为何基础翻译和语气词AI可以做到,但稍微复杂的词汇就容易导致语序混乱,令人摸不着头脑呢?
于是让我来详细介绍一下~
目前存在两种机器翻译方法:规则法和统计法。
01、规 /则 /法 (RBMT)
通过语言规则对文本进行分析,然后借助计算机程序进行翻译。该方法包括三个阶段:分析、转换和生成,根据复杂性分为三级。第一级是直接翻译:简单词语的直接转换;
第二级是转换翻译:需要参考原文的词汇、语法和语义信息进行翻译。由于信息来源广泛,并且存在多义词汇,如 cell 可指细胞、单元和监狱,导致转换翻译非常复杂、易出错。
第三级是目前仍然概念性的国际语翻译,基于通用的不依赖特定语言形式实现语言解码,难度相当于让计算机理解表情包,可见其不切实际性。
02、统 /计 /法 (SMT)
通过大量平行语料进行统计分析,构建统计翻译模型(词汇、对齐或语言模式),然后使用该模型进行翻译,选取出现概率最高的词条作为翻译,概率算法基于贝叶斯定理。
要使用该方法,需要大量训练数据,其中相同文本需翻译至少两种语言,这样的双重翻译文本称为平行语料库。18世纪,科学家在罗塞塔石碑上发现了古埃及国王托勒密五世登基诏书,根据不同语言版本内容对照解读埃及象形文字的意义,这启发了计算机统计翻译的雏形。
该方法思考统计翻译系统的工作原理是基于概率,而非准确翻译生成,生成多种可能的翻译,再根据训练数据和相似性确定最正确的翻译。
工作原理
NO.1 将原始句子分成块
句子分块简化,以便每块轻松翻译,可基于词汇和短语进行,SMT分为基于词的SMT和基于短语的SMT,大多数翻译引擎采用基于短语的方式,将文本自动分割成固定长度的短语。
NO.2 找到每块的所有可能翻译
搜索数据库中已翻译的同类词块,并根据不同出现概率(A)排列。这不是字典式翻译,而是真实人如何在句子中翻译这些词块的方法,以捕捉多样表达方式。
短语存在多种翻译,有些翻译概率更高,我们根据频率给予评分(概率A)。例如,“I'm dying”在中文中大多翻译为“我想要”,而非“我倾向于”,基于训练库,被翻译为“我想要”的概率更高。
NO.3 生成所有可能句子,找到最合适
排列组合第二步的所有翻译生成大约2500个句子,例如:
I love | to leave | at | the seaside | more tidy.
I mean | to be on | to | the open space | most lovely.
真实世界中,可能翻译句子更加多样。我们扫描这些句子,找到“最像人说”者。通过与真实新闻和英文书籍的对照,我们对这些句子打分,称为概率B。最高分为我们认为最准确的句子翻译:“I try | to leave | per | the most lovely | open space.”
统计法是大多数搜索引擎使用的翻译方式,如百度、必应和谷歌,依托巨大数据库和强大搜索能力进行翻译,其他机器翻译方法也多采用统计法(希望这样更清晰~)。
统计机器翻译虽然效果不错,但构建和维护工作较为复杂。每对新语言翻译需专业人员调试并修正多阶段“翻译流水线”。要建立这些流水线非常耗时,因此程序员必须斟酌。比较起英语和中文翻译,印度泰卢固语翻译成中文则可通过先翻译成英文再翻译成中文来更为简便。程序员需权衡精力和资金分配,特别是对于语言需求较低的情况。
基于以上说明,机器翻译引擎的基本工作原理得以阐明,尽管翻译软件有时让双方难以理解,但人类最大的优势在于联想和猜测对方意图。结合计算机提供的大致方向,人类脑力可以解读大致意思。
例如,绿泡泡,不需解释,大家都知道;还有红薯、某桃、PDD等,相当于给出一个方向,让人猜测可能的答案,最终得出正确结论。因此,无需为交流问题担心,即使翻译不准确,对交流的影响也不大,最终我们还可以依靠表情包。
无论形势如何变化,中外网友对对方的好奇心验证了友好和真诚永远是成功的关键。中英交流,东西融合,友善真诚,这或许才是地球村最本真的模样。数字文化的这场“东游记”能持续多久,尚未得知。但有预见性的人已开始邀请外国朋友注册PDD新用户,共同融入。
- END -
新年即将来临,不妨让外国友人见证中国这一传统节日的热闹场面!在此预祝大家春节快乐,论文多发。
本文来自微信公众号:中科院物理所(ID:cas-iop),作者:蓝多多
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。