4月中旬,博鳌亚洲论坛圆满闭幕。同声传译人员也松了一口气,表示暂时不用担心饭碗被抢。在大会开幕的前一天,腾讯旗下的人工智能翻译产品腾讯翻译君宣布,大会期间,他们将负责现场嘉宾的中英文问答同声传译,并实时开放翻译过程,供各界人士观看。然而,就在会后一天,腾讯同步“翻车”的消息不断传出。第一,有网友在软件处理汉英翻译时,发现相关词语莫名其妙地重复出现。然后到了要翻译“一带一路”这个核心概念的时候,他们发现软件把它翻译成了“一路一带”、“一路一传送带”,让人哭笑不得。
同框(视觉中国/摄)
不过,虽然腾讯翻译机在会上出丑了,但很多科技界的大佬,甚至翻译界的大师们,都对腾讯翻译机的表现极为宽容。虽然种种事实表明,机器翻译再发达,也不可能永远取代人工翻译的地位和作用,但是大佬们还是愿意花钱开发这项技术的。原因很简单:机器翻译不仅关乎语言,更关乎人类跨语言的梦想。
当语言成为门槛语言后,语言的种类很多,但对于它是怎么来的,至今仍没有确切的说法。在著名的圣经故事《巴别塔》中,逃离大洪水的人类决定建造巴别塔。这一举动惹恼了上帝,他挥挥手让造塔的人使用不同的语言。人们的交流被阻断,秀塔只好放弃,而说同一种语言的人聚集在一起,形成一个种族。
在关于语言起源的各种假说中,巴别塔就是其中之一(资料图/图)
事实证明,语言真的成了专属武器。18世纪,英国驻孟加拉法官威廉琼斯(william jones)在分析了希腊语、拉丁语和梵语的相似性后,提出了印欧语系假说,指出三种语言同源。然而,在殖民主义盛行之时,这一假设成为西方国家优越性的“证据”。3354在他们看来,虽然和印度有相同的语言,但是他们殖民了印度,比印度好多了。语言不仅仅是东西方较量的工具。普法战争结束后,法国作家多德在《最后一课》年间记载,普鲁士曾在占领区强行推进德语,意图维持其统治。
在这种情况下,弥合语言带来的隔阂,成为饱受战争之苦的人类的共同愿望。1887年,俄罗斯犹太医生扎门霍夫创立世界语,希望通过传播世界语促进人类交流,从而消除隔阂,实现真正的世界和平。然而,只有少数人使用世界语。直到2004年,只有2000多名母语为世界语的人,只有200万人将世界语作为第二语言学习。
既然世界语不行,怎么跨越语言障碍?
在机器翻译诞生之前,人类就有了翻译这个职业。但是,备考四六级的经历告诉我们,即使你是一名翻译,要应对一场外语考试也并不容易。然而,随着世界各国在经济和文化领域的交流越来越频繁,对翻译的需求也越来越大。如果人们可以通过使用某种东西来获得实时翻译,那就太好了。
在全球化进程中,人们越来越需要语言转换(视觉中国/摄)
于是,在1937年的巴黎世博会上,一个看起来像普通打字机的展品吸引了很多人驻足观看。这个具有翻译功能的展品是由法裔美国工程师乔治阿尔丘尼发明的。只要输入某个单词,就可以通过机械的操作,把它从另一种语言的相应单词的纸上调出。相同时间,苏联科学家彼得特罗扬斯基也想出了类似的机器,但特罗扬斯基的设计显然比比亚尔楚尼的更先进:如果说前者是强调单词翻译的自动双语词典,那么后者不仅可以翻译单词,还可以翻译单词语法。不幸的是,特罗扬斯基患有心绞痛,所以这台机器没有造出来,他的设计图纸也遗失在苏联国家科学院的书里,直到1956年才被发现。
1946年,世界上第一台现代计算机问世,次年,英国工程师安德鲁唐纳德布斯和美国数学家沃伦韦弗相遇。两个天才见面后一拍即合,讨论了用计算机进行机器翻译的可能性。1949年,韦弗在一份备忘录中写道:“当我读到一篇用俄语写的文章时,我说,‘这是用英语写的,但用奇怪的符号加密了。我想现在就解码。值得一提的是,韦弗提到的“怪异符号”并不是现成的。其实这个概念最早可以追溯到17世纪笛卡尔、莱布尼茨等数学家提出用符号来表示不同语言“大同语”中意思相近的词语。也就是说,两种语言是以统一符号为中介进行转换的。这个理论后来成为机器翻译的核心。
1954年,IBM与乔治敦大学合作,建立了一个小型的英俄翻译机器翻译系统,正式拉开了机器翻译研究的序幕。许多国家看中了机器翻译在军事、经济等领域的作用,纷纷效仿美国组织机器翻译研究。然而好景不长。1966年,美国科学院下属的自动语言处理委员会咨询评估了机器翻译的实际效益,指出在英语盛行的情况下,美国投入大量资金支持机器翻译,无异于把钱扔进大海。受这份报告的影响,很多研究机构对机器翻译的经费大幅减少,美国的机器翻译研究陷入低谷。尽管如此,许多国家,如法国和日本,仍然坚持机器翻译的研究,并在20世纪70年代取得了良好的成果。
上世纪90年代,随着全球化的发展,各国跨越语言障碍、交流的需求日益迫切,重新燃起了对机器翻译的热情。在此期间,互联网的快速发展不仅促进了微软、谷歌等互联网巨头的诞生,也为机器翻译提供了庞大的数据库。发展机器翻译已经成为很多互联网巨头的目标。1997年,Systran开发了世界上第一个网页机器翻译工具,附属于搜索引擎AltaVista;1999年,微软开发了微软翻译;2006年,谷歌发布谷歌翻译;2011年,百度推出百度翻译功能。此外,机器可以翻译的语言数量也在不断增加。以谷歌翻译为例。2008年之前,只能翻译23种语言,现在这一数字增加到了103种。
翻译谷歌网页截图(资料图/图)
近年来,趁着人工智能的大趋势,很多大牛把机器翻译和人工智能结合起来,利用人工智能的实时语音和图像识别功能,推出人工智能翻译。2023年9月,百度宣布推出中日智能翻译机,不仅能为赴日旅客提供实时语音翻译,还能提供相关出行信息;在国外,掌握人工智能核心技术的三大巨头之一亚马逊也在上个月表示,该团队正在尝试为其助手Alexa添加实时翻译功能。
就连这次博鳌论坛直面自己的腾讯也不例外。2023年,腾讯宣布推出腾讯翻译君,这款软件以人工智能的内核驱动为核心,不仅可以实时为用户提供中、英、日、韩文翻译,还可以通过识别声音、图片、文字进行翻译。上线一周年,日均翻译请求达到2亿次。
再建巴别塔?在著名的科幻小说《银河系漫游指南》中,作者道格拉斯亚当斯创造了一种名叫巴别鱼的宇宙生物。这种形似水蛭的鱼不仅能探测脑电波,还具有神奇的功能。3354如果把巴别鱼塞到耳朵里,巴别鱼携带者不用翻译就能立刻听懂各种语言,而且翻译准确。
机器翻译虽然被认为是现实版的巴别鱼,但一直受到自身体系的限制,无法翻译得像巴别鱼一样完美。自20世纪80年代以来,机器翻译系统被分为三类:规则方法、统计方法和示例方法。规则严格遵循翻译中的“分析、转换、生成”三个步骤,而统计和实例规则是基于计算机对文本和语料库的分析归纳,利用计算出的频率在翻译中“选择”答案。虽然这三类翻译系统各有所长,例如规则法擅长翻译语法,统计法在计算机翻译效率上是提高,范例法有助于简化翻译步骤,但它们都有突出的弱点。规则中的间接翻译很容易导致翻译前后词义的错误,而统计方法和举例方法会过于依赖统计数据而忽略实际语境的需要。此外,这三种方法都使用短语作为翻译单位。一旦遇到长句,电脑会自动把句子打散,翻译每个短语。所以翻译出来的句子往往意思准确但不通顺。这些也是机器翻译长期不准确的原因。
2014年,两位美国学者发表论文,提出了建立神经机器翻译系统的想法。与以往的翻译系统不同,神经机器翻译系统以句子为基本单位。在翻译的过程中,计算机会先利用计算机的人工神经网络对句子的特征进行分析和评估,然后以这些特征为中介进行翻译。这样翻译自然更流畅,更准确。首先,是谷歌从这篇论文中嗅到了商机。谷歌经过一番研究,立即召集人才进行开发,不到两年的时间,就推出了谷歌的神经翻译系统,可以将9种语言相互翻译。新系统也不负众望。据统计,在过去的两年里,谷歌翻译的错误率降低了80%以上。然而,即便是这样一个开放的系统,Google Translate也难逃骗人的命运。2月初,刚刚抵达平昌备战冬奥会的挪威代表团因为谷歌翻译出现错误,订购了1500个鸡蛋,结果却订购了1.5万个鸡蛋。
平昌奥运会挪威代表团因谷歌翻译误点了1.5万个鸡蛋(推特截图/图片)
此外,机器翻译能否像人工翻译一样达到“信、达、雅”的水平还是个未知数。上个月,微软公开表示,其新开发的中英新闻机器翻译系统已经达到人类水平,翻译效果已经被人类蒙蔽测评分,质量甚至可以媲美专业翻译。虽然微软的机器翻译堪比人类的专业翻译值得庆祝,但别忘了那只是新闻翻译。由于客观准确的要求,新闻文章用词的文学性不高,正确翻译并不难。另一方面,虽然已经出现了一些像学者坂本的Google翻译名著片段《了不起的盖茨比》这样的案例,并且获得了质量不错的翻译,但问题是机器翻译本身依赖于语料库,而《了不起的盖茨比》 《百年孤独》等名著的翻译早已成为语料库中的数据,所以与其说是
有趣的是,当人们抱怨机器翻译质量差的时候,他们并不一定意识到,当他们“翻译”对方的想法和语言时,他们并不一定“翻译”正确。在语言发展史上,人类意识与语言的关系一直是研究的焦点。心理学大师弗洛伊德和雅各布雅克曾提出,人类的意识可能无法通过语言完全表达出来。在心理语言学研究中,许多语言学家讨论了母语和外语对思维的影响。比如众所周知的“用外语做决策可以规避风险”的结论,就体现了语言对意识的影响。此外,语境和被采访者也决定了人们在交谈时能否让对方理解自己的想法。如果医生对一个没有医学背景的人说“乙酰水杨酸”,对方可能无法立即做出反应。这里指的是阿司匹林。
从这个角度来看,人们之所以发展机器翻译,不仅仅是为了适应时代的需要,更是为了通过不断提高机器翻译的质量,从010年到31040年,使其达到人类专业翻译的水平,从而映射出人类摆脱语言自我束缚的决心。《银河系漫游指南》年,巴别鱼作为一个完美的翻译家,成功地让宇宙无障碍交流,却在不经意间引发了宇宙间不断的纷争和战争。在人类不断追求完美的机器翻译的同时,我们也要牢记,机器翻译发展背后最初的梦想是3354,它代表了人类对平等交流的渴望。