百度何中军：机器翻译 —— 从设想到大规模应用_飞道的博客

百度何中军：机器翻译 —— 从设想到大规模应用

2020-07-01 21:04 939人阅读评论(0)

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，百度全力支持，读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年6月20日，第16期“AI未来说·青年学术论坛”NLP前沿技术及产业化线上专场论坛以“线上平台直播+微信社群图文直播”形式举行。百度何中军带来报告《机器翻译 —— 从设想到大规模应用》。

百度何中军的报告视频

何中军，博士，百度人工智能技术委员会主席，从事机器翻译研究与开发十余年，申请专利40余项，研发了全球首个互联网神经网络翻译系统、首个WiFi翻译机、首个语义单元驱动的语音到语音同传系统。曾获国家科技进步二等奖、中国电子学会科技进步一等奖、中国专利银奖、北京市科技进步二等奖、电子学会优秀科技工作者等多项奖励。

报告内容：70多年前，第一台计算机诞生后不久，科学家就提出了利用计算机进行翻译的设想。此后，随着技术不断更迭，算力大幅提升，以及互联网带来的数据井喷式增长，机器翻译质量持续提高。尤其近年来神经网络机器翻译的出现及快速发展，使得机器翻译水平大幅跃升，在人们的生产生活中得到了广泛应用。本报告结合百度机器翻译大规模工业化实践，介绍机器翻译技术进展、主要产品形式及应用，最后对未来发展进行展望。

机器翻译 —— 从设想到大规模应用

何中军博士以机器翻译设想的提出为开篇，紧接着对机器翻译历史进行了简要回顾。1946年，第一台电子计算机ENIAC诞生以后，1947年美国洛克菲勒基金会副总裁Warren Weaver提出了用计算机来做机器翻译的设想。经过大约十多年的发展，1964年我国刘涌泉、高祖舜、刘倬三位科学家合著了一本名为《机器翻译浅说》的科普读物，他们在书中这样写到——“短短十多个年头已经取得很大成绩，随着科学研究进步和语言研究提高，机器翻译在不久的将来定会取得更大成就，从而可以在实际工作中得到应用”。

1949年，Warren Weaver发表了机器翻译备忘录，正式提出机器翻译问题。1954年，乔治敦大学和IBM实现了第一个机器翻译系统。当时人们觉得机器翻译很快就能实现，因此热情高涨。但到了1966年，美国语言自动处理咨询委员会（ALPAC）针对机器翻译的研究情况发布了一个调查报告，指出机器翻译水平远远达不到人们理想的程度，机器翻译这个事不太可行。这份报告给当时的机器翻译研究浇了一盘冷水，于是政府停止了资助，机器翻译也随之进入了停滞状态。1968年，Systran公司成立，其初衷是为了服务美国军方。进入70年代以后，随着乔姆斯基语言学理论为大家广泛研究和接受、科技进步以及硬件进步，人们重新燃起了对机器翻译的希望。到了90年代初期，IBM通过两篇经典文章提出了统计机器翻译模型，从此拉开了统计机器翻译的序幕。2006年，Google发布了首个互联网翻译系统。在统计机器翻译占据了20多年的统治地位后，2014年神经网络翻译模型被提出，2015年5月百度旋即发布了全球首个互联网神经网络翻译系统，2016年9月Google也发布了神经网络翻译系统。此后，国内外巨头互联网公司都纷纷把神经网络翻译系统作为主系统。这便是机器翻译的简要发展历史。

何中军博士接着介绍了驱动机器翻译发展的三驾马车。第一是算法演进，基于规则、统计、神经网络的算法。第二是算力，最开始计算机是由电子管、晶体管为材料制造的，随着技术发展，到统计机器翻译时代，主力算力是CPU集群，神经网络翻译时代主力算力则是GPU集群。第三是数据，最开始的时候人们通过构建规则以及利用字典进行翻译，互联网出现以后产生了大规模的数据，人们开始使用这些自动采集的大数据来训练机器翻译系统，近年来又引入了行业优质垂类数据来进一步优化翻译系统。

前面提到乔治敦大学和IBM公司研发了第一个机器翻译系统，当时他们用的是IBM 701机，6条规则和250个词，可以说是一个玩具模型，而现在我们可以利用数十亿双语句对，在GPU集群上训练神经网络翻译系统。通过比较，我们可以看到这几十年巨大的进步和发展。

与技术发展一样迅猛的，是翻译需求的增长。

最开始机器翻译设想提出是为了给军方服务。美苏冷战时期，美国希望获取苏联情报以了解苏联人的动向，但由于翻译人力不足，因此他们迫切需要俄语到英语的翻译系统，所以当时研制机器翻译系统主要是将俄语翻译为英语。长期以来，机器翻译一直服务于军方。冷战结束以后，世界经济一体化进程开始。1993年，欧盟成立，工作语种多达24个，每年有60多万页文件需要翻译，每年翻译支出高达10亿欧元。由于翻译任务繁重且费用高昂，欧盟对机器翻译的需求非常迫切，因此欧盟第七框架计划投入了巨资研发机器翻译系统。2013年，我国提出了伟大“一带一路”倡议，涉及65个国家和地区，截至2019年有136个国家和30个国际组织签署了合作文件，语言种类超过110种，对多语言翻译的需求非常巨大。对于个人用户而言，翻译的需求也大幅增长。从出境游人数来看，1995年出境游人数只有0.05亿，而2019年是1.5亿人次。从中国互联网用户数来看，1997年中国互联网用户只有62万，但到了今年3月份最新统计结果，中国互联网用户数已经突破了9亿。对于语言服务商而言，近十年来全球语言服务业高速增长。根据《2019年中国语言服务发展报告》，2019年语言服务业全球产值接近500亿美元。值得注意的是，大约54%的受访语言服务商对机器翻译质量比较满意，这表明机器翻译这些年取得了比较大的进步，也获得了大家的认可。

现在机器翻译已经进入了规模化应用的阶段，在今年四月份百度将翻译语种从原来20多种扩展到200多种语言互译，每日翻译超过千亿字符，支持超过30万家第三方应用。

机器翻译不知不觉在身边为我们提供服务了。例如，遇到沐浴露瓶标签上不认识的单词，通过手机拍照翻译看懂了内容。第二个例子有一位公交车司机，他用翻译APP进行外语学习，在他的公交车上同时提供双语播报服务，让大家享受飞机头等舱的服务。第三个例子也挺有意思，一个俄罗斯人在深圳交通违法了，民警跟他沟通发现语言不通，用了机器翻译帮助处理了交通违法事故。第四个例子是巴基斯坦小伙子把钱包落在公交车上，公交车售货员通过机器翻译进行交流把钱包还给了他。这样例子数不胜数，机器翻译在生活中切切实实能给人们提供很多帮助。

之所以大家觉得机器翻译翻译得不错，能够帮助到自己，是因为这几年机器翻译质量得到大幅度提升。以百度翻译为例，2011年6月30日发布了中英翻译系统，2015年以前主要是统计机器翻译为主，翻译质量增长相对来说比较缓慢，但是2015年有了比较大的飞跃，这主要得益于神经网络机器翻译的威力，从2015年以后翻译质量飞速上升，预计今年还是会有较大提升。

从2019年WMT中英机器翻译评测来看，百度在中英翻译上取得不错的成绩，位列第一。其优异性能主要来源于四个方面：一是数据方面使用了数据过滤、数据增强等；二是模型方面用了预训练模型、更宽更深的模型；三是训练阶段用了知识蒸馏和多智能体联合训练模型，通过训练多个智能体进行知识集成，再分发给单个智能体，这样每个智能体本身学习能力也得到了提高；四是进行了模型融合以及对多结果输出重排序。

今年全球爆发大规模疫情，为帮助全球携手抗击疫情，多语言翻译模型，尤其在医学领域、生物领域的翻译模型可以说是非常重要。百度使用领域定制模型技术，花了大约一周时间把模型上到线上，免费供大家使用。主要方法是，首先用大规模通用领域数据训练通用模型，在此基础上加入高质量医疗领域数据做优化训练得到了医疗领域定制化模型。领域定制模型在术语翻译和习惯表达上比传统的通用模型翻译得更好。

此外百度推出了文档翻译。文档翻译和文本翻译区别在于，文档有表格、公式、图片、文字大小、颜色等格式信息。使用这个产品，用户只需要把文档上传，PPT、PDF、Word等可以在原格式保留情况下，将文本翻译出来，并且提供免费下载，大大提高了工作效率。有一位用户反馈，文档翻译功能对于更好更快地了解那些晦涩难懂的科技类、医学类英文论文的大意提供了很大帮助，事半功倍。

神经网络不仅用在语言翻译，语音、视觉研究方面，这些年来都取得比较大的进步，所以很自然会想把语言、语音、视觉这些多模态信息联合起来。举例来说，我们去英国旅行时很容易输入英文进行查询和翻译，但去泰国、韩国的时候，泰语、韩语就很难输入了，在这种场景下，拍照翻译是很自然的输入方式，对着标签拍拍照片即可自动翻译成自己的母语。此外，在阅读的时候，这种方法也非常方便，可以实时动态屏幕取词，尤其是学生在外语学习的时候，只要把手机屏幕对准要看的内容，手机屏幕会实时显示单词的翻译。另外语音和翻译结合，大家近年见得比较多是翻译机，小小的设备装在口袋里就可以拿着去旅游了。

最近几年比较热门的同声传译，它跟传统翻译最大的区别在于要求翻译时间延迟一定要小，跟说话人保持同步，对信息传递效率要求非常高。同声传译员需要同时监听、理解说话人所说内容，同时去组织、修正，把目标语言说出来，这个工作难度非常大。根据国际会议口译员协会AIIC统计数据，全球会员仅有3021人，中国大陆汉英翻译会员约有50人。据不完全统计每年中国需要同传的会议有1万多场，显然需求是非常巨大的。为满足这些同声传译需求，百度去年提出了语义单元驱动的同传模型。如图所示，上面是语音识别的结果，是一串连续的字符，没有断句和标点，因此首先用了动态切分策略切分成一个个语义单元，对于每一个语义单元进行翻译，并且把翻译结果作为模型历史信息，用于翻译下一个语义单元，最后连接起来就能得到完整的译文。这种语义单元驱动的同传模型保证了翻译的准确度和实时性。在译文出来以后，还可以将其转换为语音。百度将这个系统做成了一个小程序。开会的时候，可以用手机扫描二维码加入会议，插上耳机就像一位同声传译员在你身边提供翻译，非常方便。

百度翻译近期即将发布一个同传插件，这可谓是看剧神器，它可以解决看视频、电视剧、电影时语言不通的问题，把一种语言实时翻译为另一种语言，以字幕的形式贴合到视频下方输出。

下面是百度翻译的产品矩阵，包含了刚刚提到的文本翻译、机器同传、领域翻译、视频翻译等等。

在介绍了百度的翻译产品后，何中军博士随即指出了当前机器翻译并不完美的事实，机器翻译仍然面临很多挑战。一是融合知识非常困难，这里的知识包括常识、世界知识、文化背景知识等等。二是数据稀疏，机器翻译系统依赖于大量的训练数据。目前全球有超过5000种语言，其中英语、汉语、西班牙语、阿拉伯语、葡萄牙语、印尼/马来语、法语、日语、俄语、德语这十种常用语言数据量在互联网上占约77%，剩下其他语言加起来的数据量只有23%左右，实在是少得可怜，因此数据稀疏的问题特别严峻。另外要想追求译文的信、达、雅，机器翻译还有很长的路要走。

回想从1947年翻译设想的提出到现在，70多年来机器翻译确实取得了很大进步，也得到了大规模的应用，未来亦有很长的路要走。何中军博士特意作了一首打油诗，对全篇报告进行了总结：

机翻江湖七十载，范式更替有三代。

规则统计与神经，翻译质量步步升。

多模翻译谱新篇，梦想照进现实中。

译事三难信达雅，路漫漫兮求索行。

（整理人：邹淑娴）

AI未来说*青年学术论坛