Booking.com联手哈佛优化翻译系统,流畅度逼近人工翻译水平
重塑语言技术领域发展的三个主要趋势在Booking.com平台得到了体现:未来对本地语言内容、便宜且几乎无限制的云端运算能力,以及开源的神经网络机器翻译框架的需求将越来越高。
Booking.com利用这三个趋势打造了产品层面的神经网络机器翻译系统(neural machine translation system,以下简称NMT系统),Booking.com称“这一系统正成为一个非常具有吸引力的解决方案,是对传统的人工翻译服务的补充。”
今年7月25日,负责此项目的团队在康奈尔大学运营的开放科学网站Arxiv.org发布的一份研究报告中宣布此NMT系统上线。
该研究报告的合作作者Pavel Levin、Nishikant Dhanuka、Maxim Khalilov都是Booking.com的高管,他们称研究重点在于对早前针对两个重要的互译模式(英语到德语和英语到法语)和两个通用在线引擎(统计和神经网络)的统计机器翻译系统(statistical machine translation system,简称STM系统)进行了NMT基准测试。
报告作者在该研究摘要中写道:“研究展示了SMT和NMT系统提供的翻译输出的自动评估和人工评估结果,分析了句子长度对这两个系统的输出质量的影响。”
该研究还获得了施普林格欧洲机器翻译协会(Springer European Association for Machine Translation,简称EAMT)在今年5月于捷克首都布拉格举办的第20届年度EMAT峰会上颁发的最佳机器翻译用户研究奖。
研究结果
该研究使用BLEU(双语评价替补,Bilingual Evaluation Understudy,简称BLEU)作为翻译质量评估的主要自动测量方法,披露了三个主要结果:NMT技术一致优于SMT;英德互译模式中,企业内部的NMT结果优于在线通用NMT引擎;NMT翻译的流畅度接近人工翻译水平。
研究者不仅引用了早前一些说明NMT在翻译长句时的翻译质量大幅下降的研究,还使用BLEU测试了长句如何影响NMT和SMT在英德和英法互译模式中的表现。
长句对NMT和SMT在这两种语言互译的影响主要有两点:“翻译质量在长句翻译的表现有所下降,但对于两种语言的互译,NMT的表现依然比SMT要好。”
大幅降低翻译成本
Booking.com对机器翻译很感兴趣,这几乎是意料之中的事情。据公布数字显示,其平台每天预订房间量达140万。该公司总部位于阿姆斯特丹,在全球多个国家和地区设立了办公室。
研究显示,该平台提供40个语种的语言翻译服务。研究指出:“其中一个主要的使用案例是将酒店描述信息从英语翻译成其他语种(包括酒店、公寓、住宿加早餐酒店、旅馆等)。”
通过整合这些公司内部开发的机器翻译解决方案,Booking.com认为这可以提升翻译效率。
研究表明,“通过提高翻译速度、减少一个酒店的介绍从翻译到上线的时间和大幅降低相应翻译成本”,翻译效率可以得到提升。
联手哈佛,开发NMT系统性能
Booking.com商务负责人以及该研究合作作者之一的Maxim Khalilov表示,Booking.com花了半年的时间内部开发NMT的内部性能,其中不包括花在统计机器翻译开发和测试的时间。
据Khalilov透露,他们使用的开发框架是由哈佛大学提供的基于Torch的编程解决方案OpenMT,这一解决方案还得到语言翻译软件商Systran的支持。
哈佛自然语言处理机构的Alexander Rush在去年12月OpenMT上线时接受了Slator的采访,他表示:“希望能有不同的研究者研究如何提升翻译,并期待业内人士能够越来越熟悉新的人工智能技术”。
当被问到Booking.com是否在其自己的服务器上运营NMT时,Khalilov表示,尽管他们在某些实验中使用自己的图形处理器(graphical processing units),Booking.com目前主要还是依靠亚马逊云服务(Amazon Web Services)运营NMT。
研究指出,Booking.com未来的研究方向将会是内部NMT系统的提升,主要有两个方向——提升未知词和生僻词的处理;提升对商业敏感内容翻译错误的识别。
Khalilov说:“我们已在公司内部识别出10种机器翻译使用案例,根据我们的优先计划,我们将反复关注这些使用案例。”(Nic编译)
(编辑: xueqi)