Facebook采用无监督机器学习翻译其平台上内容

【概要】脸书公司开始使用无监督机器学习来为其用户提供翻译服务。
由于缺少从一种语言到另一种语言的很多翻译示例——例如从英语到乌尔都语(urdu),facebook(脸书)公司已经开始使用无监督的机器学习来翻译其平台上的内容。
facebook人工智能研究院(facebookai research,fair)巴黎实验室的主任antoine bordes表示:该方法由fair设计,并由fair和facebook的应用机器学习部门合作用于其平台。在实验中,该方法的表现与经过10万次翻译训练的有监督模型相当,并且在翻译示例很少的情况下,其表现优于facebook的语言匹配系统。bordes说:“当你处理像英语到乌尔都语这样的案例很少的翻译任务时,我们系统的表现超过了有监督的系统。因此,在没有足够数据的时候,训练无监督系统比有监督系统更好。”
由facebook人工智能研究人员guillaume lample和marc'aurelio ranzato领导的这项工作的成果将于今年秋季在emnlp 2018上公布。作为fair的一名老员工,bordes表示这项研究是他见过的最好的翻译系统。bordes说:“我们现在可以去一个使用未知语言的星球—或者说,跟外星人交谈—你可以尝试对他们所说的内容进行合理的翻译。你也可以从一本古老的手稿上找到尚未破译的语言,你可以真正了解它的含义,因此这项工作真的在这些方面取得了突破,而这就是我如此兴奋的原因。”
与fair的其他项目一样,该ai系统将是开源的,可以在github上下载。今年早些时候,facebook将translate做了开源,这是目前facebook用来辅助翻译的人工智能系统。translate等系统需要大量的标记数据。例如,完成从法语到英语的翻译需要数百万个样本句子来创建一个能够理解这两种语言的系统。因此,在缺少翻译示例时,翻译工作是非常困难的。
当前用于处理这种案例的人工智能系统结合了三个要素:逐字翻译、语言模型和反向翻译。逐字翻译的训练原理为:根据一个句子中某个字的前面五个单词和后面五个单词来推测其上下文含义,然后对该单词进行预测。这个嵌入词语的方法是在2017年秋天lample和ranzato共同撰写的一篇论文中提出的。然后,使用大量数据(如书籍或其他书面文本)训练的语言模型被用于按照英语或乌尔都语使用者能够理解的结构来安排句子。最后,使用反向翻译来改进通过逐字翻译和语言模型获得的翻译结果。这些方法并不新鲜,但三者的结合的确是有效的。
bordes称:“使用这两个系统,并在两种语言之间进行双向翻译,我可以将它们进行同时训练以获得相互促进,所以真正核心思想是使用这些词语(翻译模型),利用该语言模型做第一次翻译,然后用反向翻译的方法尝试进行改进。”
facebook将在未来探索将这种人工智能系统用于其他形式的翻译,但需要更多的数据,并需要与专业翻译人员合作来验证结果。

专为健康监控设计的家用holter监护仪方案
语音识别技术的分类及识别方法
爱立信携手合作伙伴完成基于5G连接的智慧码头建设
飞昂创新宣布完成A轮战略融资
Diodes推出为VoIP应用优化的全新MOSFET
Facebook采用无监督机器学习翻译其平台上内容
网络懂行|华为自动驾驶网络助力中国石化江苏石油分公司数字化转型
立昂微电子投资50亿晶圆项目开工
有源高精度高隔离变送器
华为云底气十足 属于中国AI的黄金时代正在到来
云计算技术为用户提供药物治疗“最优解”方案
三星S8在3月29日发布?前面板意外曝光,屏幕惊人!
浅谈流量测量技术与仪表的应用
仿真新挑战的解决方案
什么是ToF传感器?ToF的分类
单片机看门狗电路的作用,看门狗系统设计技巧及其抗干扰措施
安华高密封型3.3V高增益光电耦合器:ACPL-570xL/573xL/177xL
北通与中国力量共荣耀,北通游戏厅率先宣布支持鸿蒙系统
浅谈华为的麒麟A1芯片麒麟SoC系列芯片的“技术下沉”
电动拖把好用吗?蒸汽除菌给你更健康的家