IT之家 12 月 31 日消息,2021 年 12 月,字节跳动旗下的火山翻译官网,上新了包括世界语、塔希提语、鞑靼语等在内的 38 个稀有语种的翻译。
目前,包括汉语、英语、阿拉伯语、俄语、法语、西班牙语六个通用语种在内,火山翻译已具备 94 个语种、8742 个语向的翻译能力,整体 bleu(机器翻译质量自动评估指标)达 33.45,处于行业领先。
据了解,通过采用自研的 mRASP 多语言模型,火山翻译仅使用一个模型就完成了上述 38 个语种与英文的双向互译。
突破了传统双语言翻译模型对每个语向单独训练、单独上线服务的方式,大幅降低机器的训练和服务成本。
IT之家了解到,火山翻译通过 mRASP 中的对比和词对齐信息,可以很好地借助单语语料和其他拥有丰富语料的语种来帮助训练,弥补训练数据的不足。