“哩贺 / Hello” 从闽南语开始 Meta推进语音翻译

字体大小:

“哩贺马克!你甘知影,咱ㄟ团队打造出第一个支持口语语言的华语系统?”(Hi Mark, do you know that our team created the first translation system to support a spoken language?)

从闽南语翻译成英语,只需要用说的,竟然就可以依靠人工智能完成翻译?

Meta总裁马克·扎克伯格(Mark Zuckerberg)近日的一段视频,宣布了他们团队正在开发的一套通用语音翻译工具(Universal Speech Translator),让人工智能做口头翻译,把自己所说的语言翻译成对方的语言。

这段对话中的闽南语相当地道。研究员陈鹏仁在台湾长大,他的父亲是南部人,习惯说闽南语,因此陈鹏仁也希望这项技术可以帮助更多像他父亲一样的人,以自己熟悉的语言与其他人沟通。

但翻译闽南语要考虑到不同地区之间的差异。据Meta统计,在中国大陆有约2800万人说闽南语,台湾有约1350万人,菲律宾、新加坡和马来西亚则各有100万至200万人。

闽南语翻译工具将让亚洲各地说闽南语的人口获益。(取自Meta)

另一方面,闽南语似乎也没有确立一个统一的书写标准,从事闽南语与英语翻译的专才也不多,这就导致翻译工作面对十分艰巨的挑战。

Meta团队因此借用中文的书写格式作为参照,先将闽南语和英文分别翻译成中文,然后再进行一次翻译。但人工智能目前仍无法做到实时翻译,一次只能翻译一个完整的句子。

智能翻译是为元宇宙铺路

马克·扎克伯格的Meta团队致力于发展翻译工具,其实也在为设立元宇宙铺设基础。

考虑到社交是元宇宙的基本功能,人们要在虚拟空间里工作和娱乐,若能通过智能翻译打破语言上的隔阂,这将进一步拉进人们在元宇宙里的距离。

Meta的这套通用语音翻译工具是开源系统,也希望将来能达到实时翻译。至于要等多久才能实现,则有待观察。

AI翻译新方向:不成文语言

看到人工智能翻译方言,的确令人啧啧称奇,但它的发展有可能意味着另一种可能性:把一些不成文语言(unwritten languages)保留下来。

Meta团队指出,全球超过7000多种语言当中,有40%都属于不成文语言,没有一套标准的书写体系。随着使用人口的不断减少,有些语言正处于濒危状态,倘若能通过人工智能加以识别和翻译,这将有助于保全人类语言文化的多样性。

据商务印书馆出版的“中国濒危语言志”丛书记录,中国的130多种语言中,万人以下使用的语种有68个,5000人以下使用的语种有48个,不足千人使用的语种有25个。

联合国教科文组织的调查指出,在南岛语系的西部(Western Astronesia)其实就有约90种濒危语言,有的则已经灭绝。

据2010年统计,在南岛语系西部的濒危语言有约90种。(取自联合国教科文组织)

Meta团队透露,他们将开拓人工智能翻译其他语种的能力,并且相信人工智能可以为不成文语言解决沟通上的困难,这意味着,人们或许有朝一日可以在互联网上以各自不同的语言顺畅地沟通交流。

LIKE我们的官方脸书网页以获取更多新信息