【台湾第一代AI专家解密】电脑能翻103种语言,为何Google Home仍不会说中文?
2017-07-13 13:48:31 | 来源:ithome | 投稿:米娜 | 编辑:dations

原标题:【台湾第一代AI专家解密】电脑能翻103种语言,为何Google Home仍不会说中文?

Google台湾董事总经理简立峰

图片来源:

iThome

不过才过了2、3年,科技产业已经从行动第一风潮,现在转向了AI第一的氛围。尤其去年AlphaGo打败了世界围棋冠军,让人们开始担心起,AI跟人类之间出现的竞争关系,AI会不会取代人类的声音似乎多了起来。

其实,“AI已经发展了30年,并非是新的议题。”Google台湾董事总经理简立峰笑着说,例如Gmail內建已久的垃圾信件过滤就是机器学习的应用。他可谓是台湾第一代人工智慧专家,早在1993年就和他的老师台大电机系教授李琳山共同发表了中文语音辨识设备,简立峰后来更因大量中文资讯检索研究的贡献,被称为中文搜寻第一人。

但是,为何这一波AI科技影响会这么大?简立峰认为,深度学习技术带来机器学习演算法上的突破,最大关键是可以善用大量资料。

类神经型网络的机器学习技术推出多年,但过去就算有大量资料,学习模型不见得会有明显改善,甚至让过去的学者以为,资料得无限多才能有好结果。

但“这几年发现,资料量大非常重要,可是不需要到无限大。”简立峰指出,只要学习演算法在特定理论架构和经验值的调校下,就能有很大的进步。Google也将深度学习经验,开发出了Tensorflow深度学习框架开源释出,进而催生了大量深度学习应用,来加速机器学习和人工智慧的发展。

目前机器在不少领域如文字辨识,影像辨识已经可以媲美人的能力,“当一件事无法判断是人做的还是机器做的,代表AI可以做到不错的程度。如机器翻译已有相当品质了。”简立峰说。

2006年,Google来台设立据点,第一位员工就是简立峰,他进入Google的前3个月,就参加了当时Google的机器学习研发小组,是这个团队的第四位科学家,就是从事机器翻译技术的研发。相较于现在,“我非常清楚,一开始机器翻译的品质有多差,几乎不敢推出产品。”他说,随着大量Google搜寻累积的大量资料,和群众建议修改的改善,才让大幅改善了机器翻译的品质。

因为全球网络多达50%的內容是英文,但英文使用者只占20%,要让更多人有能力搜寻更多资料,內容自动翻译是关键,这也是Google开始重视机器翻译技术的关键。目前,Google翻译已经可以支援103种语言。每天要提供超过10亿次翻译请求,每月常用的使用者超过10亿人,而台湾更是Android版Google翻译用户成长最快的地区,过去一年来使用规模成长了2倍。

10年前,Google利用同样网络內容的不同语言版本,来训练机器学习模型,例如同一个网页有英文和日文版,就可以将句子切割成小块的语言单位,例如字、词或片语,再来进行逐字或逐词的翻译,最后再把每一个翻译过的词,拼成想要翻译的语言的句子。Google用这个方法翻译了数十亿笔网络文件。

深度学习让机器翻译语句更通顺,更像人工翻译

Google翻译产品经理Julie△Cattiau称这是一种片语式机器翻译(Phrase-Based△Machine△Translation),可行但翻译后的句子是词句分离且片段的。直到2015年9月,Google开始用TensorFlow深度学习框架来改善机器学习。2016年9月时更宣布完成了Google神经机器翻译系统(Google△Neural△Machine△Translation,简称GNMT),可以将整句话视为一体来翻译,能利用数百万个语句来训练翻译模型,让机器翻译出语意连续且更通顺的句子,让机器翻译品质更接近人工翻译一步。

Google在2016年9月推出利用GNMT技术的中英对译服务,到今年5月已有超过41个语言组,采用GNMT来改良翻译品质。Julie△Cattiau表示,目前Google翻译可以支援103种语言翻译,等于有103╳103超过上万个语言组(中翻英和英翻中视为2个语言组),每次训练出一个语言组所需的GNMT模型,需用准备上亿笔训练资料,使用8个Google处理器,花2~3周时间才能完成。

多元语言翻译已成为可能,已有10种语言组采用

所以,Google去年11月时,更进一步开始打造一套多元语言翻译系统称为Zero-Shot,例如只要使用英日翻译、韩英翻译的训练后,就可以让系统自动产生日韩的翻译模型。Zero-Shot的运作关键是运用大量多语语句素材,来找出相同语义的不同语言用词,就可以依据语义来进行翻译,例如用英翻日和韩翻英的语料,找出“吃饭”这个语义的日文、英文、韩文用词,就可以进行日韩、韩日的翻译,而不需要日翻韩的语料。目前,Google已有10组语言使用Zero-Shot翻译训练方式。

但是,尽管Google机器翻译技术发展到如此境界,已经可以翻译上百种语言,Google去年发表的Google△Home智慧喇叭却迟迟无法支援中文,甚至还不知道能够推出的时程。

简立峰解释:“翻译跟对话是两种截然不同的挑战。”机器翻译常见的作法是,对一句英文找出几百种中文翻译用法,再从中找出使用率最高的一种。“翻译可谓是一种选择题。”只要统计出不同语言词句之间的关系,就能做得到,但“机器无法真的理解。”他说。

举例来说,“把灯打开,不够亮,再开一点”这样简短的几句话,虽然第二句“不够亮”中缺了主词,但人可以理解这是指“灯”的亮度,可是对电脑而言,要知道文句中没有显示的主词是灯,甚至是哪个位置的灯,“难度非常高。”简立峰说:“越简短的句子,省略越多,机器理解的难度越高。”

除了技术问题,另一个挑战是用来训练理解用的资料很难取得。因为生活空间很少保留这类对话资料,尽管像Google△Home可以支援英文的理解,但要转换支援另一个语言,就需要重新搜集资料,因此更难像机器翻译那样可以支援到103种语言。而更进一步让机器进行对话的难度更高,得让机器理解对话的前后文关系才行。

简立峰表示:“AI不能做什么,比可以做什么的议题更重要。”目前,AI可以发挥作用的是在特定领域,要累积大量资料,且这个领域的行为可以预测,可以透过资料训练和学习来累积知识,才能发挥作用。

机器学习不能学所有的事,而是学习有规范的资讯。

另外,人类还有许多种能力,无法透过资料来学习,例如脑中决策、理解、判读和联想能力等。像推理能力这几年研究进展还很有限,尤其这类领域几乎没有资料可用于训练,不容易有突破。

不过,透过资料训练出人不能理解的知识,例如垃圾邮件拦截,已经可以产生智慧化的服务,已经可以具有商业应用价值,“机器学习等于是大数据的再延伸,”他说,利用资料探勘加上类神经技术后,可以有更大的进展。

“缺乏训练资料,知识不知如何产生,偏重语意理解的领域,这对AI来说还是很难!”简立峰强调,不能过度将机器学习视为可以解决人工智慧的所有问题,“机器学习不能学所有的事,而是学习有规范的资讯。”

?100项 IT人不可不知的AI发展??

No.017 深度学习技术开始让机器翻译更通顺,接近人工翻译

No.018 Google多元语言翻译引擎能自动翻译新语言

No.019 机器无法学所有的事,只能学习有规范的资讯

tags:

上一篇  下一篇

相关:

在台夺冠观众离场 台湾青年做的事让人感到寒心 [生活]

毋庸置疑,台湾是中国不可分割的一部分,然而在台湾却有许多青年伴有不一样的想法,甚至他们会故意羞辱中国内地的人,日前在台湾举办刚结束的英雄联盟(LOL)洲际赛亚洲对抗赛中就可以充分体现出来。来自中国大陆的L

大陆电竞选手在台湾被羞辱 [生活]

大陆电竞选手在台湾被羞辱夺冠后观众竟全部离场场面十分尴尬2017《英雄联盟》洲际系列赛亚洲对抗赛在中国台湾省高雄市落下帷幕,我国LPL联赛获得冠军。然而颁奖时,现场台下观众全部离场。到底发生了什么?中国战队强

辽宁舰穿台湾海峡 [热点]

实时热点原标题:台媒:辽宁舰今日凌晨穿越台湾海峡台军全程监控海外网7月12日电据台湾“中时电子报”报道,台湾地区防务部门今(12)日凌晨表示,大陆辽宁舰编队昨...据台湾“中时电子报”报道,台湾地区防务部门今(12)日凌

台湾资料工程协会即将成立,大数据平台Hadoop之父也来站台

台湾资料工程协会(Taiwan△Data△Engineering△Association,TDEA)刚于7月11日获內政部核准设立,也将于这周三7月12日正式对外宣布成立事宜,协会也找来大数据平台Hadoop之父Doug△Cutting来台访问,Doug△Cutting

台湾女子专程到香港参观辽宁舰 [生活]

(原标题:台湾正妹登辽宁舰兴奋合照开心直呼"中国人强嘛!")、台湾正妹登上“辽宁号”开心直呼“中国人强嘛!”(图片取自台媒)中国台湾网7月10日讯今年是香港回归祖国20周年,7日清晨,中国人民解放军首支航空母舰

站长推荐: