您当前的位置:千讯科技网资讯正文

百度ERNIE在GLUE大赛中打败了微柔和谷歌

2020-01-10 06:24:58  阅读:7251 作者:责任编辑NO。杜一帆0322

受中英文差异的启示,ERNIE 的成功标明人工智能研讨可以集百家之长。

作者 | Karen Hao

译者 | 弯月,责编 | Elle

出品 | CSDN(ID:CSDNnews)

以下为译文:

本月初,我国的一家科技巨子在一场继续的人工智能竞赛中悄然打败了微柔和谷歌。该公司便是百度,其在我国的位置就相当于谷歌在北美。而这场竞赛便是通用言语了解点评测验(General Language Understanding evaluation,即GLUE)。

GLUE 是点评AI体系了解人类言语方面广泛认可的规范。该竞赛由9个不同的测验组成,这中心还包含找出语句中的人名和安排,以及了解“it”等代词指代的是语句中的哪个。因而,如果在GLUE竞赛中得分很高,则意味着该言语模型可以处理各种阅览了解使命。竞赛满分为100分,均匀得分约为87分。而现在百度的 ERNIE 成为了第一个逾越90分的模型。

GLUE 的揭露排行榜在继续不断地改变,或许很快就会呈现另一支部队逾越百度。可是,百度的成功标明 AI 研讨可以集百家之长。在构建 ERNIE 之际,百度的研讨人员不得不研制一种专门的技能来处理中文。ERNIE(Enhanced Representation through kNowledge IntEgration)代表“常识增强的语义表明模型”。可是,很恰巧的是,这项技能也可以让模型更好地了解英语。

ERNIE的前身

说起 ERNIE,它的创意来历于 Google BERT。

BERT 面世于2018年底,在这之前的自然言语模型都不是很抱负。这些模型拿手猜测语句中的下一个单词(因而它们很合适主动补齐等使用程序),可是它们无法了解整段话的意义,哪怕是很小一段。这是因为它们不了解语句的意义,例如它们无法了解“it”一词指代的是什么。

可是 BERT 改变了这一点。之前的模型在猜测和了解单词的意义时,只能考虑单词之前或之后的上下文,却无法一起统筹两者。换句话说,它们是单向的。

相比之下,BERT 可以一起考虑单词前后的上下文,所以是双向的。它运用一种名叫“掩盖”(masking)的技能来完结双向的操作。BERT 会在一段给定的文本阶段中,随机掩盖15%的单词,然后测验依据剩下的单词进行猜测。因为它具有双倍的头绪,因而可以做出更精确的猜测。举个比方,“他去__购买牛奶”,这个语句最初和结束部分都能给出有关缺失词语的提示:__是一个你可以去的当地,也是一个可以买到牛奶的当地。

“掩盖”技能的呈现是自然言语处理作业得到极大进步背面的中心立异之一,并且也是比方 OpenAI GPT-2 等模型可以撰写出极具说服力的散文而又不违背中心论题的原因之一。

从英文到中文再回到英文

最初百度的研讨人员刚开始开发自家的言语模型时,他们期望以“掩盖”技能为根底构建模型。可是他们意识到他们需要对这项技能做调整,才干处理中文。

在英语中,单词是语义单元,即使彻底脱离上下文意义依然不会丢掉。可是,中文里的单个字并不能表达完好的意义。虽然某些字的确有意义,例如火、水或木等,可是大多数字只要与其他字组词之后才具有完好的意义。组词不同意思也不同,举个比方,“灵”这个字,在“机伶”中表明聪明,但在“神灵”中就指神仙了。而专有名词中的字一旦拆开来后,就彻底不是一个意思了,比方“波士顿”,“美国”(其意义并不是“美丽的国家”)。

因而,百度的研讨人员在练习 ERNIE 的时分,研制了新一版的“掩盖”技能,它可以掩盖词而不单单是一个字。他们还练习 ERNIE 区别有意义的词和随机的词,教会它相应地掩盖正确的词。成果,ERNIE 关于怎么解读中文信息有了更深化的了解,并且在猜测缺失的字和词方面也愈加精确。事实证明,这关于翻译和检索文本文档的信息使用程序十分有协助。

研讨人员很快发现,实际上这种办法关于英文了解也很有优点。虽然没有中文那么频频,但英语也具有相似的现象,即一组单词表明的意思与每个单词独自的意义不同。比方“Harry Potter”(哈利·波特)之类的专有名词,以及短语“chip off the old block” (孩子酷似双亲,字面意思为“切去旧块”),你不能经过拆分解析这些短语的意义。

关于如下这句话:

Harry Potter is a series of fantasy novels written by J. K. Rowling.(哈利·波特是J·K·罗琳所著的一系列魔幻小说。)

BERT 的掩盖办法为:

__ Potter is a series __ fantasy novels __ by J. __ Rowling.

可是 ERNIE 的掩盖办法为:

Harry Potter is __ __ __ fantasy novels by __ __ __.

可见,ERNIE 可以依据意义来学习更牢靠的猜测,而不只仅是计算单词的运用形式。

各种主意

最新版的 ERNIE 还运用了其他几种练习技巧。它考虑了语句的次序及语句之间的间隔,例如了解阶段合理的开展。可是,最重要的是,它经过一种名叫接连练习的办法,在新数据集上针对新使命展开练习,一起还不会忘掉从前学习的内容。这样一来,跟着时刻的推移,这个模型就可以渐渐的变好地履行渐渐的变多的使命,而人类的干涉也会降到最低。

百度积极地运用 ERNIE 来为用户更好的供给更多有用的查找成果,删去新闻源中的重复报导,并进步其AI帮手小度精确呼应恳求的才能。百度还在一篇论文中描绘了 ERNIE 的最新架构,该论文将在下一年人工智能开展协会大会上宣布。百度的研讨人员从前学习了 Google BERT,所以现在他们期望其他团队也能从 ERNIE 中获益。

百度研讨的首席架构师Hao Tian说:“在刚着手这项作业的时分,咱们首要考虑了中文的某些特征,可是很快咱们就发现它的使用不只限于中文。”

原文:https:///s/614996/ai-baidu-ernie-google-bert-natural-language-glue/

本文为 CSDN 翻译,转载请注明来历出处。

热 文推 荐

你点的每个“在看”,我都仔细当成了喜爱

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!