8月25日,百度举办了以“掌握知识、理解语言、拥有智能”为主题的语言与知识技术峰会,对外展示了百度语言与知识技术的最新成果,并与产学研各界分享技术及产业发展趋势和展望。

一、勇攀认知智能高峰,百度NLP十年领跑全球

以2010年于国内率先成立NLP研发部门为起点,百度在NLP领域的研发和应用,已经走过了十年光阴。在这个历程中,百度不但实现了自身NLP的完整布局,而且引领中国的语言与知识技术行业,进入了世界最先进行列。这个进步,在自然语言处理方面顶级会议 ACL十年来的变化中就可清晰看出。早在2000 年,当 ACL 年会在中国香港举办时,来自中国大陆并有能力向大会提交论文的,只有微软中国研究院一家。即便到了 2005 年,中国大陆地区所贡献的论文也只区区三篇。然而自2010年百度正式进入NLP领域后,情况开始发生变化。

2010年开始,百度前瞻性地做出决策,将各类人才从不同的业务线和部门中抽调并组建了专门的NLP部门。2013 年,现在的百度CTO王海峰出任 ACL 五十年来首位华人主席;2014年,现任职百度技术委员会的吴华成为中国企业首位 ACL 程序委员会主席;2016 年,现任的百度核心策略算法负责人赵世奇当选 ACL 秘书长,成为首位当选该职位的亚洲人;2018 年,ACL 宣布创建亚太区域分会(AACL)并计划在 2020 年举行首次会议,由王海峰担任创始主席。随着百度的深度参与,有了“领头羊”的中国大陆NLP领域开始突飞猛进。在今年7月10日落幕的自然语言处理顶会 ACL 2020上, 所有被专家论证通过并接受的779 篇论文中,有 185 篇来自中国大陆,占被接收论文总数的 23.7%,仅次于美国。百度与ACL的十年交集,正是中国NLP领域快速崛起的十年。

十年艰苦卓绝的努力之下,百度在前沿技术探索、与实际业务落地两个方向上都取得了长足进展。迄今为止,百度已经构建了完整的语言与知识技术布局,包括知识图谱、语言理解与生成技术,以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的应用系统。在国内,获得国家科技进步奖在内的20多个奖项,在世界上获得30多项国际竞赛冠军,并且累计发表学术论文超过300篇,申请专利2000多项。如今的百度NLP,已经无可争议地站在了领跑全球的新起点上。

二、十年成林,百度破解NLP产业落地难题

从百度CTO获任ACL的首位华人主席,到由百度牵头成立ACL亚太区域分会,百度之所以在这个世界自然语言处理方面的顶级会议组织中获得如此高的地位,除了其在基础研发方面的卓越贡献外,还有一个关键因素,就是百度率先破解了NLP产业在落地实施上的重大瓶颈。

多年来,世界人工智能行业在这个领域的研究已经取得极大进展,然而在实现产业落地上,长期受困于一个关键环节——如何让机器、以及各类软硬件系统,能够像人一样掌握知识、理解语言?不在这一点上取得突破,NLP技术就很难真正在为社会、经济服务的实践中成为人类的得力助手。

百度十年前之所以决策成立专门的NLP部门,就是因为前瞻性地看到了这个关键问题。百度清晰地洞察到,为了让人工智能技术能够大量应用于社会经济,首先必须突破机器对语言与知识的认知瓶颈——构建大规模知识图谱。只有在这样的大规模知识图谱支撑下,机器才能具备可用的认知能力。

在8月25日的语言与知识技术峰会上,百度向业界分享的重要成果之一,就是历经十年深耕而构建的,世界上最大的多元异构知识图谱。该图谱有超过50亿实体和5500亿事实,并在不断演进和更新,能够应用于各行各业。该图谱的推出,破解了NLP产业落地最大难题,成为NLP产业落地实践的基础平台。现在,其每日调用次数已经超过400亿次,广受行业赞誉。

在这一套多元异构知识图谱的背后,是创建的包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术、以及融合多元异构数据的知识补全与整合技术在内一整套知识图谱构建方法。正是在这套成熟的方法论支持下,百度的知识图谱中,既包含了基础的实体知识图谱,也有行业知识图谱、事件图谱、关注点图谱等,以及融合语音、视频、图片的多模态知识图谱。有了如此丰富知识的加持,人工智能系统的阅读理解和对话能力就得到了迅速提升,在各种行业场景的应用中,还可融合场景图知识的跨模态语义理解预训练技术,大幅提升跨模态推理能力,为NLP产业在各个垂直场景中的全面落地,奠定了坚实基础。

三、助力产业智能化升级,百度NLP发布多个场景解决方案

以这套多元异构知识图谱为基础,百度实现了NLP技术应用最关键的价值落地。对此,百度创始人、CEO李彦宏曾经谈到,当前的人工智能技术应用,从宏观上看正处于“三起两落”的“第三起”,也就是最有希望实现人工智能全面落地的时代,也就是“产业智能化时代”。在这个关键时间点上,全力推进AI技术与产业经济的全面融合、实现价值落地,既是AI技术发展的关键,也是AI平台型企业实现自身价值的必由之路。

当下人工智能正在深刻改变着现有的生产、消费模式,而NLP技术在人工智能与产业深度融合的过程中所起到的关键作用,决定了NLP的价值落地,是衡量整个AI技术价值的核心指标。有鉴于此,百度NLP在继续进行技术深化的同时,也在积极探索并全力实施产业落地。而百度在这个方向上为行业所做出的最关键贡献之一,就是提出了多个场景下针对性的解决方案。

在峰会现场,百度NLP发布的多个场景解决方案,以“价值落地”为引领,成为整个NLP行业与产业经济深度融合、助力产业智能化升级的典范,引起业界高度关注。这些方案包括:

文心ERNIE语义理解技术与平台、TextMind智能文档分析平台、智能创作平台、UNIT智能对话与定制服务平台、AI同传会议解决方案。

其中,文心(ERNIE),领先的语义理解技术与平台,是在ERNIE核心技术的基础上延展开发的语义理解技术与平台。它提供数据处理、模型训练、模型评估、模型部署一站式NLP定制能力,让开发者更简单、高效地定制NLP模型,以满足企业智能化转型过程中,面对的各种机器文本处理需求。

TextMind智能文档分析平台,底层基于OCR、NLP技术,以文档解析为核心能力,具备文档比对、审核能力。它的场景预置支持开箱即用,还提供零门槛定制工具。在准确率方面,对于常用解析字段,100%准确;非常用字段,无需标注就可以达到90%准确率。

AI同传会议解决方案,则为用户搭建了高效的同传服务平台。依托这个方案,用户仅凭一台电脑、一部手机,就可以快速开启准确率高、效率一流的同传服务。这一AI同传会议解决方案还具有覆盖会议全场景的优势,具备对线上远程会议室、线下会议、以及主题演讲和多人讨论进行全面支持的能力。

智能创作平台,是一套面向媒体行业,能够支持智能策划、智能采编和智能审校3大场景的智能创作系统。它的功能覆盖了从选题,到文字、视频生产的采编,再到文本、格式校对等各个环节,全面帮助媒体机构与个人提升创作效率。

UNIT智能对话与定制服务平台,是企业对外交流、服用户的支撑系统。它能降低任务式对话、智能问答的定制成本,并融合了通用对话能力,以提升交互体验。并且可以在智能客服、小度车载OS、小度DuerOS等多种应用场景下进行落地应用。

产业智能化时代,技术能力领跑全球、拥有世界上最大的多元异构知识图谱,以“价值落地”为核心理念的百度NLP,必将成新的行业指引。