当语音输入不再受时光的限制,用户是否可以真正实现“动口不着手”?近日,百度AI开放平台向开辟者免费开放长语音辨认功能,经由过程SDK调用办事,可将长语音转换为文字。据懂得,新版本SDK解除了对时光的限制,开辟者无需再将长语音切割成60秒以内的分段,进行调用,晋升了转写的效力和语音识其余体验。对于用户来说,新版本拜别之前60秒的“束缚”,可根据须要自行把控时光,极大年夜地进步了灵活性。

据懂得,作为全球最早进军人工智能范畴的公司之一,百度早在2010年就已经开端智能语音及相干技巧研发,分别于2014年和2015年事尾宣布了深度语音辨认体系Deep Speech和Deep Speech 2。该体系应用“端对端”的深度进修技巧,在噪音情况下的表示比谷歌、微软以及苹不雅的语音体系更好。同时,百度凭借深度语音辨认技巧于 2016年入选MIT十大年夜突事业巧。2017岁首?年代,百度推出网页应用SwiftScribe,它能将音频文件转为文本,30秒内就可转换完成时长1分钟的音频文件,转化效力较人工速记快1.67倍,极大年夜晋升速记行业转录效力,加快语音行业的成长。

跟着用户对移动端语音功能需求的增长,开辟者也开端纷纷将产品接入语音功能。今朝,开辟者多经由过程第三方接入语音辨认技巧,以削减研发时光、降低研发成本。然则,大年夜部分公司供给的语音辨认功能有时光限制,类似会议灌音、长语句等长语音辨认成了难题,固然市情上存在一些长语音辨认技巧支撑方,但开辟者须要为此付出大年夜笔的技巧接入费用,徒增营业成本。

对于用户,受“60秒”限制的语音辨认功能往往无法知足他们在生活、工作中的需求,这不仅影响他们应用语音辨认功能的“兴趣”,同时会导致用户对一些搭载了语音辨认功能的产品“敬而远之”。

为解决这些痛点,百度基于原有语音辨认技巧,新增长语音辨认功能,让语音辨认不再局限于60秒,并且为开辟者免费开放。比如开辟者可将长语音辨认用于会议记录、及时髦幕和语音标记等场景,让产品实现不应时长的音频转换为文字信息,或将直播、视频、现场演讲等音频进行及时髦幕转换等功能,便利后期文字处理和内容存档,省去记录的人力和时光成本,大年夜幅晋升了转换效力,赐与开辟者和用户更好的应用体验。

百度长语音辨认实用于安卓SDK、iOS SDK,均在原有的离在线融合SDK上进级,开辟者可根据不合情况接入百度长语音辨认功能。今朝,开辟者可上岸百度AI开放平台(ai.baidu.com),在“SDK下载”界面中,下载体验百度长语音辨认功能。