近日,百度AI开放平台向开发者免费开放长语音识别功能,通过SDK调用服务,可将长语音转换为文字。据了解,新版本SDK解除了对时间的限制,开发者无需再将长语音切割成60秒以内的分段,进行调用,提升了转写的效率和语音识别的体验。对于用户来说,新版本告别之前60秒的“束缚”,可根据需要自行把控时间,极大地提高了灵活性。

目前,开发者多通过第三方接入语音识别技术,以减少研发时间、降低研发成本。但是,大部分公司提供的语音识别功能有时间限制,类似会议录音、长语句等长语音识别成了难题,虽然市面上存在一些长语音识别技术支持方,但开发者需要为此支付大笔的技术接入费用,徒增业务成本。

百度基于原有语音识别技术,新增长语音识别功能,让语音识别不再局限于60秒,并且为开发者免费开放。比如开发者可将长语音识别用于会议记录、实时字幕和语音笔记等场景,让产品实现不同时长的音频转换为文字信息,或将直播、视频、现场演讲等音频进行实时字幕转换等功能,方便后期文字处理和内容存档,省去记录的人力和时间成本,大幅提升了转换效率,给予开发者和用户更好的使用体验。

据了解,作为全球最早进军人工智能领域的公司之一,百度早在2010年就已经开始智能语音及相关技术研发,分别于2014年和2015年年底发布了深度语音识别系统Deep Speech和Deep Speech 2。该系统使用“端对端”的深度学习技术,在噪音环境下的表现比谷歌、微软以及苹果的语音系统更好。同时,百度凭借深度语音识别技术于 2016年入选MIT十大突破技术。2017年初,百度推出网页应用SwiftScribe,它能将音频文件转为文本,30秒内就可转换完成时长1分钟的音频文件,转化效率较人工速记快1.67倍,极大提升速记行业转录效率,加速语音行业的发展。