语音识别 api 语音识别转文字免费

转载

mob6454cc70219b 2024-08-02 16:57:27

文章标签 语音识别 api 百度新版本开放平台 文章分类 NLP 人工智能

当语音输入不再受时光的限制，用户是否可以真正实现“动口不着手”？近日，百度AI开放平台向开辟者免费开放长语音辨认功能，经由过程SDK调用办事，可将长语音转换为文字。据懂得，新版本SDK解除了对时光的限制，开辟者无需再将长语音切割成60秒以内的分段，进行调用，晋升了转写的效力和语音识其余体验。对于用户来说，新版本拜别之前60秒的“束缚”，可根据须要自行把控时光，极大年夜地进步了灵活性。

据懂得，作为全球最早进军人工智能范畴的公司之一，百度早在2010年就已经开端智能语音及相干技巧研发，分别于2014年和2015年事尾宣布了深度语音辨认体系Deep Speech和Deep Speech 2。该体系应用“端对端”的深度进修技巧，在噪音情况下的表示比谷歌、微软以及苹不雅的语音体系更好。同时，百度凭借深度语音辨认技巧于 2016年入选MIT十大年夜突事业巧。2017岁首?年代，百度推出网页应用SwiftScribe，它能将音频文件转为文本，30秒内就可转换完成时长1分钟的音频文件，转化效力较人工速记快1.67倍，极大年夜晋升速记行业转录效力，加快语音行业的成长。

跟着用户对移动端语音功能需求的增长，开辟者也开端纷纷将产品接入语音功能。今朝，开辟者多经由过程第三方接入语音辨认技巧，以削减研发时光、降低研发成本。然则，大年夜部分公司供给的语音辨认功能有时光限制，类似会议灌音、长语句等长语音辨认成了难题，固然市情上存在一些长语音辨认技巧支撑方，但开辟者须要为此付出大年夜笔的技巧接入费用，徒增营业成本。

对于用户，受“60秒”限制的语音辨认功能往往无法知足他们在生活、工作中的需求，这不仅影响他们应用语音辨认功能的“兴趣”，同时会导致用户对一些搭载了语音辨认功能的产品“敬而远之”。

为解决这些痛点，百度基于原有语音辨认技巧，新增长语音辨认功能，让语音辨认不再局限于60秒，并且为开辟者免费开放。比如开辟者可将长语音辨认用于会议记录、及时髦幕和语音标记等场景，让产品实现不应时长的音频转换为文字信息，或将直播、视频、现场演讲等音频进行及时髦幕转换等功能，便利后期文字处理和内容存档，省去记录的人力和时光成本，大年夜幅晋升了转换效力，赐与开辟者和用户更好的应用体验。

百度长语音辨认实用于安卓SDK、iOS SDK，均在原有的离在线融合SDK上进级，开辟者可根据不合情况接入百度长语音辨认功能。今朝，开辟者可上岸百度AI开放平台（ai.baidu.com），在“SDK下载”界面中，下载体验百度长语音辨认功能。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。