不支持流式识别,不限系统,不限编程语言;

功能要求:

  1. Rest Api给用户提供的是一个HTTP接口,上传(输入)整个音频文件,返回(输出)识别结果;识别时长与音频时长成正比;
  2. 识别模型:支持搜索模型,输入法模型,远场模型三种;  普通话搜索模型可以识别常用的英语。
  3. 语音格式: 支持pcm(不压缩) 采样率:固定值16000   编码  16bit,  单声道 ,小端序。

                                         wav(不压缩 pcm编码),(就是pcm格式的加了个头文件)

                                         amr(压缩),16k  单声道

  1.  支持自定义词库: 自定义识别词分词的优先级较高,RestApi的自定义词库仅对dev_pid=1536才能使用。 自定义词库的text文件不能超过5M,最好在一万行以内
  2. RestApi的语音识别的请求方式有两种:Json和Raw两种方式提交。

DEMO的调用流程:

两次HTTP请求,第一次换取Token值;  第二次上传音频文件,获取识别结果;

1.获取Token值

请求的URL应该为:


2.上传音频文件

    设置输入参数:

format

string

必填

语音文件的格式,pcm 或者 wav 或者 amr。不区分大小写。推荐pcm文件

rate

string

必填

采样率,16000,固定值

channel

string

必填

声道数,仅支持单声道,请填写固定值 1

cuid

int

必填

用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。

token

string

必填

开放平台获取到的开发者[access_token]获取 Access Token "access_token")

dev_pid

int

选填

不填写lan参数生效,都不填写,默认1537(普通话 输入法模型),dev_pid参数见本节开头的表格

lan

string

选填,废弃参数

历史兼容参数,请使用dev_pid。如果dev_pid填写,该参数会被覆盖。语种选择,输入法模型,默认中文(zh)。 中文=zh、粤语=ct、英文=en,不区分大小写。

speech

string

选填

本地语音文件的的二进制语音数据 ,需要进行base64 编码。与len参数连一起使用。

len

int

选填

本地语音文件的的字节数,单位字节