不支持流式识别,不限系统,不限编程语言;
功能要求:
- Rest Api给用户提供的是一个HTTP接口,上传(输入)整个音频文件,返回(输出)识别结果;识别时长与音频时长成正比;
- 识别模型:支持搜索模型,输入法模型,远场模型三种; 普通话搜索模型可以识别常用的英语。
- 语音格式: 支持pcm(不压缩) 采样率:固定值16000 编码 16bit, 单声道 ,小端序。
wav(不压缩 pcm编码),(就是pcm格式的加了个头文件)
amr(压缩),16k 单声道
- 支持自定义词库: 自定义识别词分词的优先级较高,RestApi的自定义词库仅对dev_pid=1536才能使用。 自定义词库的text文件不能超过5M,最好在一万行以内
- RestApi的语音识别的请求方式有两种:Json和Raw两种方式提交。
DEMO的调用流程:
两次HTTP请求,第一次换取Token值; 第二次上传音频文件,获取识别结果;
1.获取Token值
请求的URL应该为:
2.上传音频文件
设置输入参数:
format | string | 必填 | 语音文件的格式,pcm 或者 wav 或者 amr。不区分大小写。推荐pcm文件 |
rate | string | 必填 | 采样率,16000,固定值 |
channel | string | 必填 | 声道数,仅支持单声道,请填写固定值 1 |
cuid | int | 必填 | 用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。 |
token | string | 必填 | 开放平台获取到的开发者[access_token]获取 Access Token "access_token") |
dev_pid | int | 选填 | 不填写lan参数生效,都不填写,默认1537(普通话 输入法模型),dev_pid参数见本节开头的表格 |
lan | string | 选填,废弃参数 | 历史兼容参数,请使用dev_pid。如果dev_pid填写,该参数会被覆盖。语种选择,输入法模型,默认中文(zh)。 中文=zh、粤语=ct、英文=en,不区分大小写。 |
speech | string | 选填 | 本地语音文件的的二进制语音数据 ,需要进行base64 编码。与len参数连一起使用。 |
len | int | 选填 | 本地语音文件的的字节数,单位字节 |