atitit 音频项目系列功能表音乐 v3 t67.docx Atitit 音频项目系列功能表 1.音频音乐语言领域的功能表听歌识曲功能酷我功能。铃声功能。。音频切割（按

事实上，早在十年前便产品化的音频识别技术并非新鲜事，全球音乐信息检索竞赛 MIREX（Music Information Retrieval Evaluation eXchange）也是每年举办一次，历年参与比赛的公司也包括酷狗、腾讯、搜狗、网易等，而 ACRCloud 多次拿下过哼唱识别、音频指纹识别的第一名，同时也保持着该比赛历年最好成绩的记录。

MIREX比赛结果图表

联合创始人李蕴博告诉36氪，ACRCloud 的核心团队来自于 Shazam、当当网、中科院、华为、电影网等公司及科研院校，除了算法方面有多年储备以外，在音乐、视频行业也有多年工作经验，所以比较了解客户的痛点和需求。

例如，网易云音乐、唱吧、小米通过使用 ACRCloud 的服务实现哼唱识别歌曲；Deezer, Anghami, KKBOX 等众多海外音乐服务商使用 ACRCloud 的听歌识曲功能；电视台会基于音频识别完成广告和音乐版权内容的监测、收视调研、电视节目和广告互动等工作。

值得一提的是，近期针对国内外音乐社交、音乐游戏等客户的关于用户演唱水平自动评价的集中需求（如音遇的AI识别等功能），ACRCloud 技术团队经研发，已完成支持基于乐句哼唱 AI 识别、客观评价打分的新引擎（点击内链可查看 DEMO 测试效果及合作方式），并可根据客户产品需要，为其定制其专有曲库，帮助产品快速上线并降低曲库运营成本。

ACRCloud 的服务是面向全球用户的，公司也为此在中国、亚洲地区、欧洲地区、美国地区分别建设了一个服务器节点。截至目前，ACRCloud 开放注册用户量达 3 万，付费用户超过 2000 例，覆盖了超过 180 个国家。

ACRCloud 定位于企业服务公司，所以公司主要以 SaaS 形式为各行业用户提供音频识别服务，而用户会利用这种技术设计制作不同产品，而 ACRCloud 会收取相关服务费。李蕴博表示，“随着音遇的走红，可能会给音频识别行业带来新的增长点，所以明年的营收增长率有希望更高。”

ACRCloud 创立初期的启动资金 100 万，团队拥有 10 多名员工。公司创立第一年便实现收支平衡，收入年增速约为 100%，现阶段暂无融资计划。

——————————

常用类库
1. ACRCloud ffmpeg
常见项目要求的可能功能
1. 人声过滤 卡拉ok功能
2. 人声提取背景去噪

1. 音频类功能缩写术语 NS,VAD,AGC,AEC ANS

AGC是自动增益补偿功能（Automatic Gain Control），AGC可以自动调麦克风的收音量，使与会者收到一定的音量水平，不会因发言者与麦克风的距离改变时，声音有忽大忽小声的缺点。

ANS是背景噪音抑制功能（Automatic Noise Suppression），ANS可探测出背景固定频率的杂音并消除背景噪音，例如：风扇、空调声自动滤除。呈现出与会者清晰的声音。

AEC是回声消除器（Acoustic Echo Canceller）,AEC是对扬声器信号与由它产生的多路径回声的相关性为基础，建立远端信号的语音模型，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声。然后，将回声估计值从话筒的输入信号中减去，从而达到消除回声的目的，AEC还将话筒的输入与扬声器过去的值相比较，从而消除延长延迟的多次反射的声学回声。根椐存储器存放的过去的扬声器的输出值的多少，AEC可以消除各种延迟的回声。

WebRTC中的音视频引擎、音频处理算法、音视频编解码算法的研究与实现

有扎实的网络技术基础，对socket通信、UDP/TCP/IP和HTTP有深刻的理解

5、熟悉WebRTC、FFmpeg、licode、kurento、janus、mediasoup等音视频工具

6、熟悉H264、H265、Opus、VP8等编解码，熟悉rtp、rtmp、rtsp、sip等传输协议

7、有语音的相关算法优化经验者优先，如NS，VAD，AGC，AEC等