android zhibo android 直播实时翻译

关注 mob64ca1417eedd

android zhibo android 直播实时翻译

转载

mob64ca1417eedd 2023-10-18 05:01:16

文章标签 android zhibo 人工智能大数据编程语言 python 文章分类 Android 移动开发

直播线上实时翻译和流式字幕技术，区别于传统的线下翻译+字幕叠加硬件设备，创新性的采用云线上实时翻译+流式字幕叠加，通过API的方式实现直播视音频分离、音频转码、语音识别及转文本、文本翻译、自动审核、字幕返回等功能，并最终将流式字幕叠加到直播源流中，语音识别、转写及翻译准确率预计可达90%以上，并拥有自动校正功能，在保证字幕效果的情况下，极大的节省了使用成本，且系统支持动态扩缩容，便捷高效。

技术实现原理是将直播流进行音频流剥离，利用AI语音能力将直播流中的音频流进行实时识别、转写，同时进行多语言翻译及内容审核，过滤敏感内容，保障内容的安全合规，最终将识别的原语言和翻译语言以实时字幕的方式叠加到直播流中，让用户可以在观看直播画面、声音的同时可以获取文字维度的信息，极大的提升用户的观看体验。

android zhibo android 直播实时翻译_人工智能

技术方案架构图

模块组成：

android zhibo android 直播实时翻译_编程语言_02

业务实现流程：

● 业务层对接视频云PaaS平台，开启功能并配置翻译模板；

● 现场推流到CDN边缘节点；

● CDN转推到视频云PaaS平台；

● 视频云PaaS平台进行直播流调度及转发、音频流剥离并发送给AI语音服务平台；

● 视频云PaaS平台获取转写及翻译音频流接收，并进行音视频流合并；

● 将合成字幕后的视频云流进行转码、源流及含字幕流切片、录制等，支持时移回看、录制文件回放等，然后将含字幕的直播流转推给CDN；

● 终端平台播放器从CDN获取转码流播放。

技术优势：

● 分析语音数据的处理速度，拿到字幕数据的延迟，在输入层对视频数据进行延迟控制，最终可以控制在1s以内，实现直播声音、画面、字幕完美同步的良好体验；

● 字幕模板动态灵活配置，支持自定义位置、字体大小、颜色、背景色等；

● 支持灵活配置开启或关闭字幕：比如中场休息、播放宣传片或者其他广告内容时，可以关闭字幕；

● 区别于传统的线下翻译+字幕叠加硬件设备，创新性的云线上实时翻译+字幕叠加，通过API的方式实现全部流程，且只支持的并发路数可以动态扩缩容，提升使用和运维效率；另外相比传统的线下实现方式，综合降本预计高达95%以上。

实践过程中遇到的难点：

● 听写以及翻译的准确性，需要根据不同的场景进行定制训练；

● 声音、画面、字幕的同步控制。

技术应用场景：

该技术可以广泛的应用于电商、会展、融媒、教育等领域，比如在电商领域，可以帮助企业聚焦直播带货出海业务场景，通过云端实时翻译+多语言字幕的技术手段，降低海外地区用户的观看门槛，提升直播观看量，从而提升商品购买转化率和GMV；在会展行业，可以完美替代同传和线下硬件设备，大大降低会展直播成本。

技术实践：

该技术在2021年相继应用于服贸会、亚欧商品贸易博览会、商洽会等国际性展会项目中

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python 英文纠错单词纠错 python

下一篇：飞机大战编程python图片素材飞机大战简单代码python

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册