音视频技术开发周刊 | 308

原创

LiveVideoStack 2023-09-03 21:49:44 ©著作权

©著作权归作者所有：来自51CTO博客作者LiveVideoStack的原创作品，请联系作者获取转载授权，否则将追究法律责任

每周一期，纵览音视频技术领域的干货。

音视频技术开发周刊 | 308_音视频

OpenAI首席科学家最新访谈：对模型创业两点建议、安全与对齐、Transformer够好吗？

OpenAI首席科学家Ilya Sutskever最近和他的朋友Sven Strohband进行了一次简短的对话。访谈中主要提及了以下几个问题：对深度学习的信仰、对AGI的畅想，Transformer够不够好，让人震惊的涌现能力，安全和对齐，以及对模型创业者的两点建议。

OpenAI突发更新！GPT-3.5正式开放「微调」，人人可打造专属ChatGPT｜附最全官方指南

OpenAI正式开放GPT-3.5微调API，GPT-4版本也即将推出。这意味着，继插件「APP Store」大爆发后，所有人皆可以打造个性化的专属「类ChatGPT应用」。

AI机器识别突破登Nature封面，加速第四次工业革命，论文一作为浙大校友

HADAR技术攻克了机器夜间识别的难题，加速第四次工业革命！一夜之间，机器夜间识别的难题就被攻克了！一篇AI与热物理学结合帮助机器在夜间成像的文章登上了Nature的封面。

「知识型图像问答」微调也没用？谷歌发布搜索系统AVIS：少样本超越有监督PALI，准确率提升三倍

知识无法完全编入模型参数，学会搜索也是AI的必备技能！在大型语言模型（LLM）的加持下，与视觉结合的多模态任务，如图像描述、视觉问答（VQA）和开放词汇目标识别（open-vocabulary object detection）等都取得了重大进展。

AI2发布全新的大语言模型预训练数据集：包含3万亿tokens的大规模文本数据集AI2 Dolma，开源免费商用数据集~

Allen Institute for AI简称AI2，是2014年成立的一个非营利性研究组织，其创办者是之前的微软联合创始人Paul G. Allen。目前该组织主导了几个非常大的项目，希望借助AI来推动科学、医学等领域的进步。

音视频技术开发周刊 | 308_数据集_02

用ChatGPT方式开发游戏：文本直接生成小游戏，StoryGames.AI来了！

知名无代码游戏开发平台buildbox正式发布，集成生成式AI的游戏开发平台StoryGames.AI。用户只需文本提示，5分钟左右就能生成一个10章节的视频小游戏。

AIGC已改变新闻业

AI技术的产生，为内容创作开拓了新的可能性，VR新闻、虚拟主播等新形态的内容形式接连产生，为内容表达提供了更为广阔的空间。

15B模型单项能力锤得过GPT3.5，开源SQLCoder已上岗

你知道的有关于代码编辑的大模型工具有哪些呢？推特用户制作了下面这张图，为大家梳理代码大家庭的大部分成员。就在他发布了这张图后的两周内，又有三位新成员加入了这个大家庭，它们分别是 DeciCoder、OctoCoder 以及最新的成员 SQLCoder。

人工智能困境：如何安全、合乎道德地实施生成式人工智能工具

人工智能正以各种方式使用，从聊天机器人和虚拟助手到自动驾驶汽车，97%的企业主认为ChatGPT将有助于他们的业务。但对于任何新技术，人们都会担心安全和道德——人工智能也不例外。

https://www.cncf.io/blog/2023/08/21/an-ai-dilemma-how-to-implement-generative-ai-tools-safely-and-ethically/

音视频技术开发周刊 | 308_音视频_03

两大科技巨头加持，它要做AR市场中的“英特尔”

Lumus 在 AR 眼镜光学行业深耕 23 年，现已准备好实现突破。到 2025 年，两大科技巨头将在其眼镜中采用 Lumus 的光学技术，以实现轻薄形态的一体式 AR 眼镜。

Meta AR/VR专利提出通过液晶偏振全息LCPH实现眼动追踪

对于眼动追踪，与将光源定位在用户视场的外围相比，视场内照明可以提供更高的追踪精度。例如，当光源位于用户的视场范围内时，捕获到眼睛所有注视角度的角膜闪烁的可能性更高。另外，在用户的视场内定位光源可以在光源的放置和分布方面提供更大的灵活性，从而使摄像头捕获的光量最大化，并降低光源输出光的强度和光源的功耗。

Quest开发者分享：通过MR功能提高用户下载率和留存率

Meta日前发布了《MR Developer Success Spotlight》，并介绍了《Cubism》和《TRIPP》通过整合Presence Platform的混合现实功能来提高用户下载率和留存率的成功案例。

音视频技术开发周刊 | 308_ide_04

环视相机自标定（基于hough的车道线检测篇）

AVM环视系统自标定算法分为两个部分：1. 车道线检测 2. 相机外参自标定。其中相机外参自标定涉及到的原理和公式推导在Around View Camera Self Calibration一篇中已经详细介绍。这篇帖的主要内容是基于hough变换的传统车道线检测方法，包含基础的图像处理算法原理，以及调参的trick和策略。

超越传统驾驶模拟：地图先验引领MapNeRF技术

模拟摄像头传感器是自动驾驶中的一项关键任务。尽管神经辐射场在驾驶模拟中合成真实感视图方面表现出色，但它们仍然无法生成外推视图。本文提出将地图先验纳入神经辐射场中，以合成具有语义道路一致性的轨迹外驾驶视图。关键的想法是可以利用地图信息作为先验来指导具有不确定性的辐射场的训练。

动态SLAM方向全方面梳理

动态SLAM是在动态环境中进行定位和建图的算法。传统的SLAM通常基于静态刚体场景假设，即环境中的所有物体都是固定不动的。然而在实际应用中这种假设并不成立。例如，环境中车辆和行人可能会移动。

音视频技术开发周刊 | 308_ide_05

音视频学习--DTMF代码走读

本文以WebRTC中代码进行代码层面的解读，以便能够更好地理解DTMF。

最佳直播视频CDN

本文中，探索市场上最好和最流行的CDN，并深入研究支持CDN的视频流平台，以及为什么这些可能是最简单、最灵活和最具成本效益的选项。

https://www.wowza.com/blog/best-cdns-live-streaming

浅谈混响及一些去混响方法

在封闭的空间中，当声源产生的声音经过反射物（墙壁、地面和室内装饰物等）多次反射叠加后会形成混响，如图1所示。在均匀介质声场中，声源到传声器的直达声传播时间最短，人们将在直达声之后 50-100 ms内被传声器接收到的反射声定义为早期混响，在直达声50-100 ms之后被传声器接收到的反射声定义为晚期混响。

音视频技术开发周刊 | 308_ide_06

腾讯云V265/TXAV1直播场景下的编码优化和应用

随着视频直播不断向着超高清、低延时、高码率的方向发展， Apple Vision的出现又进一步拓展了对3D, 8K 120FPS的视频编码需求，视频的编码优化也变得越来越具有挑战性。LiveVideoStackCon 2023上海站邀请到腾讯云的姜骜杰老师分享腾讯云V265/TXAV1直播场景下的编码优化和应用，带领我们探索音视频技术的无限可能性。

华为云渲染实践

云计算与网络基础设施发展为云端渲染提供了更好的发展机会，华为云随之长期在自研图形渲染引擎、工业领域渲染和AI加速渲染三大方向进行云渲染方面的探索与研究。本次LiveVideoStackCon 2023上海站邀请了来自华为云的陈普，为大家分享云渲染在垂直场景的一些应用。

基于人眼感知质量的端云结合画质及带宽优化实践

随着小红书视频业务和短视频播放的规模化增长，如何有效地提升用户体验质量同时降低视频带宽成本成为一个重要的技术优化目标。LiveVideoStackCon 2023 上海站邀请到小红书的剑寒为大家分享小红书音视频架构算法团队开发的基于人眼感知质量的端云结合超分框架和画质及带宽优化相关实践。

WebRTC对OBS的鞭策

OBS版本30通过WHIP正式支持WebRTC。WebRTC HTTP摄取协议(WHIP)是一种针对实时流媒体应用而设计的新协议。WebRTC不包括标准的信号机制，因此不能像使用RTMP一样将随机客户端连接到给定的服务。截至上周，OBS 30 Beta已经可用。多年来，通过分支使用WebRTC和OBS已经成为可能，但现在终于正式发布了。

https://webrtchacks.com/webrtc-cracks-the-whip-on-obs/

音视频技术开发周刊 | 308_音视频_07

如果大模型不可靠，那钉钉的解药是什么

最近两周，钉钉异常活跃，看点频频。从成为阿里集团独立业务的消息开始，到发布个人版，8 月 22 日钉钉又宣布推出 AI PaaS 及其最新的 AI 应用——数字员工。

晚点独家丨小红书电商全面加速：成立一级部门后，明确投入方向

《晚点 LatePost》独家获悉，小红书整合了电商业务与直播业务，组建了全新的交易部，成为与社区部、商业部平行的一级部门。此前，电商业务是归属于社区部之下的二级部门。

1000亿GMV下，在抖音做团购的商家

据《晚点 LatePost》报道，抖音生活服务上半年的支付交易总额超过了1000亿元。而在去年，抖音生活服务的全年交易额接近900亿元，来势汹汹的抖音，用半年时间就超过了去年一年的成绩。

音视频技术开发周刊 | 308_数据集_08

沉浸新视界·「听」你所想，「见」所欲见

LiveVideoStackCon 2023 深圳站已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展，多媒体生态正在向精致优化发展，更注重细节、成本，内卷和出海成为压力输出口。一方面，在现有市场及业务竞争仍旧相当激烈的环境下，企业开始更多关注于如何降低成本、追求更高的利润，以及面向用户提供更优质的服务与体验；另一方面，对于不断涌现的更多新的技术、场景，逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。本次深圳站，我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂，与你共同分享他们的专业见解。

音视频技术开发周刊 | 308_音视频_09