「名词解释」影像战略发布会

原创

铃铃铃灵 2022-10-24 22:07:48 ©著作权

文章标签 数据 3d 原始数据 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者铃铃铃灵的原创作品，请联系作者获取转载授权，否则将追究法律责任

「名词解释」影像战略发布会_原始数据

一、理念名词

1.1-【人性化的专业影像】

vivo希望把各种复杂的影像技术和经验都放进手机，只需要简单地按下快门，就能创作出属于你的作品。专业创作者可以用它满足极限环境下的创作需求，普通人也可以通过简单操作收获令人动容的影像。这就是vivo所一直追求的“人性化的专业影像”。

1.2-【还原眼之所见，超越眼之所见】

还原，是对客观世界的记录；超越，则是把主观情感投射到影像中，是vivo的影像理念。

二、影像技术矩阵名词

2.0-【vivo影像技术矩阵】

vivo影像技术矩阵具体分为七个部分：光学感知系统、臻彩还原引擎、超清画质引擎、算力加速引擎、环境理解技术、超感人像系统、苍穹夜景系统；目标达到“三个比肩”：比肩专业影像设备，比肩专业摄影团队，比肩专业后期能力。

2.1-【光学感知系统】

光学感知系统包括光学模组和镀膜等技术。比如VCS仿生光谱技术，通过改善Sensor QE光谱，提升信噪比和色彩还原能力，让传感器接收的原始信息不断接近人眼，打造良好的成像基础。

2.2-【臻彩还原引擎】

主要支撑技术为智能AWB和智能白加黑减，能够提升白平衡准确性和大面积“白”“黑”场景的曝光准确性，将vivo的色彩表现和影调观感优化到极致。

2.3-【超清画质引擎】

超清画质引擎的典型技术为光学超分算法，通过对镜头的缺陷建模分析，恢复了约35%的损失信息。光学超分算法是实现超清画质的起点，引擎中还有Denoise、Demosaic、Deblur等模块，进行耦合训练，形成了系统性的AI画质方案——超清画质引擎。可以实现多帧画质重建，达到更好的画质和更广的动态范围。

2.4-【算力加速引擎】

算力加速引擎，是一套软硬结合的加速方案，vivo基于自研芯片和平台SOC设计研发了CV异构加速引擎和vDNN深度学习加速引擎，是分别针对传统CV算法和AI算法的加速引擎，可支撑多芯结合的异构加速，实现多信息协同并高速处理。

2.5-【环境理解】

环境理解会对场景进行识别，比如色温和亮度检测的技术、运动检测的技术，基于环境的进行信息提取，协助3A等模块，作出最佳的拍摄判断。

备注：3A技术即自动对焦(AF)、自动曝光(AE)和自动白平衡(AWB)

2.6-【超感人像系统】

超感人像系统三大核心技术模块：人像理解、人像美化、人像氛围。

第一步，人像理解——像摄影师一样读懂人像信息

vivo“人像理解技术”会像专业修图师一般进行分区检测，对人脸进行语义重点和轮廓细节的提取，建立多达103个特征点的关键人脸坐标，点位精度误差小于2像素。同时，会对画面中的皮肤、手势、肢体关键点进行检测，主体分割IOU达到了96.15%的精确度，为静态人像重塑和动态人像抓拍提供了精细化的处理能力。

第二步，人像美化——微米级人像细节美化

vivo以不同年龄、性别、场景的数以百万计的素材，经过反复的机器学习成长，推出vivo全新升级的微米级焕肤塑颜技术，使皮肤观感更加自然、健康，也更好地保留了五官的立体感。

第三步，人像氛围——营造独特的氛围感

vivo对于人像的思考不止于人，人与景的关系是人像的另一个重要的维度。vivo“人像氛围融合”技术，基于人像语义理解，在影调、色彩、亮度、虚化等层面上进行人与场景的融合处理，实现人与景和谐、自然的效果。

2.7-【苍穹夜景系统】

苍穹夜景系统进行全面AI升级，基于百万夜景照片训练出三个全新模型：超感光模型、全分割语义模型和臻彩影调模型。超感光模型：将感光能力最大提升了100%，ISO最高可支持102400；全分割语义模型和臻彩影调模型联合，实现了自适应的影调和色彩调整能力。

三、影像芯片名词

3.1-【AI-ISP】

在下一代自研芯片的设计中，vivo升级了全新的架构，从传统ISP架构升级到了AI-ISP架构，实现了跨越式的技术革新。传统ISP能以极低延时处理大量的数据流水，但是只能解决已知的、特定的问题。AI擅长处理复杂的、未知的问题，但是延时较大。

AI-ISP结合两者的优势，相当于给传统ISP芯片加一个新的AI大脑，这个AI大脑的神经元分布是网状结构的，更适合海量的发散式信息处理。相比于传统的架构，AI-ISP能够通过硬件直连的方式将AI计算直接融入ISP Pipeline中，完成数据的无缝缓冲和处理，处理能力、处理能效都有大幅提升。

基于AI-ISP这个架构革新，vivo在下一代自研芯片上实现了三大突破: 片上内存单元的突破、AI计算单元的突破、图像处理单元的突破。

3.2-【vivo自研片上内存单元】

作用：提升数据吞吐速率。

行业常用的DDR架构的内存单元，采用片外存储的形式，存在延迟高、功耗高的弊端，限制了数据吞吐速率，限制了视频类数据推理运算的效率。

为了解决这个问题，vivo在内存单元的设计中，坚持使用昂贵的DDR-Less片内近存运算架构，配合硬化在片上的超大SRAM，实现了运算快、延时低的特征，使数据吞吐速率达到了不可思议的1.3万亿比特（bit/s）。

3.3-【vivo自研AI计算单元】

作用：带来超高的能效比。

vivo选择了更适合做复杂计算成像运算的DLA加速器。AI算法是数据驱动的。在运算过程中，需要大量的数据比较、拟合。要想进一步突破能效比，就要解决延迟和功耗两方面的问题。

延迟方面，DLA加速器中内嵌了专用的片上SRAM，并且可以与其他模块共享自研内存单元上的系统缓存，大幅减少了数据访问延迟。

功耗方面，vivo将算法和DLA联合定制设计，实现了软硬协同优化。DLA加速器的峰值能效比达到每瓦16.3万亿次运算（Tops/w），妥妥的天花板水平。

【备注】DLA是Deep Learning Accelerator深度学习加速器的缩写

3.4-【vivo自研图像处理单元】

作用：带来了全新的算法效果。

比如AI-NR降噪算法。结合新的硬件能力，vivo把V1+的NR算法做了AI化的升级，通过AI运算，带来了更好的夜景画面细节，夜景降噪效果提升了20%（vivo实验室）。

再比如HDR影调融合（Tone mapping）算法，配合电影级的3D LUTs色彩风格，可以满足专业用户的一级整体调色、二级局部调色的需求。在城市夜景下，动态范围较之前，理论最大提升4EV。

还有大家熟悉的MEMC插帧算法，也进一步改善了延迟问题，提升了效果。

四、风光/夜景相关技术名词

4.1-【“智能白加黑减”技术】-影调技术

有经验的摄影师，会根据主体与所处环境的关系调整曝光，手动增加或者减少曝光，这就是摄影中的“白加黑减”。在X80上，vivo推出了“智能白加黑减”技术。现在vivo又将AE训练集拓展至原来的5.5倍。将用户痛点场景进行了影调优化，曝光准确性提升了14%，观感上更加通透立体。

备注：白加黑减的原理

白加黑减不是适合所有的场景拍摄，只有在拍摄物体是纯白色或纯黑色的情况下，相机的智能系统会认为物体过曝或欠曝，会自动降低白色的曝光和拉高黑色的曝光，本身白色和黑色的物体就成了灰白和灰黑的状态（也就是18度灰），所以要加曝光补偿和减曝光补偿去还原白色与黑色的纯度。

4.2-【SuperRAW】-画质技术

vivo为专业人士提供更为强大的RAW输出功能，可以输出14bit高位深的多帧算法融合SuperRAW文件，其色彩信息量是单帧RAW的16倍。理论上可最多承载4.39万亿色的色彩信息，实现高达15EV的动态范围。技术首发vivo X70系列。

备注：RAW格式

有高宽容度的特点，这是源于它记录了大量的原始数据，因此用户可以在原始数据所记录的范围内做自由调整，实现照片的美化及校正处理。

4.3-【光学超分算法】-画质技术

手机因为体积限制，导致在光学上做了一些妥协。以潜望摄像头为例，原始图像经过镜头之后会损失50%的信息。为了改善这种现象，vivo研发了“光学超分算法”，通过对镜头的缺陷做建模分析，恢复了约35%的损失信息。

“光学超分算法”只是实现超清画质的起点，vivo耦合了Denoise、Demosaic、Deblur等模块，经过1亿多次的场景训练，将上一代算法深度运算能力提升10倍，构建了全新的超清画质引擎，将画质处理从单点方案，升级为系统性的AI解决方案。

4.4-【VCS仿生光谱技术】-画质技术

VCS仿生光谱技术（vivo Camera-Bionic Spectrum）

光线在进入感光元件时，会先通过color filter，而普通图像传感器的color filter光谱与人眼差异很大，需要经过复杂处理后，才能还原人眼所感知的信息，这个处理过程会导致画质变差。VCS技术，就是通过改进color filter，让传感器接收的原始信息不断接近人眼，从而实现更好的噪声表现和色彩还原，信噪比提升20%, 色彩还原提升15%。

【备注】VCS仿生光谱技术，在光学感知环节。和华为计算光学不同，华为的计算光学更像我们的光学超分算法，是感知后的补偿动作。

4.5-【RGBW技术】-画质技术

RGBW技术是在原有的RGB三原色上增加了W白色子像素，成为四色型像素设计，是sub pixel rendering技术方式。在新的像素排布方式下实现色彩表现的一致性。同时大幅度提升了液晶面板的透光率，在显示相同亮度的画面时，其耗电量更低;而相同功耗的情况下，亮度大幅提高，这使得画面层次更加分明，画面更通透。

【备注】X80上已发布技术，作为补充输入

五、人像相关技术名词

5.1-【人像理解技术】

vivo“人像理解技术”会像(click)专业修图师一样进行分区检测，分析人脸的语义重点和轮廓细节，建立多达103个特征点的关键人脸坐标，平均点位精度误差小于2像素。同时，会对画面中的皮肤、手势、肢体关键点进行检测，主体分割 IOU达到了96.15%的精确度，为静态人像重塑和动态人像抓拍提供了精细化的处理能力。

5.2-【微米级焕肤塑颜技术】

利用类似人工智能训练生成对抗网络技术，不断地通过修图器跟修图评估器的博弈来找到修图最好的方向。训练过程简言之就是，给AI一张图片让算法修图，然后去判断，同样一张图跟修图师精修出来的图片相似程度如何，根据判断结果实现AI算法的不断进化。vivo通过对不同年龄、性别、场景的数以百万计的素材的反复的机器学习，打造了全新升级的“微米级焕肤塑颜技术”，使皮肤观感更加自然、健康，也更好地保留了五官立体感。

5.3-【人像氛围融合技术】

基于人像语义理解，vivo“人像氛围融合”技术在影调、色彩、亮度、虚化等层面上，进行人与场景的融合处理，实现人与景和谐、自然的效果。

5.4-【深度感知虚化】

深度感知虚化，是一项vivo的算法技术。想要还原镜头的成像，一定要通过深度计算获得图片的深度信息，并给予图像合理的虚化效果。vivo的虚化算法结合了双目深度图和人像、手势分割，采用了深度卷积网络，保证焦内主体清晰。焦外物体的虚化程度也是有讲究的，前景到焦平面，焦平面到远景，每个镜头各不相同，但vivo都建立了虚化模型，通过函数计算虚化的程度和光斑大小，最终呈现出景深范围内清晰，景深范围外深度渐进的3D-pop虚化效果。

六、视频相关技术名词

6.1-【HDR影调融合算法】

HDR影调融合技术主要是与视频相关的技术，包括一级整体调色和二级局部调色，同时动态范围也会较之前理论最大提升4EV。

【备注】跟XDR技术、Super HDR有什么不同

XDR技术为显示技术；
Super HDR为拍照技术，目前已经升级到RAWHDR技术。

6.2-【专业LOG模式】

在电影工业中，为了最大限度保证视频的动态范围，常常用LOG方式进行拍摄，以便用户在视频后期中进行精细化的色彩调节，形成一整套的电影创作流程。vivo将LOG模式以及复杂的后期的调色流程进行了前移和简化，基于10bit的LOG文件，在拍摄端提供了多款电影级的3D LUTs色彩风格，通过10bit LOG+3D LUTs的视频解决方案，让普通用户也能通过vivo一键拍出电影感。

备注：Log模式原理

简单地说，相机的图像传感器所记录的曝光信息为线性曝光，但是利用log曲线可以对原始数据的影调进行非线性地调节，使我们能够在有限的数据中保持较多的明暗信息，从而达到更大的动态范围。