实用学习图像压缩的关键因素

Apple Machine Learning Research·3 个月前·约 3 分钟阅读

实际学习图像压缩中的重要性作者Kedar Tatwawadi、Parisa Rahimzadeh、Zhanghao Sun、Zhiqi Chen、Ziyun Yang、Sanjay Nair、Divija Hasteer、

Oren Rippel内容类型论文发表于2026年5月实际学习图像压缩中的重要性作者Kedar Tatwawadi、

Parisa Rahimzadeh、Zhanghao Sun、Zhiqi Chen、Ziyun Yang、Sanjay Nair、Divija Hasteer、Oren Rippel学习编解码器相对于硬编码的传统编解码器的主要区别之一是它们能够直接优化以吸引人类视觉系统。

尽管有这种潜力，但尚未提出一种感知但实用的图像编解码器。在这项工作中，我们的目标是缩小这一差距。我们对管理实用学习图像编解码器设计的关键建模选择进行了全面研究，并针对感知质量和运行时间进行了联合优化-包括在烧蚀中的几种新颖技术。

然后，我们对数百万个主干配置执行性能感知神经架构搜索，以识别能够实现目标设备上运行时间，同时最大化感知指标捕获的压缩性能的模型。我们结合各种优化来构建一个新的编解码器，可以显着改善速度和感知质量之间的权衡。

基于严格的主观用户研究，它提供了2.

与AV 1、AV 2、VVC、EC和JPEG-AI相比，可节省3- 3倍的比特率，与最佳的编解码器替代方案相比，可节省20-40%的比特率。

与此同时，在iPhone 17 Pro Max上，它对12 MP图像进行最快230 ms的编码，并在150 ms的时间内进行解码--比大多数在V100图形处理器上运行的顶级基于ML的编解码器还要快。

从言语中生成自然主义头部动作2023年4月24日研究领域人机交互、研究领域语音与自然语言处理会议ICASP合成自然头部运动来伴随具体对话代理的语音对于提供丰富的交互体验是必要的。

大多数先前的作品通过使用客观指标将生成的头部运动与单个地面事实进行比较来评估生成的头部运动的质量。然而，言语话语伴随着许多看似合理的头部运动序列。

在这项工作中，我们研究了头部运动感知质量的变化..使用多视图的神经面部视频压缩2022年6月6日研究领域CVPR的计算机视觉研讨会深度生成模型的最新进展导致了神经面部视频压缩编解码器的开发，其使用的带宽比工程编解码器少一个数量级。

这些神经编解码器通过扭曲源帧并使用生成模型来补偿扭曲源帧中的缺陷来重建当前帧。因此，使用少量关键点而不是密集的流场来编码和传输扭曲，..

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读