AI资讯
通义大模型发布OmniAudio 可从 360° 视频生成空间音频
近日,通义实验室语音团队在空间音频生成领域取得里程碑式成果,推出OmniAudio技术,该技术可直接从360°视频生成FOA(First-order Ambisonics)音频,为虚拟现实和沉浸式娱乐带来全新可能。
空间音频作为一种模拟真实听觉环境的技术,能提升沉浸式体验,但现有技术大多基于固定视角视频,对360°全景视频空间信息利用不足。传统视频到音频生成技术主要生成非空间音频,无法满足沉浸式体验对3D声音定位需求,且多基于有限视角视频,错过全景视频丰富视觉上下文。随着360°摄像头普及和虚拟现实技术发展,利用全景视频生成匹配空间音频成为亟待解决的问题。