开云世界杯官网(中国) 牛津、微软等发布音视频智能综述: 梳理大模子时期AVI磋磨全景

开云世界杯官网(中国) 牛津、微软等发布音视频智能综述: 梳理大模子时期AVI磋磨全景

GPT-4o 一边看屏幕一边和你语音对话;Veo-3、MovieGen、Seedance 2.0 平直把原生音轨纳入视频生成链路;HappyHorse 这类近期模子也运行探索音视频讨好生成;OpenVLA 让机器东谈主” 听音辨物”—— 音视频大模子,正在从” 加在视觉模子傍边的一个 ASR”,进化成 omni-modal 基础模子的中枢智商之一。

NUS 讨好牛津、多伦多、UTD、HKUST、QMUL、微软磋磨院、罗切斯特大学等共 9 家机构最近推出据作家所知第一份系统的音视频智能(AVI)大模子综述,用一张演化树串起十年发展,给出长入 taxonomy、三条干线与六大畴昔磋磨轴,把 AVI 在大模子时期的扮装与待解问题摆到了合并张舆图上。

一、9 机构、首份” 音视频大模子” 综述

连年来,AI 圈最显贵的变化之一,是” 模子不再只看图”。

2024 年 GPT-4o 把语音、视觉、文本塞进合并个 backbone,2025 年 Google Veo-3、Meta MovieGen 把” 原生带音轨的视频生成” 作为长入目的,2026 年字节 Seedance 2.0 和 HappyHorse 等使命进一步把文本、图像、视频、音频要求与同步音视频输出放进合并代视频生成叙事中;Qwen-Omni 把多模态对话推到流式及时层面,OpenVLA、π0、GR00T 这一线 VLA 模子则运行让机器东谈主同期处理语音辅导、视觉、动作甚而环境声响。

但与此同期,系数领域的学术舆图却仍然高度分布。ASR、数字东谈主 / 言语头(talking head)、Foley(拟音)合成、视频配音(V2A)、音频驱动视频生成(A2V)、音画编订、音视频问答(AVQA)、空间音频推理、AV 导航、AV 操作…… 每一个子所在都有我方的范式、benchmark 与评测口径。

恰是在这一配景下,新加坡国立大学(NUS)讨好牛津大学、多伦多大学、UTD、HKUST、QMUL、微软磋磨院、罗切斯特大学等机构,推出了据作家所知第一份挑升针对” 音视频大模子(AVI in Large Foundation Models)“的系统综述。

论文标题:Audio-Visual Intelligence in Large Foundation Models: AComprehensiveSurvey

论文:https://arxiv.org/abs/2605.04045

HF Paper:https://huggingface.co/papers/2605.04045

GitHub(Awesome-AVI,捏续更新):https://github.com/JavisVerse/Awesome-AVI

名堂主页:https://javisverse.github.io/

论文把以前十年里洒落在十几个子社区的 AV 使命,重新组织成显露宇宙(Understanding the World)/ 创造宇宙(Creating the World)/ 与宇宙交互(Interacting with the World)三条干线,给出长入的 taxonomy、基础技能拆解、期骗疆域、以及面向畴昔 1–3 年的六轴磋磨道路。

论文自身的立意,是把 AVI 作为大模子时期下、与单模态语言模子同等紧迫的一支基础智商来梳理:从音视频对王人、到讨好音视频生成、再到及时闭环交互,应该造成一个连贯的磋磨框架,而不是被 ASR、Foley(拟音)、数字东谈主 / 言语头、AVQA 各自的范式无间切碎。

二、十年 AVI” 进化树”:从” 对得上” 到” 听 - 看 - 说 - 动一体”

大开 paper 第一页,先映入眼帘的即是这张 2016–2026 AVI 进化树:

论文把系数 AVI 的发展分红 4 个时期:

Era 1(2016–2018):AV Alignment——L3-Net、AVTS、Wav2Lip、Audio2Head,加上”ASR + LLM + TTS” 的级联式语音对话。问题围聚在” 对得上”。

Era 2(2019–2022):Scaled Representations——XDC、AVID、VATT 这些大限度对比学习循序登场,AudioLDM、MusicGen 等单模态生成运行爆发,SpeechGPT、SALMONN、Qwen-Audio 一齐走出 audio-native LLM。

Era 3(2023–2024):AV Creation——MBT、AV-HuBERT、Diff-Foley、MMAudio、FoleyCrafter、MusicInfuser、AudioGPT、Mini-Omni、NExT-GPT,把” 以一种模态生成另一种模态” 和”AV 截止器” 推到舞台中央。

Era 4(2024–2026):Omni / VLA——ImageBind、Qwen-Omni、JavisDiT、MovieGen、Veo-3、Seedance 2.0、HappyHorse、GPT-4o、OpenVLA、Audio-VLA,原生和会的 AV 大模子、同步音视频生成模子与 VLA 一王人走向前台。

更紧迫的是,论端淑确指出,从 Era 1 到 Era 4,有 6 条瓶颈贯串永恒:音画同步、时序一致性、可控生成、评测体系、及时延长、安全搞定与数据合规。这些问题不会因为模子变大就自动消除,反而会跟着场景升级(短视频 → 长视频 → 及时 omni → agentic)反复出现。

三、长入 Taxonomy:感知 / 生成 / 交互三条干线

论文给出的长入 taxonomy 是中枢拜托物之一,它把 AVI 拆成三条干线:

显露宇宙(Understanding the World,Perception):包括音视频语音识别(AV-ASR)、唇语识别(lip reading)、活跃言语东谈主检测(ASD)、声源定位与分离、音视频事件显露、跨模态检索、音视频问答(AVQA)这些经典任务,加上越来越多基于 AV-LLM 的长视频显露与因果推理任务。

创造宇宙(Creating the World,Generation):被进一步拆成” 要求生成 / 跨模态生成 / 讨好音视频生成 / 音画编订” 四类,清除视频配音(V2A)、音频驱动视频生成(A2V)、joint AV 生成等代表所在。论文极端指出,着实” 原生讨好” 的音视频生成才刚刚运行 ——MovieGen、Veo-3、Seedance 2.0、JavisDiT,以及 HappyHorse 这类近期模子照旧能从文本或多模态要求生成带原生音轨的视频,但跨身份、跨时长、跨场景物理合感性的音画同步生成,以及局部、可控的音画编订,仍是灵通问题。

与宇宙交互(Interacting with the World,Interaction):包含两条线,开云世界杯官网(中国)一条是” 音视频对话”(从级联 ASR + LLM + TTS,到 audio-native LLM,再到 GPT-4o / Qwen-Omni 这类原生 omni-modal 及时音视频对话),另一条是” 具身智能与机器东谈主”(AV 导航、AV 场景显露、AV 操作,对应 SoundSpaces、AVLMaps、OpenVLA、Audio-VLA)。

论文强调:交互不是一次性输出,而是带景况的闭环 —— 感知 → 推理 → 反映 / 行动,要在延长、反馈和用户意图的不停下捏续运行。这亦然为什么 omni-modal 与 VLA 类模子会在 Era 4 同期出现。

四、基础技能:暗示、生成、LLM-centric

淌若说三条干线组织的是” 作念什么”,基础技能这一章组织的即是” 怎么作念”。论文把 AVI 的技能栈拆成三块:

Representation(暗示):音频与视觉特征抽取、VAE / 重建式压缩、冲突化 tokenization、跨模态对王人与和会。在大模子语境下,关节问题已从” 特征对分歧得上” 升级为” 用哪种 token 把音视信号塞进 LLM 才最高效”。

Generation(生成):系统梳理 VAE / GAN / Diffusion / 自回想(AR)/ Masked Autoregressive(MAR) 五类生成范式各自的智商规模与组及格局,极端清除了 diffusion /flow matching 的演化、AR 模子在视觉与音频上的见地、以及 hybrid AR + Diffusion 的最新所在。

LLM-centric 系统范式:论文把现时 AV 大模子按结构归成几种典型范式 ——Encoder + LLM、LLM + Generator、长入感知生成模子(unified Encoder + LLM + Decoder)、以及 Agentic 系统与 VLA 模子。这亦然工业界搭” 音视频版 GPT-4o” 时最平直对应的架构采选。

对正在搭” 音视频版 GPT-4o” 的工程团队来说,这张图大体极端于一份 AV 大模子架构选型的速查表,不错拿来对照我方现时的 backbone /encoder/decoder 分裂。

开云体育2026世界杯中国官网

五、期骗疆域:从短视频 AIGC 到具身机器东谈主

论文用一整章梳理了 AVI 的卑鄙期骗疆域:

围绕音视频基础模子张开,作家把期骗归纳为 6 大所在:

1.AIGC 与创意本色:视频配音 / Foley(拟音)合成、跨语言唇形同步、配乐与音画编订,再到一次性出” 带原生音轨短场景” 的 JavisDiT、Veo-3、Seedance 2.0、HappyHorse 等讨好音视频生成模子;

2. 数字东谈主与外交交互:从 Wav2Lip 的 2D 唇形同步、到 GaussianTalker 的 3D 神经渲染、再到 EmoGene、EMAGE、Stereo-Talker 的高保真全身数字东谈主;

3. 东谈主本做事:以 Qwen-Audio、SALMONN 等 audio LLM 为中枢的对话助手 / 会议转写 / AI 教悔 / 无扼制辅助;

4. 千里浸式体验与 Metaverse:空间音频推理、AV-NeRF、AVLMaps,以及20 ms 级别的低延长硬不停;

5. 具身 AI 与机器东谈主:从 SoundSpaces 一脉的 AV 导航,到 OpenVLA / π0 / GR00T / SmolVLA 的长入 VLA 政策;

6. 泛在感知与安全搞定:聪惠城市、工业 IoT、深伪检测、声学特别检测、水印与数据合规、秘密与角落部署。

六、畴昔六大磋磨轴:杰出” 更长清单”,给出结构性智商

AVI 发展道路图:前三阶段建造起” 对应 / 感知 / 生成” 的智商基础,当下处于交互式 omni-modal 与具身模子这一前沿,再往后是因果 - 高下文 AVI 与可考证的 agentic AVI—— 下文六大主轴正对应道路图右侧两段需要补王人的关节智商。

论文终末给出六条畴昔磋磨主轴,清除音画同步、因果事件 grounding、空间音频推理、长程高下文缅思、可控生成、安全搞定、水印与数据合规等关节问题,并强调这六轴不是更长的待办清单,而是把 AVI 与” 通用多模态学习” 区分开的结构性智商:

1. 因果事件 - 声源 grounding:建模延长、遮盖、画外音、多源搀杂下的源级 / 事件级 / 因果对王人,把音画同步推向因果可见地层面;

2.AV 宇宙模子:把音视频作为几何、材质、能源学、可供性、用户 / 外交景况的互补字据,并以空间音频推理作为关节智商;

3. 长程 AV 高下文缅思:构建流式 / 情景 / 语义多层、可采选、可溯源的 AV 缅思,而不是肤浅加长高下文窗口;

4. 因果 AV 干涉与可控生成:让生成与编订扶持对物体、声息、身份、情愫、空间、时辰的局部、因果、同步干涉;

5.Verifier 与 Reward 生态:杰出 FAD / FVD / CLIP / SyncNet 这些代理方针,发展面向 grounding、物理合感性、音频不可替代性、长程一致性、任务遵循的考证器;

6. 交互式与负遭殃 AVI:在低延长、秘密、版权、水印与数据合规等安全搞定不停下,把 AV 模子变成可被信任的及时配合者。

这六条主轴,每一条都险些对应着某条工业界正在追的产物线:

因果事件 - 声源 grounding ↔ 视频显露 / 视频搜索;

AV 宇宙模子 ↔ 宇宙模子 / Sora 系列;

AV 高下文缅思 ↔ 长会议、长直播、长游戏奉陪的 omni assistant;

因果 AV 干涉 ↔ AI 视频后期 / 影视殊效;

VerifierReward 生态 ↔ AI 视频质料评估、自动编订;

交互式与负遭殃 AVI ↔ omni 助手 / 及时陪练 / 具身机器东谈主。

七、对行业意味着什么

终末作念一个或者的产业向解读:

1. 论文给出了” 音视频大模子” 研发的长入坐标系。 岂论你是在作念视频生成、数字东谈主 / 言语头、omni 助手,如故 AV 智能体或具身机器东谈主,都能在这张全景图里找到我方的位置,进而判断连结技能栈在那里、可模仿的循序是什么。

2. 它明确指出了 omni-modal 模子的下一波竞争点不在” 能不可听 / 能不可看”,而在” 能不可在长入 backbone 或长入生成链路下作念长程 AV 高下文推理 + 原生音画同步生成 + 及时闭环交互”。 GPT-4o、Veo-3、Seedance 2.0、Qwen-Omni、OpenVLA,以及 HappyHorse 这类近期讨好音视频生成尝试,都在从不同侧面鼓舞这一趋势。

3. 评测体系正在重塑。 论文对 FAD / FVD / CLIP / SyncNet 这类代理方针在音画同步与音频不可替代性维度上的局限作念了系统参议,并明确把 verifierreward 生态列为畴昔主轴之一。不错预期畴昔一年,AV 评测会从” 主不雅打分 + 代理方针”,走向” 任务遵循 + 物理合感性 + 安全可溯源” 的多维评测体系。

4. 安全搞定照旧从字斟句酌走向基础循序层面。 深伪、版权、秘密、水印与数据合规、及时浪费,将成为部署侧不可绕过的硬不停。

对任安在作念 AV 大模子、omni-modal 模子、视频生成、数字东谈主 / 言语头、AV 智能体、具身机器东谈主、空间音频或深伪检测的团队,这篇综述长文都值得圆善通读一次。

配套的 Awesome-AVI 仓库会捏续更新循序、数据集与 benchmark开云世界杯官网(中国),磋磨者不错围绕它追踪最新见地。