2024 年,当 Suno v4 引爆 AI 音乐圈时,整个行业经历了一个集体性时刻。网上突然涌现出大量听起来第一次真正具有音乐性的 AI 生成曲目。Tempo 不再飘忽,和弦进行有了正确的解决感,鼓的节奏终于有 groove 了。这种状态持续了大约十八个月。期间每次更新都只是在同一套架构上做微调,在同样的超参数上做优化,称之为"进步"。质量天花板始终没有被真正打破。
直到 Lyria 3。
Lyria 3 与其前身之间的差距不是递进式的,而是架构层面的。要理解这种差距从何而来,需要我们搞清楚一个核心问题:是什么让 AI 生成的音乐听起来像"制作完成的作品"而不是"AI 生成的东西"?
质量 plateau:AI 音乐为何停滞不前
2024 年的 AI 音乐热潮制造了一个悖论。平台每天生成数百万条曲目,但几乎没有一条听起来像真正的唱片。它们听起来像是才华横溢的乐手们从未见过面,却在排练室里录制的 Demo。每个单独的元素都够用,但整体感消失了。
这种停滞有技术层面的解释。大多数 AI 音乐系统在音频 token 域中运作,将音乐转换为离散 token 序列,让 transformer 模型学习预测下一个 token。问题在于时间分辨率。当你把音乐压缩成 token 序列时,必须做出取舍:更长的序列意味着更好的音频质量,但也需要更多的计算资源;更短的序列效率高,但会丢失让音乐具有整体感的高频细节。大多数生产系统都选择了一个针对基准指标优化而非针对听众体验的平衡点。
Prompt 遵循能力是第二个瓶颈。大多数 AI 音乐系统,当被要求生成"一首低保真嘻哈,萨克斯降调处理,配上复古 boom-bap 节拍"时,会匹配 prompt 中的个别词汇,但完全丢失整体氛围。萨克斯会干净清脆。节拍技术正确但不复古。整体结果是技术合格却情感空洞。
这背后是一个更深层的问题:AI 音乐系统在训练数据中学习的是统计相关性,而非因果关系。它学会了"低保真嘻哈"这个标签通常伴随着哪些音色、哪些节奏型、哪些和声进行,但它没有学会为什么这些元素组合在一起会产生"复古"或"尘土感"。当这些统计相关性在生成时被重新组合时,结果往往是正确元素的错误组合。
Lyria 的架构演进:从 2023 到 2026
理解 Lyria 3 的突破需要回溯它的演进路径。Lyria 不是一夜之间出现的,它经历了四代重要的迭代。
Lyria 1(2023 年 11 月) 是 DeepMind 进入 AI 音乐生成领域的首次尝试。它确立了几个核心设计决策:使用潜空间扩散而非离散 token,48kHz 立体声输出,以及基于文本条件生成的基础架构。同期进行的还有 YouTube Dream Track 实验,允许创作者使用艺人名字作为风格参考。DeepMind 从一开始就明确将艺人名字的用途限定为"广泛灵感",而非声音克隆。这个立场在当时的 AI 音乐生态中是少数,但现在看来是具有预见性的。
Lyria 2(2025 年 4 月) 带来了若干关键升级。48kHz 立体声输出成为标准,这是音质的重要保障,因为 CD 音质的基准就是 44.1kHz/16bit,而 48kHz 在此基础上提供了更充足的高频余量。BPM 和调性控制被加入,这意味着用户可以指定具体的速度(每分钟节拍数)和调(Major/Minor 以及具体调号)。Lyria RealTime 也在这个版本中引入,虽然当时的实现还不够成熟,但奠定了后续突破的基础。2025 年 5 月的 Google I/O 大会上,Lyria RealTime API 做了一次公开演示,演示者是 Toro y Moi,这个合作项目展示了实时音乐生成与现场表演结合的可能性。
Lyria 3(2026 年 2 月) 是一次架构级的升级。自动歌词生成、多语言人声、图像转音乐功能都在这个版本中引入。图像转音乐是一个值得注意的功能,它意味着用户可以提供一张图片,Lyria 3 会生成与图片氛围和情绪匹配的音乐。这个功能的技术实现并不简单,因为它需要模型在视觉域和音频域之间建立语义映射,而这两个域的表达方式完全不同。
Lyria 3 Pro(2026 年 3 月) 是面向生产环境的版本。三分钟最长时长(比 Lyria 3 的标准版更长)、显式歌曲结构 prompt、API 开放(通过 Vertex AI 和 AI Studio)、ProducerAI 专业工具,都是在这个版本中落地的。这是 DeepMind 正式将 Lyria 定位为商业化基础设施的标志。
潜空间扩散:架构差异的技术本质
DeepMind 选择潜空间扩散而非离散 token 路径,是 Lyria 与 Suno、Udio 最核心的架构差异。
在离散 token 系统中,音频被编码为一个由离散符号组成的序列。每个符号代表音频波形在某个时间窗口内的某种量化表示。Transformer 模型学习预测下一个符号,就像语言模型预测下一个词。这种方法的优势在于可以用成熟的 NLP 架构,推理效率高。但代价是量化过程会引入误差,而且离散符号的数量受限于码本大小,这直接限制了模型能表达的音色种类。
潜空间扩散走的是不同的路。音频首先通过编码器被压缩为一个连续向量空间中的表示,这个空间比原始音频波形空间小得多,但保留了音频的关键信息。生成过程不再是预测下一个符号,而是在这个潜空间中逐步从噪声中恢复出正确的表示。条件信息(文本 prompt、音频参考)通过交叉注意力或梯度方式注入,引导生成过程向目标方向收敛。
这个架构的关键优势在于条件机制的表达能力。在离散 token 模型中,文本条件通常通过交叉注意力层注入,这种机制在处理复杂、多层次的 prompt 时会显得表达能力不足,因为所有条件信息必须压缩到固定的维度中参与注意力计算。潜空间扩散中的梯度条件机制可以更细粒度地控制生成过程的不同方面:结构、和声、节奏、音色、动态,每个维度都可以有独立的条件信号,且它们之间的交互是通过连续空间中的数学运算自然完成的,而非通过离散的注意力掩码硬编码。
Lyria 3 引入的风格嵌入加权混合是这个优势的集中体现。文本 prompt 和音频参考 prompt 被分别编码为风格嵌入,然后通过学习到的权重矩阵混合。权重矩阵的参数是在训练过程中学习到的,这意味着模型自动学会了如何在不同场景下平衡文本描述和音频参考的贡献。用户可以在推理时控制这个平衡,这提供了对生成结果的细粒度控制能力。
Lyria RealTime:低延迟的工程挑战
实时生成是 AI 音乐领域长期未解决的问题。音乐生成本质上是自回归的:每一刻都依赖于之前的内容,一个音符的时值和力度会影响下一个音符的处理方式。但标准自回归解码逐个处理 token,这引入了与序列长度成正比的延迟。
想象你要求 AI 生成一段即兴爵士乐。你希望听到的是你给出和弦进行后,AI 立刻演奏出相应的回应。如果等待时间超过两秒,这种"实时感"就消失了,你会感觉 AI 是在录制后回放,而不是在与你互动。
NeurIPS 2025 Creative AI Track 发表的论文描述了 DeepMind 的解决方案。这篇论文有 35 位作者,包括 Antoine Caillon、Brian McWilliams、Jesse Engel、Noah Constant、Yunpeng Li、Timo I. Denk、Äaron van den Oord、Douglas Eck、Adam Roberts 等。方案的核心是块级自回归与因果流式处理的结合。
块级自回归的思路是:不逐个生成 token,而是以两秒的音频块为基本生成单元。两秒的音频在 48kHz 采样率下是 96000 个采样点,但通过潜空间压缩,需要处理的潜变量数量大大减少。每个块独立进行去噪处理,但因果掩码确保来自前一块的上下文信息能够向前传播。这意味着生成本身是并行的,但输出是连续的。
16 层 RVQ(残差矢量量化)码本结构是这个系统的另一个关键组件。RVQ 是一种将连续向量压缩为离散码本表示的技术,16 层意味着每个潜变量被量化为 16 个层级,这在保持高质量重建的同时实现了高效的并行处理。
端到端延迟约两秒,从 prompt 提交到第一个音频块开始回放。这个数字是工程上的权衡结果:更短的延迟可以通过减小块大小实现,但会损失并行效率;更长的延迟可以积累更多上下文,但实时感会下降。两秒被认为在大多数现场音乐应用场景中是可以接受的阈值。
Magenta RealTime 是这个研究方向的开源对应版本。它的架构与 Lyria RealTime 类似,但参数数量减少了 38%(相对于 MusicGen 3.3B)。这个参数削减不是简单的模型剪枝,而是通过更高效的架构设计实现的。对于需要在设备端运行、无 API 依赖的开发者,Magenta RealTime 提供了实质性的替代方案。
Lyria 3 vs Lyria 2:质量差距的实际体现
比较 Lyria 2 和 Lyria 3 需要我们明确"质量"在这个语境下的含义,因为改进在各个维度上并不均匀。
音频保真度在 4kHz 以上的改善最为明显。人耳对高频的感知是敏感的,虽然大多数人不会主动注意到 8kHz 以上的频段,但这些频段对乐器的"空气感"和"临场感"有重要贡献。镲片的声音如果缺少 8kHz 以上的谐波,就会听起来像金属板而非镲片。铜管和电吉他在高音区的泛音列如果被截断,就会失去亮度。Lyria 2 已经能生成干净的低频和中频,但高频细节的缺失让它生成的人声音轨听起来偏闷,让镲片听起来像噪声发生器。Lyria 3 通过在扩散过程中提高潜时间分辨率解决了这个问题。
Prompt 遵循能力对实际使用而言是更重要的改进。Lyria 2 有时会将风格描述符理解为风格陈词滥调,生成与某个风格相关的音乐陈词滥调,而非该风格底层和声和节奏特征的真正表达。"复古 80 年代合成器流行"在 Lyria 2 中可能生成一堆霓虹色彩的效果器和典型的鼓机节奏型,但缺少 80 年代音乐那种特有的对新技术的新鲜感和略带空洞的氛围。"80年代后朋克"在 Lyria 2 中可能生成明显模仿 Joy Division 的段落,但没有理解 Gang of Four 的吉他手为什么选择那样不协和的音程以及贝斯为什么要追逐军鼓的节奏。
Lyria 3 展现了更好的表层风格标记与深层结构惯例之间的解缠能力。模型学会了区分"听起来像后朋克"和"是后朋克"之间的差异。这种能力来自于更大规模、更高质量的训练数据,以及更精细的条件控制机制。
显式分段 prompt 是 Lyria 3 Pro 的核心新功能。它不再依赖于单个长 prompt 或寄希望于模型自然地将歌曲结构化为前奏/主歌/副歌/尾奏段落,而是接受结构化的 prompt,直接指定歌曲架构:"intro 8 bars / verse 16 bars / pre-chorus 8 bars / chorus 16 bars / bridge 8 bars / outro 8 bars"。模型以高保真度遵守这些结构指令。
这个功能的价值在于它是 AI 音乐生成走向专业制作工作流的基础。当一个音乐制作人说"我要一个 ABABCAB 的结构,每段 16 小节,A 段主题 8 小节后转调进 B 段"时,他期望 AI 理解并执行这些指令,而不是自己凑合着适配 AI 的随机输出。Lyria 3 Pro 的显式分段 prompt 是朝这个方向的第一步。
竞争格局:Lyria 3 Pro 处于什么位置
AI 音乐生成市场目前有三个主要的商业玩家:Suno、Udio 和 Google DeepMind 的 Lyria。以下是截至 2026 年 4 月它们的对标情况。
| 特性 | Suno v5.5 | Lyria 3 Pro | Udio v1.5 |
|---|---|---|---|
| 最长时长 | 约 8 分钟 | 3 分钟 | 2 分钟以上 |
| 音频质量 | 良好 | 优秀 | 优秀 |
| 人声音质 | 优秀 | 中等 | 良好 |
| 结构控制 | 智能标签系统 | 显式分段 prompt | 风格参考加编辑 |
| API 访问 | 无官方 API | Vertex AI | 有限 |
| 训练数据透明度 | 诉讼中(RIAA) | 授权合作伙伴加合规数据 | 诉讼中 |
| 水印 | 未公开 | SynthID | 未公开 |
Suno v5.5 在最长曲目长度和流行、R&B 风格的人声音质方面领先。其智能标签结构控制系统对普通创作者确实有用,标签系统让用户可以用" melancholic verse / uplifting chorus" 这样的自然语言描述来引导结构生成。但缺乏官方 API 访问以及未解决的 RIAA 诉讼,为在其上构建商业产品的任何人制造了真实的企业风险。任何有法务团队的公司在评估 Suno 作为生产基础设施时,都会面临这个诉讼风险如何影响其使用条款的问题。
Udio v1.5 在电子和器乐风格的音频质量上与 Suno 持平或超过,配合围绕风格参考和迭代编辑的工作流。用户可以提供一段参考音轨,Udio 会生成在风格上相似但不完全相同的输出。这种工作流适合那些有明确风格偏好但缺乏描述性语言能力的用户。有限的 API 访问限制了自动化能力,但底层模型质量对于非企业用户来说足够了。该公司同样面临训练数据诉讼,与 Suno 类似。
Lyria 3 Pro 占据不同的位置。三分钟的最大长度比 Suno 的 8 分钟短,这对需要生成完整专辑或需要长格式内容的用户有影响。在某些流行和 R&B 风格的人声质量上,Lyria 3 Pro 落后于 Suno 的最佳表现。Suno 在人声音轨的自然度和情感表达上确实有优势。这与 DeepMind 对人声合成的更保守方法直接相关:他们没有尝试克隆真实艺人的声音,而是选择了让模型学习更通用的声乐表达模式,这在减少法律风险的同时也限制了上限。
但显式结构 prompt、所有输出的 SynthID 水印、以及授权训练数据,创建了 Suno 和 Udio 目前无法匹配的合规姿态。对于构建商业音乐产品的任何人,这些因素复合起来有利于 Lyria 3 Pro。想象一个音乐流媒体平台想要集成 AI 生成功能来为用户创建个性化背景音乐,在 RIAA 诉讼悬而未决的情况下,使用 Suno 或 Udio 的风险远高于使用 Lyria。
Google 生态系统集成:基础设施优势
Lyria 不是独立产品。它是嵌入在 Google 产品生态系统中的基础设施,这创造了 Suno 和 Udio 短期内无法复制的分发和集成优势。
Gemini App 在对话界面中提供 Lyria 生成能力。用户可以要求 Gemini 生成匹配描述、情绪或参考曲目的音乐。这个集成的重要性不在于功能本身,而在于分发渠道:全球使用 Gemini 的用户数亿计,任何人都可以在不下载专门应用的情况下生成音乐。
YouTube Dream Track 使用 Lyria 作为实验的生成主干。创作者可以使用艺人名字作为风格参考,为短视频生成 AI 音乐。艺人名字功能被明确限定为"广泛灵感",意味着系统不会克隆声音或复制特定录音。这是 Google 刻意施加的限制,并在公开场合大力宣传。这个限制从商业角度看也是聪明的:它让 Dream Track 避免了 Suno 和 Udio 面临的 RIAA 困境,同时为艺人提供了一种新的参与 AI 音乐的方式,而不是被动地成为被克隆的对象。
Google Vids 是一个被严重低估的产品。它在 2026 年 4 月更新,结合了 Veo 3.1 视频生成和 Lyria 3 音频生成。这意味着用户可以从文本描述生成一段视频,同时视频配有根据内容生成的背景音乐。这对于内容创作者来说意义重大:以前需要自己找背景音乐或使用无版权音乐库,现在可以直接生成与视频情绪完全匹配的配乐。Veo 3.1 + Lyria 3 的组合在技术上实现了一个常见的影视制作原则:画面和声音应该作为一个整体被创作,而非分别创作后再后期合成。
ProducerAI 代表了最直接的商业布局。这是 Google 基于 Lyria 3 Pro 构建的专业级 AI 音乐工具,界面为音乐制作人而非消费者设计。它提供了比 Gemini App 更精细的控制能力:分段结构编辑、风格混合、微调参数。ProducerAI 的存在说明 Google 清楚地认识到 AI 音乐的价值链中,专业制作人这个群体有不同于普通用户的需求和支付意愿。
通过 Vertex AI 和 AI Studio 开放的 API 意味着开发者可以将 Lyria 生成集成到自己的产品中。这对于那些想要构建音乐相关应用但没有能力训练自己模型的团队来说是一条可行的路径。定价基于使用量,对于中小规模应用来说可能是可承受的,但大规模部署的成本需要仔细评估。
安全与伦理:真正重要的差异化
训练数据来源是 AI 音乐生成领域最具争议的问题。Suno 和 Udio 都因使用受版权保护的录音进行训练而面临 RIAA 诉讼。这些诉讼的法律结果目前无法预测,但即使最终和解或胜诉,诉讼过程中的不确定性本身就是一种风险。
DeepMind 采取了结构上不同的方法。Lyria 的训练数据来自授权合作伙伴以及合规的 YouTube 和 Google 数据。这个描述在论文和公开材料中被反复强调,这不是无心之举。当你要构建打算嵌入每个 Google 产品中的 AI 音乐基础设施时,你无法承受 Suno 和 Udio 目前正在处理的法律模糊性。Google 的法务团队比大多数 AI 音乐初创公司更保守,这是正确的风险态度。
SynthID 水印 是第二个差异化点,也是基础设施层面的投入。Lyria 3 生成的每段音频都包含基于 Google SynthID 技术的不可听数字水印。水印在波形层面嵌入,不影响听觉体验,但可以被专用检测器识别。这意味着任何通过 SynthID 检测的音频都可以被明确识别为 Lyria 生成。
这个能力的重要性不在当下,而在未来。当 AI 生成的音乐在内容平台上变得无处不在时,平台将面临识别 AI 生成内容的需求。这可能出于版税追踪的目的:如果 AI 生成的音乐被用于商业用途,是否应该支付版税?也可能出于虚假信息检测的目的:被操纵的音频内容如果能被追溯到生成源头,传播的可信度评估就会更容易。SynthID 是为这个未来场景准备的基础设施。
模型卡中描述的训练管道是一个六阶段流程:数据集过滤、条件预训练、安全过滤、监督微调、RLHF/RL-Critic、以及部署过滤与 SynthID 水印。这个流程比大多数竞争对手公开描述的更严格。特别是 RL-Critic 阶段,它用强化学习的方式让模型自己评估输出的质量,这比单纯的人类反馈更高效,但也更复杂。
开发者接入:三条主要路径
截至 2026 年 4 月,Lyria 3 Pro 通过三个 Google 渠道接入。
Vertex AI 是主要的企业集成路径。通过 Vertex AI 的 Model Garden,开发者可以调用 Lyria 3 Pro 模型,采用按 token 或按请求的计费模式。API 支持文生音乐生成、音频 prompt 参考(提供一段参考音轨让模型学习其风格)、以及通过分段架构规范进行结构 prompt。对于需要将 AI 音乐生成嵌入到自己的应用或服务中的团队,这是最直接的路径。
AI Studio 为想在构建 API 集成之前实验 Lyria 的开发者提供了无代码界面。该界面暴露了 API 提供的相同参数,包括风格混合权重、分段结构设置、生成时长等。这意味着开发者可以在不写任何代码的情况下可视化地原型化他们的生成策略,测试不同的 prompt 组合,找到最适合他们用例的参数配置。
Gemini API 是对话集成的路径。对于需要将音乐生成嵌入对话体验的应用,Gemini API 的扩展架构允许 Lyria 生成作为工具调用。用户可以在与 Gemini 的对话中要求生成一段特定风格的音乐,模型会调用 Lyria 生成,并将结果以音频形式返回给用户。这个路径适合那些已经在使用 Gemini 构建对话式 AI 应用的团队。
对于构建分布式 AI 系统的开发者,需要注意的是 Lyria 生成是推理密集型的。三分钟 48kHz 立体声音频代表着实值显著的计算量。如果你在设计跨多个工作节点分叉生成请求的架构,需要考虑如何管理生成队列、处理超时和重试、以及优化推理吞吐量。这与分布式语言模型推理有相似的工程挑战,也有一些独特的音频处理需求。详情请参阅我们的分布式 AI 推理架构分析。
Magenta RealTime 的开源权重发布是第四条路径,对于那些不愿意依赖 API 或有数据隐私顾虑的团队特别有价值。模型可从 Magenta 项目网站下载,提供在常见硬件配置上运行的文档。相较于 MusicGen 3.3B 减少 38% 参数确实伴随一些质量权衡,但对于许多用例来说,本地推理的延迟和成本优势超过了边际质量差异。
落地建议
如果你正在评估特定用例的 AI 音乐生成,以下是直接评估。
选择 Lyria 3 Pro 如果: 你需要具有授权训练数据的合规级生成,无法承受 RIAA 诉讼风险,正在构建商业产品且需要确定性结构控制,或者深度嵌入 Google 生态系统且想要原生集成优势。Suno 和 Udio 的训练数据诉讼是一个真实的尾部风险,对于企业用户来说,合规姿态往往比技术能力更重要。
选择 Suno 如果: 你需要最大曲目长度(8 分钟)用于全长专辑制作,人声音质对于主流流行和 R&B 风格是你的首要指标,且能够在诉讼进行期间管理法律风险。Suno 在人声自然度和情感表达上的优势是真实的,特别是对于以人声为核心的流行音乐制作。
选择 Udio v1.5 如果: 你的用例以电子和器乐音乐为中心,重视风格参考和迭代编辑工作流,且对当前 API 限制可以接受。Udio 的风格参考机制对于那些有明确声音偏好但难以用语言描述的用户来说是最自然的工作流。
考虑 Magenta RealTime 如果: 你需要无 API 依赖的设备端生成,你的延迟要求严格(两秒以内),或者你是需要检查和修改底层模型架构的研究者。开源权重意味着你可以对模型进行任何修改,而不受 API 服务条款的限制。
常见问题
Q: Lyria 的潜空间扩散架构与 Suno 的离散 token 方法相比有何优劣?
A: 潜空间扩散在连续的压缩空间中运作,能够实现比离散 token 模型使用的交叉注意力掩码更具表达力的基于梯度的条件机制。离散 token 模型(如 Suno 的)在规模上计算效率更高,因为自回归生成在离散空间中可以进行高度的工程优化。但这种效率是以条件表达能力和音色保真度为代价的。在处理同时指定结构和音色特征的层次化 prompt 时,潜空间扩散的优势最为明显。在处理简单、描述性的 prompt 时,两种架构的差异不大。
Q: Lyria 能够像 Suno 那样克隆特定艺人的声音吗?
A: 不能,这是刻意施加的架构限制。DeepMind 已公开将 prompt 中的艺人名字限定为"广泛灵感"范畴。系统不会尝试重现特定的人声特征或克隆声音。艺人的名字在 prompt 中起到的作用是风格参考,帮助模型理解你想要的音乐氛围,但不涉及声音的复制。这个限制从法律层面避免了 Suno 和 Udio 正在面临的艺人声音版权问题,也从伦理层面尊重了艺人对自己声音的控制权。如果你需要声音克隆能力,Suno 目前提供,但需要明确的是这个能力在法律上处于灰色地带。
Q: Lyria RealTime 生成的最小延迟是多少,实际应用中哪些场景受益最大?
A: 从 prompt 提交到音频回放约两秒。这是通过块级自回归与因果流式处理实现的,16 层 RVQ 码本结构使块级并行处理成为可能,同时维持跨块的自回归依赖。这个延迟最适合三类场景:现场音乐应用(如 DJ 混音、现场配乐),交互式配乐(游戏、影视的动态配乐生成),以及实时演示和原型制作。在这些场景中,两秒延迟是可以接受甚至感觉不到的存在。对于需要等待整个曲目生成完成后才能评估的传统制作工作流,这个延迟的优势不明显。
Q: SynthID 水印的可靠性如何,是否真的能经受常见音频转换?
A: SynthID 嵌入的水印被设计为能经受常见音频转换,包括重新编码(MP3、AAC、OGG 等格式的多次转码)、音高移调(上下几个半音的范围)、时间拉伸(±10% 的时间变化)、混响和延迟效果添加、以及均衡器调整。这些转换是音频内容在网络上传播时最常见的处理方式。Google 已发布水印生存性的测试方法论,结果表明在这些转换后水印仍然可以被检测到。需要注意的是,极端的音频处理(如完全重新合成、人声提取、极端时间拉伸)可能会破坏水印,但这与"常见转换"的定义差距较大。SynthID 的设计目标是应对日常传播场景,而非对抗专业的声音处理工具。
Q: Lyria 3 Pro 与 Magenta RealTime 之间应该如何选择,两者的质量差距有多大?
A: Magenta RealTime 的参数比 MusicGen 3.3B 少 38%,并以牺牲一些质量换取无 API 依赖的本地运行能力和更低的延迟。Lyria 3 Pro 模型更大,运行在 Google 的基础设施上,在高频细节(4kHz 以上的频段)、音色准确性(乐器的泛音列完整性)、和结构连贯性(多段落之间的过渡自然度)上表现更好。对于需要生成背景音乐、Podcast 配乐、简单游戏音乐的普通用户,Magenta RealTime 的质量已经足够。对于专业音乐制作、commercial 项目、高保真度要求的场景,Lyria 3 Pro 是合适的选择。两者之间还有一个实际考量:Magenta RealTime 需要自己维护运行环境的硬件,而 Lyria 3 Pro 通过 API 调用意味着你只需要为使用量付费,不需要考虑推理硬件的采购和维护。