一个开源库搞定种种文本到音频天生，Meta宣告AudioCraft-魂魄勇锐网

一个开源库搞定种种文本到音频天生，Meta宣告AudioCraft

时间：2024-10-28 17:16:10 来源：作者：

最近，个开搞定告Meta 宣告并开源了多个 AI 模子，源库好比 Llama 系列模子、种种分割所有的文本 SAM 模子。这些模子增长了开源社区的到音钻研妨碍。如今，频天Meta 又开源了一个可能天生种种音频的个开搞定告 PyTorch 库 ——AudioCraft，并果真了其技术细节。源库

代码地址：https://github.com/facebookresearch/audiocraft
名目主页：https://audiocraft.metademolab.com/?种种utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_content=card

AudioCraft 可能基于用户输入的文本天生高品质、高保真的文本音频。咱们先来听一下天生下场。到音

AudioCraft 可能天生一些事实场景中的频天声音，好比输入文本 prompt ：「Whistling with wind blowing（风咆哮而过）」

还能天生有旋律的个开搞定告音乐，好比输入文本 prompt ：「Pop dance track with catchy melodies,源库 tropical percussions, and upbeat rhythms, perfect for the beach（盛行舞曲，具备朗朗上口的种种旋律、热带侵略乐以及欢喜的节奏，颇为适宜海滩）」

致使还可能抉择详细的乐器，天生特定的音乐，好比输入文本输入文本 prompt：「Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves（简朴的曲调，环保理念，尤克里里，以及声，轻松，随以及，有机乐器，暖以及的节奏）」

AudioCraft 简介

比照于文本、图像，音频天生是更具挑战性的，由于天生高保真音频需要对于重大的信号以及方式妨碍建模。

为了高品质地天生种种音频，AudioCraft 搜罗三个模子：MusicGen、AudioGen 以及 EnCodec。其中，MusicGen 运用 Meta 具备版权的音乐数据妨碍磨炼，基于用户输入的文本天生音乐；AudioGen 运用公共音效数据妨碍磨炼，基于用户输入的文本天生音频；EnCodec 用于缩短音频并以高保真度重修原始信号。解码器可能保障天生的音乐是高品质的。

从原始音频信号天生音频需要对于极长的序列妨碍建模。好比，以 44.1 kHz 采样的多少分钟音乐曲目由数百万个光阴步（timestep）组成。比照之下，Llama 以及 Llama 2 等基于文本的天生模子是将文本处置成子词，每一个样本仅需要多少千个光阴步。

MusicGen 是特意为音乐天生量身定制的音频天生模子。音乐曲目比情景声音更重大，在建树新的音乐作品时，在长程（long-term）妄想入地生毗邻的样本颇为紧张。MusicGen 在约莫 400000 个录音以及文本形貌以及元数据上妨碍磨炼，合计 20000 小时的音乐。

AudioGen 模子可能天生情景声音及声效，好比狗啼声、汽车喇叭声或者脚步声。

EnCodec 神经音频编解码器从原始信号中学习离散音频 token，这至关于给音乐样本提供了新的牢靠「辞汇」；而后钻研团队又在这些离散的音频 token 上磨炼自回归语言模子，以在运用 EnCodec 的解码器将 token 转换回音频空间时天生新的 token、声音以及音乐。

总的来说，AudioCraft 简化了音频天生模子的部份妄想。MusicGen 以及 AudioGen 均由单个自回归语言模子组成，并在缩短的离散音乐表征流（即 token）上运行。AudioCraft让用户可能运用差距规范的条件模子来操作天生，好比运用预磨炼的文本编码器实现文本到音频天生。

参考链接：https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/

关键词：

一个开源库搞定种种文本到音频天生，Meta宣告AudioCraft

热点关注