首页 财经 > 内容

StabilityAI的新文本到音频工具就像音乐样本的中途之旅

时间:2024-02-07 11:16:56 来源:
导读 StabilityAI正在将其生成式人工智能技术带入音乐世界,开发商推出了一款名为StableAudio的新型文本到音频引擎。与稳定扩散模型类似,稳定音...

StabilityAI正在将其生成式人工智能技术带入音乐世界,开发商推出了一款名为StableAudio的新型文本到音频引擎。

与稳定扩散模型类似,稳定音频可以根据简单的文本提示创建简短的声音片段。该公司在其公告中解释说,人工智能是根据在线音乐库AudioSparx的内容进行训练的。它甚至声称该模型能够创建“用于商业用途的高质量44.1kHz音乐”。从这个数字来看,44.1kHz被认为是CD品质的音频。所以它相当不错,但不是最好的。

目前,StableAudio的免费版本已向公众开放,您可以每月生成和下载20首单独的曲目。每个原声片段的运行时间为45秒,因此不会很长。

您输入的文本提示可以是简单的输入。听StabilityAI提供的样本,“CarPassingBy”听起来就像标题所暗示的那样——远处有一辆汽车驶过,尽管有点低沉。相反,你也可以叠加细节。一个特定样本的提示涉及AmbientTechno、一台808鼓机、拍手、合成器、“空灵”一词、122BPM和“斯堪的纳维亚森林”(无论这意味着什么)。这个单词组合的结果是一种环境低保真嘻哈节拍。

我们拿出稳定音频进行快速测试。我们能够输入一个提示,要求人工智能创作一首2000年代初的快节奏车库摇滚歌曲,它在某种程度上实现了目标。生成的曲目与风格相匹配,尽管听起来很混乱。

不幸的是,除了单一输入之外,我们无法进一步进行。在撰写本文时,StableAudio发现大量流量涌入,人们纷纷涌入尝试该模型。如果您只遇到空白屏幕,开发人员建议您稍后或第二天重试。

免费版本有一个问题——它仅供非商业用途。如果您想将内容用于商业用途,则必须购买12美元的StableAudioProfessional月度套餐。它还每月生成500个曲目,每个曲目的持续时间长达90秒。还有一个针对自定义音频持续时间和每月生成的企业计划。但是,您必须首先联系StabilityAI来制定计划。

不完美的工具

请注意该技术并不完美。大部分内容听起来都不错,但某些方面似乎不太对劲。我们认为前面提到的AmbientTechno歌曲的混音不是很好。就好像贝斯和合成器正在争夺主导声音,结果只是噪音。此外,人工智能似乎无法发声。它只做乐器。

稳定音频确实很有趣,但不应该完全依赖。我们应该注意到,该公司正在征求用户关于如何改进人工智能的反馈。联系电子邮件可以在官方公告页面上找到。

如果您打算将这项技术用于自己的目的,我们建议您查看TechRadar的2023年最佳音频编辑器列表列表,以修复您可能遇到的任何缺陷。

标签: