本地新型AI音乐生成模型为作曲家一分钟内提供“初稿”

发布/2023年12月4日 22:34

本地开发首款“可控文本提示”人工智能音乐生成模型，专家认为将大大提升音乐谱曲的效率，为谱曲人快速提供高质量的“初稿”。

这款名为Ｍustango的人工智能软件，由新加坡科技设计大学两位助理教授波里安（Soujanya Poria）和埃勒曼（Dorien Herremans）带领的一个六人科研团队，用了大约半年的时间于11月研制而成，可根据使用者输入的专业音乐文本提示，快速生成符合特定和弦、节拍、速度和音调等要求的音乐作品。

该项目是从波里安早前研发的一款名叫TANGO的人工智能软件开发出来的。TANGO可以在数秒钟内，根据文本的信息转换成语言、音乐等声音。在此基础上，研究团队利用了一种独创的“数据增强方法”，建立了一个名叫MusicBench的音乐数据集（dataset）。然后，研究人员通过自创的音乐信息检索方法，提取出数据库中的音乐特征，并将这些特征与文本描述建立关联，让Ｍustango能在一分钟以内根据文本信息创作出音乐。

波里安说：“这款人工智能软件特别关注使用的可控性，让用户能够输入指定的和弦序列、节奏偏好，为作曲者、声音设计师和播客提供前所未有的灵活性。”

新科大的这项成果已刊登在论文预先发表网站arXiv，可以随时与同行分享并得到反馈。同时，这项研究也已经通过开放性数据和机器学习平台Hugging Face向公众开放。目前，该平台上已有多个通过“D小调”“广板（Largo）”等专业音乐术语组成的文本提示样本。