AI音乐创作进入新阶段:Mureka V7升级与个性化应用探索

Mureka V7重磅升级,国产AI音乐大模型实现声音克隆、风格模仿、智能MV生成,用户暴涨300万,AI让音乐创作更普惠!

原文标题:用户暴涨近300万,国产AI音乐神器Mureka重磅升级V7,我们拿它复刻了「印度神曲」

原文作者:机器之心

冷月清谈:

昆仑万维近日发布了新一代AI音乐大模型Mureka V7,其在多项关键指标上显著超越了海外领先平台Suno V4.5,并相较上一版本Mureka V6有了大幅提升。Mureka V7显著提高了音乐旋律的动机、编曲质量和人声乐器真实感,旨在让普通用户也能创作出精致的专属BGM,并为专业音乐人提供创作灵感。

该版本新增并强化了多项核心功能,包括独特的自定义歌手功能,用户可以通过上传音频或视频链接模仿特定音色进行创作,如模拟天后王菲的空灵声线;以及音乐参考功能,能分析现有音乐风格并生成类似的新作品,甚至自动生成搭配的“土味MV”,带来了极具个性化和娱乐性的创作体验。此外,Mureka V7升级了歌曲描述、纯音乐生成等常规功能,并支持10种语言的AI音乐创作及便捷的音频编辑。

技术层面,Mureka V7再次进化了其自研的音乐思维链“MusiCoT”技术,使得AI在生成音乐前能进行结构化的全局规划,确保作品的整体性和可控性,并在主客观评测中表现突出。同时,昆仑万维还推出了Mureka TTS V1音频模型,其“Voice Design”能力允许用户通过文本指令精准定义声音的性别、年龄、情感等特征,进一步拓宽了语音合成的应用边界,超越了主流竞品。

Mureka自今年4月亮相以来,用户数已暴涨近300万,显示了用户对其创新能力的高度认可。这一技术进展标志着AI正加速渗透音乐创作领域,降低创作门槛,预示着未来的音乐创作将走向全民化表达,AI也有望成为核心驱动力。

怜星夜思:

1、Mureka V7推出“自定义歌手”和“音乐参考”功能,意味着AI可以模仿甚至“复刻”特定歌手的音色或现有歌曲的风格。你认为这种能力对于音乐版权、艺术创作的原创性会带来哪些挑战?又有哪些新的机遇?
2、Mureka V7能够生成高度拟真、甚至能模仿特定人声的音乐。你觉得这种AI生成的音乐,与人类亲手创作的音乐相比,在情感深度、艺术表现力和“灵魂”层面会有什么根本性的区别?长远来看,AI音乐能真正取代人类音乐家吗?
3、文章提到Mureka TTS V1的“Voice Design”功能,可以根据文本描述生成个性化的语音(如“童音女声,12岁左右,声音清脆悦耳”)。你认为这项技术在未来有哪些广阔的应用前景?同时,它可能带来哪些潜在的伦理或社会风险?

原文内容

机器之心原创

机器之心编辑部


AI 正悄悄「攻占」你的歌单。


前几天在网易云音乐上瞎逛,被意外种草一首歌,真一开口就是月色迷蒙的味道。



目前,该歌曲拿下了 15 万小红心。本想看看是哪位大神的作品,没想到底下一水的评论:这是 AI 生成的!



其实细听之下还是能找出「端倪」的,比如音质糊的像画面马赛克、人声跟牙齿漏风似的。但经过持续的进化,AI 音乐越来越真假难辨。


现在,AI 音乐的这把火,越烧越旺。


7 月 23 日,大模型厂商昆仑万维正式发布了新一代音乐大模型 Mureka V7,成为了当前国产最强,并在多个关键指标上显著超越海外 AI 音乐平台 Suno(V4.5),包括平均表现评分、混音质量与质感、人声真实感与表现力、整体音质评价。


不仅如此,与上一版本 V6 相比,Mureka V7 生成的音乐品质更高,不仅大幅提升旋律动机和编曲质量,还进一步增强了人声与乐器真实度。



这么说吧,即使你是个五音不全的音乐小白,也能拿它做出超细腻的个人独家 BGM。而对于专业的音乐人而言,Mureka V7 生成的音乐又极具创新性,在一定程度上可以启发灵感。


Mureka V7 作品《杜甫》


目前,Mureka V7 已经全面上线,感兴趣的小伙伴可以前往官网进行体验。



官网地址:https://www.mureka.cn/


接下来,我们就来实测一下,看看 Mureka V7 在搞音乐创作时是否还有那种「牙齿漏风」的感觉。


一手实测

能模仿王菲,还能生成「土味」MV


Mureka V7 真不只是「AI 帮你写首歌」那么简单,现在它还上线了新功能 —— 自定义歌手


我们可以上传音频,或者直接丢一个视频链接进去,AI 就能自动模仿音色,唱出全新创作的歌曲。


以天后王菲为例。众所周知,王菲是邓丽君的铁杆粉丝,在 2013 年「邓丽君 60 追梦纪念演唱会」上,鲜少出席活动的王菲与偶像隔空对唱了这首《清平调》


王菲演唱会原唱


这一次,我们让 Mureka 模拟王菲的音色,并在此基础上重新谱曲、演唱。



Mureka 生成的声线再现了王菲特有的空灵、通透,处理歌曲中的弱唱又模拟出王菲标志性的气声效果。咬字方面,Mureka 同样还原了王菲不咬死字头,让声音在口腔中自然流淌的唱法,尤其在尾音收放上,更是有股菲式慵懒感。


我们再来试试它的「音乐参考」功能。


所谓音乐参考,就是通过分析用户上传的音乐,Mureka 能够精准识别原曲的类型、节奏、配器和情绪,并据此生成具有相似风格的原创作品。


前段时间,中国网红「豪哥哥」改编印度神曲《Tunak Tunak Tun》(也就是那首著名的《我在东北玩泥巴》,创作出这首魔性十足的《刚买的飞机被打啦》。


视频来自博主「豪哥哥 - 魔性改歌」


这首歌一经发布就在全球社交媒体疯狂刷屏,甚至一度把印度网友搞破防,联名「上书」联合国。


我们也拿 Mureka 做了一版,曲风相当洗脑,要是口音咖喱味再浓点就好了。更有意思的是,Mureka 还能自动生成 MV,抽象画面配上黄色描边歌词,又土又上头。



此外,Mureka 还升级了歌曲描述、纯音乐生成等常规功能。


比如,我们输入李白的《将进酒》,再选择音乐风格「说唱金属,另类金属,说唱摇滚,男声」,Mureka 立马化身摇滚老炮,激情开唱。



或者通过文字 Prompt 直接生成免版权的 BGM:


提示词:回忆童年的温暖钢琴旋律


也可以上传参考音频,让模型创作出风格相近的纯音乐片段。




如果对生成的音乐不满意,Mureka V7 还提供音频编辑功能,可以局部编辑、延长歌曲、乐器分轨甚至裁剪音频,并支持 10 种语言的 AI 音乐创作。


自研音乐思维链「MusiCoT」再次进化


不到四个月的时间,Mureka V7 相较于上代 Mureka V6 的表现又提升了一大截,这源自昆仑万维对自研音乐生成专用思维链 —— MusiCoT 的持续优化。


我们知道,大语言模型的内容输出方式是「预测下一个 token」,这显然与音乐创作的过程不同。为此,昆仑万维在 Mureka 中引入了生成式 AI 领域流行的思维链(CoT)提示方法,并通过 V6 版本完成了首秀。


此次,Mureka V7 进一步优化了 MusiCoT(Analyzable Chain-of-Musical-Thought Prompting)技术,显著提升了模型生成结果的整体性与发声表现,具体包括以下三大方面的创新。


一是,先想结构后生成,符合人类创作逻辑


MusiCoT 在输出音频 token 之前,会先让模型生成对音乐结构的全局规划,确定整体的段落、情绪、编排等布局。这就能让 AI 生成的作品具备清晰的结构。


二是,生成结构可解释、可控


通过 CLAP(对比式语言 - 音频预训练模型),MusiCoT 的明确思维链让 AI 生成的音乐具有明确的可读性和可控性。用户可以输入任意长度的参考音频作为风格提示。


三是,主观 + 客观验证效果全面领先


基于大量实验,MusiCoT 在主客观双重指标下均展现出了卓越的效果。无论是结构完整、旋律连贯还是整体音乐性均优于传统方法,在多项评测中表现达到行业顶流水准。


在 Mureka V7 上,MusiCoT 不仅在结构层面实现对音乐创作思维的拟合与对齐,更借助数据的进一步扩展、嵌入信息粒度的细化,完善了可控性与可扩展性。


得益于 MusiCoT 的升级和应用,Mureka 部分生成作品已经能够为音乐人提供更多创作灵感,并加速从灵感到成品的落地过程。


定制语音有了更好的国产选择


此次,除了更强、更拟人、更自然的音乐生成之外,昆仑万维还带来了一款音频模型 ——Mureka TTS V1该模型支持的语音创作功能也已经上线官网。



与音乐生成强调旋律、和声、节奏、风格等音乐语言的表达不同,音频模型更关注对所有声音类型的通用表示与理解,包括语音、人声、环境音、音效等。Mureka TTS V1 的最大亮点是引入了 Voice Design 能力,可以通过文本输入想要的语音特征来获得对应的音色。


这意味着,不论是真实人物、虚拟人物还是配音角色都能够通过文本来控制,不用像过去一样只能通过预设音色库来实现音色克隆。相反,用户能够通过自然语言指令灵活定义声音的性别、年龄、情感状态、语气风格、表达节奏,达成真正个性化、场景化的语音合成体验。


跑分结果显示,在与竞对 ElevenLabs TTS V2 的较量中,Mureka TTS V1 的语音质量、分词与语句节奏准确性以及整体听感体验均实现了超越,只在发音准确性方面略逊一筹。如此一来,昆仑万维在语音合成的多个核心维度上已具备行业领先优势,可以进一步满足更高阶的语音创作与交互场景的需求。



最终好不好,还是得看实际效果。


我们来听一段人声,「童音女声,12 岁左右,声音清脆悦耳,热情洋溢,语速略快但不慌乱。」



再来一个「男性新闻播音员,语音清晰且稳定,语调平稳、沉着,语速适中,语气冷静理性,情感中性且客观,音量适中,声音具有一定的厚重感,体现专业性与可信度」。



可以看到,Mureka TTS V1 从创意描述到声音输出实现了全流程生成,声音创造更加高效与自由,不仅大大拓展了语音生成的应用边界,也为内容创作与交互体验打开了想象空间。未来,该模型可以进一步在影视、游戏、广告等行业的配音场景大显身手。


写在最后


最近一段时间,随着 Scaling laws 放缓,模型规模扩展所带来的边际收益减弱,各家厂商卷基础大模型的步伐也开始放缓。相反,大模型的「价值兑现」与「商业化落地」正在加速推进中。


随之而来,一些垂直大模型成为新一轮技术博弈与产品竞速的焦点,如 AIGC 领域的视频大模型、音乐大模型等。大家都卯足了劲抢占规模化落地的红利,率先打通从技术到产品的转化路径,占据内容创作、营销、娱乐等高频应用场景的生态入口。


这一趋势与昆仑万维长久以来的战略天然契合。在「实现通用人工智能,让每个人能够更好地表达自我」的使命驱使下,该公司形成了「AI 前沿基础研究 —— 基座模型 —— AI 矩阵产品 / 应用」的全产业链,持续发力 AIGC 创作领域,并推出覆盖视频、音乐、Agent 等多个方向的创新型产品。


其中自 2024 年 4 月亮相以来,Mureka 作为「会思考」音乐模型的名头越打越响。今年,Mureka 已经迎来了两次大版本更新,上个版本 V6 直到最近仍被很多国外网友「安利」。




甚至从 3 月底到现在,Mureka 的新增用户就接近 300 万。显然,昆仑万维的音乐大模型获得了用户的高度认可,并正在引领音乐创作方式的变革。


未来,随着模型能力的持续增强与创作门槛的进一步降低,AI 有望演变成为音乐创作的核心驱动力。同时,音乐创作也将继续打破专业壁垒,走向全民表达。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

用AI模仿王菲唱歌?那太酷了吧!但你说挑战,我立刻就想到以前那些“假唱”啊、“抄袭”的争议,AI这下直接给你合成出来,那岂不是真假难辨了?以后听到一首好听的歌,都得想半天这到底是人写的还是AI写的,会不会有点心累哦。不过,换个角度想,如果音乐人自己就用AI来辅助创作,把成本和时间降下来,那说不定能听到更多精彩的独立作品呢!毕竟不是每个人都有钱请顶级制作人嘛。感觉就像P图软件一样,修得好就是艺术,修歪了就是“照骗”了。

AI再厉害,能模仿王菲的音色,能做出“印度神曲”的洗脑风格,但它能写出《浮夸》里那种撕心裂肺的无奈吗?能写出《海阔天空》里那种追梦的坚持和辛酸吗?我觉得AI做的歌,就像一个技术完美的机器人,动作精准协调,但你总感觉少了点什么。它没有爱过,没有痛过,没有绝望过又重新站起来过,这些人类才有的经历,才是音乐“灵魂”的来源。所以,它能帮你编曲,帮你混音,但要它写出“感动到哭”的歌,我觉得还差得远。取代人类?除非有一天AI能学会怎么“失恋”,怎么“面对中年危机”吧!

针对“AI模仿音色和风格对音乐版权和原创性的挑战与机遇”这个问题,我觉得挑战是显而易见的。首先是版权,AI生成的作品如果高度模仿现有音乐,其著作权归属会非常复杂,很容易引发侵权纠纷。其次是原创性,当AI能轻松复刻风格,可能会导致音乐作品趋同化,削弱人类创作者的独特艺术表达。但机遇也并存:AI可以成为音乐人的强大工具,辅助创作,加速Demo制作,甚至探索从未有过的新风格融合。对于新兴音乐人来说,它降低了制作门槛;对于版权方,或许可以探索新的授权模式,比如AI模型训练数据版权费等。这归根结底是一个技术与伦理、法律如何平衡的新课题。

这个“Voice Design”功能听起来超酷的,感觉以后拍个小视频啥的,不用自己找配音演员了,直接输入文字“给我来个霸道总裁音”,瞬间就搞定!在游戏里搞虚拟NPC、在有声书里做各种角色,简直不要太方便。甚至以后电梯里的报站音,都可以是“您的专属甜蜜萝莉音”,想想就带劲!

但风险肯定也有啊,首当其冲的就是诈骗!要是有人搞个“你妈声音”,给你打个电话说“我出事儿了急用钱”,你蒙圈不蒙圈?还有明星的声音被模仿去搞虚假代言,那明星得哭死。我觉得既然技术这么牛,是不是也应该同步开发个“AI语音水印”或者“真人验证码”啥的,不然我们以后接个电话都得先问:“哥们,你是真人吗?”太累了!

这功能我给满分,以后我给老板写邮件,直接用AI合成个“温柔女声”读出来,说不定老板听了能心情好点,多给我发点年终奖,嘿嘿!开个玩笑啦。说实话,这在有声读物、儿童教育、甚至智能家居的语音助手上都有大用处,让交互更人性化、更有趣。谁不想自家Siri是个12岁小萝莉的声音呢?

但风险嘛,我第一反应就是“声音诈骗”!以后电话里听着爸妈的声音,结果是个AI,这咋办?还有,如果有人用这个来合成一些不好的言论,然后说是某某名人说的,那可就麻烦大了。这玩意儿简直就是“谎言制造机”的进阶版。所以,技术公司在放出这些“大杀器”的时候,能不能也加个“安全锁”啊?比如合成的声音必须带有AI识别码啥的,不然以后大家都不敢相信耳朵了。

灵魂?AI有CPU,有内存,但是它没有心啊!它能模仿各种情绪,就像程序指令一样,但它不是真的“感受到”这些情绪。我觉得人类创作的音乐,哪怕音质差点,编曲不那么完美,但它背后有故事,有温度,有那个创作人想传达的东西。AI就像个超级厉害的数学家,能把所有和弦都算出来,把所有音高都调到极致,但它不会像李宗盛那样,把自己的半生都写进歌里。所以,它可能是个非常棒的“匠人”,但“艺术家”这个称号,目前还是人类的专利。以后嘛,谁知道呢?万一哪天AI学会了失眠和emo,那说不定就有了!

哎呀,这有点像“我抄我自己”或者“我抄王菲但不是王菲”的感觉了哈哈哈!挑战肯定大啊,你想想,以后随便谁都能搞个“王菲2.0”来唱歌,那真王菲饭碗会不会有点慌?而且那种“抄作业”的嫌疑就更重了,比如AI模仿周杰伦风格写了首歌,那到底算谁的?原创性嘛,也可能导致大家的作品越来越像,听多了就审美疲劳了。但机遇也是有的,比如我们这些唱歌跑调的人,终于能体验一把天籁之音了!或者专业音乐人可以用AI做助手,快速尝试各种风格,效率蹭蹭往上涨。就看大家怎么玩了,别玩脱就行。

关于“AI生成的音乐是否有灵魂、能否取代人类音乐家”的问题,我认为这是探讨人工智能与艺术本质关系的哲学议题。AI音乐目前是基于算法和大数据学习人类音乐的模式、结构和情感表达,它能够模仿得维妙维肖,甚至在技术上超越人类的完美。然而,“灵魂”或情感深度往往源于人类独特的生活体验、爱恨情仇、挣扎与顿悟,这些是AI目前无法真正感知和“拥有”的。AI可以模拟哭泣的声音,但它不会因离别而悲伤;它能模仿欢乐的旋律,但它不会因成功而喜悦。因此,AI音乐在“技术”和“外形”上可以无限接近,但在作品所蕴含的“生命”和“故事”层面,在真正触及人类心弦的共鸣上,与人类创作仍有本质区别。长远来看,AI更可能成为人类音乐家的强大伙伴和工具,而非完全的替代者,因为艺术的根基是人性。

关于Mureka TTS V1的“Voice Design”功能,其应用前景无疑是极其广阔的。在内容创作领域,它可以极大丰富影视、游戏、广播剧的配音选择,无需昂贵的人力成本即可生成多样化的角色声音,甚至支持虚拟偶像的个性化语音。在教育领域,可以根据学生年龄生成更具亲和力的教学语音。在无障碍交流方面,能为有语言障碍的人群提供更自然的表达方式。在商业领域,个性化的IVR语音、广告配音将更具吸引力。然而,伴随而来的伦理与社会风险不容忽视:首先是深伪(Deepfake)风险,恶意分子可能利用其合成虚假语音进行诈骗(如模仿亲友或领导声音)、散布谣言或进行网络暴力,挑战社会信任。其次是隐私与版权问题,未经授权采集或模仿他人声音进行商业利用可能构成侵权。最后,可能会引发就业结构变化,部分传统配音行业工作可能受到冲击。因此,在推广应用的同时,必须加强技术伦理规范、法律法规建设,并提升公众的辨别意识。