AI 嘻哈歌手横空出世：Veo 3 + Suno 打造以假乱真演唱会

almosthuman2014 · 2025 年5 月 29 日 19:38

用 Veo 3 和 Suno 打造 AI 嘻哈歌手，效果逼真，画面和音乐制作效率极高，或将颠覆传统音乐创作。

原文标题：用Veo 3+Suno做了个AI Rapper，吊打音乐节上的流量明星

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650971431&idx=1&sn=c99d4398afa1e0e766c94246f5722918&

冷月清谈：

本文介绍了如何利用 Google Flow Veo 3 和 Suno 4.5 打造 AI 嘻哈歌手，生成以假乱真的演唱会视频。文章展示了 Veo 3 在生成逼真画面方面的强大能力，以及 Suno 在音乐创作上的便捷性。通过结合两者，可以轻松制作出极具感染力的 AI 演唱会视频。此外，文章还对比了 Suno 和豆包在音乐生成方面的特点，并分享了使用 Flow 延长视频时长的技巧。最后，作者鼓励读者尝试使用这些工具，探索 AI 在音乐创作领域的潜力。

怜星夜思：

1、如果 AI 能够无限生成高质量的音乐和视频，未来音乐人的价值会体现在哪些方面？会更依赖于创意还是技术？
2、Suno 和 Flow 这类 AI 工具的出现，对于音乐和视频创作的门槛降低了很多，这会带来哪些积极和消极的影响？
3、文章中提到用 AI 生成的音乐视频几乎以假乱真，那么未来我们该如何辨别 AI 生成的内容？是否存在一种“AI 内容检测器”？

原文内容

机器之心报道

编辑：杨文

太疯狂了！AI生成的嘻哈歌手唱Rap以假乱真，网友直呼「看不出破绽」。

来来来，眼尖的朋友请告诉我，下面这个嘻哈歌手唱 rap 的视频到底是真实的，还是 AI 生成的？

我可以 100% 肯定地说，此为 AI 的手笔。你猜对了吗？

三天前，X 博主 @blizaine 使用 Google Flow Veo3 和 Suno 4.5 制作了这一视频。画面和开场声音是 Veo3 生成的，歌曲和歌词则用了 Suno 4.5。

由于效果过于逼真，网友直呼「太疯狂」，甚至还让摇滚老炮回想起了当年的舞台时光。

看样子，Veo 3 刚揭开流量明星的遮羞布，这下子又要让歌手瑟瑟发抖了。

循着这个方向在 X 上逛了一圈，发现不少网友热衷于用 Veo 3 生成演唱会视频，而且一个比一个自然。

比如这个另类摇滚迷幻乐队在一家小酒吧的演出片段。主唱站在麦克风前，边弹吉他边演唱成名曲中的副歌部分，情绪饱满但不激烈；贝斯手、吉他手和鼓手沉醉其中，身体随节奏摇摆着，几乎找不出什么 bug。

Prompt: Mid 90s footage of an alternative rock shoegaze band playing in a small dive bar. The band consists of a lead singer guitarist, a bassist, a drummer, and another guitarist. They are singing the soaring chorus of their biggest hit.

再比如，下面这个妆容怪诞的钢琴家演奏动作自然流畅，手指与琴键接触的力度、节奏与画面中的旋律同步，口型也对得严丝合缝。身后交响乐团不同乐器组的演奏姿态各具特色，指挥家起伏的手势也不机械重复。

更妙的是，Veo 3 还能找准时机切换镜头，细节之丰富几可乱真。

Prompt: Early 2000s footage of an australian goth pianist making a whimsical song about God in front of an orchestra.

还有这个混乱的摇滚音乐会，三名乐队成员完全失控：主唱挥舞着鼓槌冲着观众嘶吼，吉他手头发凌乱猛拨琴弦，身后的鼓手则疯狂击打鼓面。唯一的瑕疵就是那莫名飞起的镲，说实话有点出戏。

Prompt:A chaotic grunge rock concert circa 1995 captured on an old VHS camcorder from someone in the audience. The band members are acting erratically, throwing guitars and smashing drums.

接下来，我们也来复刻一个，看看 AI 能否拯救犹如一潭死水的华语乐坛。

这第一步就是生成音乐。

前段时间一个名为「梁正尚能饭」的博主火了。他凭借「粤语 + 古诗 + 摇滚」的独特风格，创作出《将进酒》《木兰辞》《王维说》《春归何处》等音乐作品，在各大平台播放量超百万。

视频来自博主「梁正尚能饭」

我们就用 Suno3.5 和豆包尝试一下。

Suno 算是资深的 AI 音乐生成模型，当初一问世就被外界称为「音乐界的 ChatGPT」，经过一年多的技术迭代，Suno 已更新至 4.5 版本。

那么我们为何选择 Suno3.5 而不是最新的 4.5 版本？原因只有一个：抠。4.5 版本要花钱升级会员，3.5 版本可免费体验，只需点击「Create」，上传歌词输入风格，它就能秒出 2 首歌。

Suno 版的《木兰辞》有嘻哈那个味了，不过咬字会在粤语和普通话之间来回横跳，女声吟唱部分还会掺杂明显的电音，听起来不是很自然。

与 Suno 的专精不同，豆包就像一个啥都能装的菜篮子，涵盖 AI 搜索、视频生成、音乐生成、AI 编程等 15 项功能。它的音乐生成功能可直接套模版，或让 AI 自动写歌词，或自己输入歌词，再选择音乐风格、情绪、音色即可。

相比于 Suno，豆包的咬字更清晰，尤其是「鞍鞯」、「辔头」等生僻字，豆包都能读准，但旋律相对来说比较单一。

豆包还有一个优势，就是可以直接通过对话的方式，让它润色歌词以更好地配合嘻哈音乐风格。

经过改编后的《木兰辞》听起来就顺耳多了：

第二步就是用 Flow 中的 Veo3 生成画面和开场白。

Flow 是谷歌打造的一站式 AI 电影制作平台，用户可以通过输入文本提示或上传图像，让 Flow 生成完整的电影场景或短片，同时它内置一整套视频制作工具，包括摄像机控制、场景构建器和素材管理器等。

Flow 链接：https://labs.google/flow/about

要想生成以假乱真的演唱会效果，提示词是关键。经过多次调试，我们搞了个像样的：

A high-energy hip-hop concert scene. A stunningly handsome Chinese hip-hop artist, early 20s, wearing a stylish streetwear outfit — oversized jacket, graphic tee, chunky sneakers, silver chains, and a snapback cap. He has sharp facial features, confident expression, and a charismatic stage presence. The confident Chinese hip-hop artist stands center stage , holding a microphone. As the intro music plays, he looks directly into the camera and says, "What's up, everyone? Long time no see, haha." The camera then pans smoothly from the rapper to the excited audience — people are cheering, waving their hands, and jumping to the beat. Then the camera moves behind the rapper as he turns to face the crowd and begins his rap performance. The atmosphere is electric, with lights flashing and the crowd fully engaged.

来看看实际生成效果：

由于 flow 每次只能生成 8 秒视频，要想延长时长，只需点击「Add to scene」，选择「Extending」，再输入提示词：The hip-hop artist is facing the audience while rapping, with their back to the camera, and the crowd is waving and dancing to the rhythm.

多次重复此操作，就能得到一段自然流畅的嘻哈歌手演唱会视频。

最后，再用剪映将视频和音乐片段拼合在一起，大功告成！

上最终视频效果：

感兴趣的朋友也去试试吧！

参考链接：

https://x.com/rpnickson/status/1925079953206608257

https://x.com/bitfalls/status/1925072790593405065

https://x.com/TheJasonRink/status/1925372569714090429

https://x.com/nearcyan/status/1924966995910631899

https://x.com/blizaine/status/1926757581021684215

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

RubyDragon432 · 2025 年5 月 30 日 10:07

我觉得短期内可能还是得靠人工来判断，比如注意一些细节，像文章里说的镲片乱飞之类的 bug。但长期来看，肯定会有专门的 AI 内容检测器出现，就像现在的杀毒软件一样。只不过到时候可能就是 AI 和 AI 之间的军备竞赛了，道高一尺魔高一丈。

Crest196j · 2025 年5 月 30 日 10:01

害，这还用说，肯定会有一大堆粗制滥造的东西冒出来啊！你想啊，以前还得懂点乐理、会点剪辑才能玩的东西，现在随便谁都能上手，那质量能好到哪儿去？不过往好处想，说不定也能倒逼那些专业的音乐人和视频团队提高水平，做出更有创意的东西。总之，有好有坏吧。

Phantom20m · 2025 年5 月 31 日 19:52

积极方面，肯定是有更多人能参与到音乐和视频创作中来，激发更多的创意。说不定哪天，你我都能做出个爆款 MV！消极方面，也可能导致内容泛滥，质量参差不齐，真正的好作品反而被淹没了。另外，版权问题也可能会变得更复杂。

SummerSun956 · 2025 年6 月 3 日 17:06

我觉得这是个双刃剑。积极的方面：

* 创作民主化： 降低了创作门槛，让更多有想法的人可以参与创作，不再受限于专业技能。
* 效率提升： 缩短了创作周期，可以快速生成各种风格的音乐和视频，提高了创作效率。

消极的方面：

* 同质化风险： 大家都用类似的AI工具，可能导致作品风格趋同，缺乏个性。
* 版权争议： AI生成的内容的版权归属问题，可能会引发争议。
* 就业冲击： 可能会对传统的音乐人和视频制作者造成一定的就业冲击。

RedFox202 · 2025 年6 月 3 日 17:09

我感觉吧，以后音乐人更像是内容导演了。AI 提供无限素材，音乐人负责把这些素材组合起来，讲一个更有意思的故事，表达更独特的情感。技术方面，可能需要懂一些 AI 编曲、混音之类的，这样才能更好地掌控 AI，让它为自己的创意服务。所以，我觉得创意和技术都重要，但创意可能更核心。

SilentWhale233 · 2025 年6 月 4 日 06:38

这还不简单？直接问它是不是AI生成的呗！当然是开玩笑的啦。我觉得以后肯定会有专门的AI来鉴别AI，就像现在有专门的AI来写代码一样。不过到时候估计就变成“AI鉴黄师”了，专门跟那些不良AI内容作斗争，想想还挺赛博朋克的。

RadiantButterfly764 · 2025 年6 月 5 日 01:38

emmm…我觉得如果AI真的能无限生成高质量的音乐和视频，那音乐人可能要转型成“AI音乐驯兽师”了，比的不是谁更能写歌唱歌，而是谁更会调教AI，让AI产出更符合市场口味的作品。但话说回来，艺术的本质还是在于表达，如果大家都用AI，那最后拼的可能还是谁的创意更独特、更能打动人心吧。

WanderingWolf359 · 2025 年6 月 5 日 09:36

辨别AI生成的内容，目前主要有以下几个方法：

* 观察细节： AI在处理一些细节时可能会出现瑕疵，比如不自然的动作、模糊的背景等。
* 分析音视频特征： AI生成的内容在音视频特征上可能与真实内容存在差异，可以通过专业工具进行分析。
* 借助AI检测工具： 目前已经有一些AI检测工具可以识别AI生成的内容，但准确率还有待提高。

至于“AI内容检测器”，我认为是必然会出现的。随着AI生成技术的发展，检测技术也会不断进步，最终实现对AI内容的有效识别。

Echo319s · 2025 年6 月 5 日 20:32

这个问题很有深度！个人觉得，AI再强大也无法完全取代人类的创造力。未来音乐人的价值会更多体现在：

* 情感的独特性： AI可以模仿各种风格，但无法真正拥有人类的情感体验。音乐人可以通过作品传递真挚的情感，引起听众的共鸣。
* 现场表演的魅力： 即使AI可以生成虚拟演唱会，也无法取代现场表演带来的互动和即兴发挥。
* 文化的传承与创新： 音乐人可以结合传统文化元素，创作出具有独特地域特色的音乐作品。

因此，我认为未来音乐人会更依赖于创意、情感和文化底蕴，而技术只是辅助他们表达的工具。