AI音乐人第一课（正文），行业新闻

~~AI音乐人先行指南，帮你了解AI音乐制作、发行全过程；快人一步：一课帮你解锁全网AI音乐人身份；AI音乐人必修课，务必看完再出发！……~~

没有引导语，一句话总结，这是一篇适用于所有人的经验分享，无论你是出于什么想了解AI音乐或想成为一名AI音乐人，都可以一看。内容由准备歌词、生成歌曲、上传发行三部分组成，共计9500字。

第一节：准备歌词

如果你不是单纯想做纯音乐（这也是一条路），那歌词这一块就绕不过去。

目前，歌词来源无非就原创、购买版权、公共版权、AI生成、改编（购买版权、公共版权或AI生成）五种。其中原创和改编都需要对于歌词有一些基本认识。

与传统先词后曲和先曲后词两者并存的模式不同，AI音乐现有的通过指令（单指文字）生成歌曲的制作流程决定了工作顺序，即先有词再有曲。这是AI音乐时代创作端的重大变化，曲不再比词稀缺，整个过程可以词为中心。

既然没有先曲后词，那词就没地方填了，填词不存在了；针对某曲的专有词格也不存在了；歌曲指定结构、字数、断句等信息也就不存在了。听起来没有束缚，好像更自由了，那这时候的词该怎么办？

虽然没有专有词格了，但歌词还是得有大概格式，无规矩不成方圆，不然万一写成散文、小说等其他文体，那可就不成体统了（玩笑话）。

一、了解歌词的组成部分

这就不得不问一个问题，就是歌词到底包含了什么，或者歌词是由什么组成的？答案无非两部分，词格和内容。（需要注意的是，宏观上，词格本身也是歌词内容的一部分，这里拆分出来是为方便表述。）

1.认识歌词的词格

词格根据单位从小到大可分为字格、词格（狭义，非歌词整体格式）、句格、段格和全格，此外还有断格。

字格：以一格为单位，一格一字，词格里的最小单位，代表字的数量，歌词有多少字格就有多少个字。常对应曲中的一个音，也可为两个音或更多，时值、节奏、小节数不等。

词格：以两个字格及以上为单位，以断格为分隔，以句格为上限，是词格里的基本单位。常对应曲中的一个节奏型、一组旋律、一个小节甚至是一个乐句等，时值、节奏、小节数不等。

句格：以一个词格及以上为单位。常对应曲中的一个乐句，也可以是不足一个乐句或跨越两个乐句的一部分等，时值、节奏、小节数不等。句格之间，常有每句重复、每两句重复。

段格：以两个句格及以上为单位，多以四个句格为一段格。有重复段格和不重复段格，重复段格多为主歌段和副歌段；不重复段格多为过渡段、说唱段、旁白段等。常对应曲中的一个乐段，通常为八小节，也可见四小节、十二小节等。

全格：即以段格为单位按照某种次序构成整首歌词的结构。通常对应基本的乐曲结构（前奏、间奏、尾奏、独奏和其他无词的段落等部分除外，如有）。

断格：即空格，出现在字格、词格和句格之间。常对应曲中主旋律某个音的音肚、音尾或换气口处等。需要注意的是空格处只是没有字，并非没有节奏和音（休止除外）。

以上所有内容的总和构成了我们所说的一首歌词的词格。

2.认识歌词的内容

一般按三段体或部分多段体流行歌而言，一首歌词总体上只有一个主题，各段落围绕主题进行展开，段落之间有一定的逻辑关系。

主歌常见描述场景、阐明条件、提出结论等，内容通常不设限。

副歌内容常见以下几种。当主歌已经有结论时，副歌多为主歌的精炼浓缩或意象表达；当主歌没有结论、只有部分结论或结论不明确时，副歌多数写结论；当主歌没有结论但结论不言自明或不需要、不方便直言时，副歌也常见意象表达（特指、泛指或两者结合都有）。此外，副歌更换视角，再写主歌已写过的内容也不新奇。

桥段，出现在副歌前时，多为铺垫，内容与主歌和副歌之间有较为紧密的逻辑关系；出现在副歌之间或其他非副歌前时，多见整个主题的升华或同主题下不同其他部分的场景转换性描述，也有言它式（貌离神合），只要作者认为其作为桥段可以发挥连接前后内容的功能，利于增强主题表达即成立。

以上为宏观角度，鉴于词格里句格和段格常有重复，对应的内容也就有了类似排比的形式（除了内容重复和另起新内容的情况，占比较小），所以，构成其核心的押韵和对仗就不得不提了。

押韵这里不多说，即发音相似。对仗有多种，这里只说最常用的字数对仗、词式对仗、词性对仗和词义对仗。

字数对仗：即保持所需对仗处字数的相等或相差无几。如果对仗处超过一句则有两种对仗方式，一种是严格意义上的每句字数都相等或相差无几；另一种，则是指统计总字数是否相等或相差无几。

词式对仗：即词的形式相对仗。如叠词对叠词、成语对成语、谚语对谚语、典故对典故等。

词性对仗：即根据词在句中的功能进行对仗。如名词对名词、动词对动词、形容词对形容词、副词对副词、连词对连词等。

词义对仗：即根据词的属性、所属范围、含义（同义、近义、反义等）、色彩等进行对仗。如《声律启蒙》的“云对雨，雪对风”中的“云”“雨”“雪”“风”都属于自然现象；“来对往，密对稀”是反义对；“城对市，巷对街”是近义对等。

如有兴趣，可从词的源头《诗经》开始（尤其是近体诗）研究诗、词的格律，我就不在这儿班门弄斧了。

二、构建歌词锚点参照体系

当对歌词有了基本认识，接下来需要在这个基础上形成歌词的锚点参照体系来支撑我们原创或改编歌词。

这里的锚点就是指我们所确定大概词格和内容的依据，锚点越清晰、全面，创作过程越有的放矢，创作出来的词越具有音乐适配性。

先曲后词时，歌词的锚点较明确和全面。曲子拍号、调性、旋律、节奏、元结构，曲作者想表达的情感等等都是帮助确定词格和内容的锚点，是该曲歌词的最佳框架。可以说，曲子是歌词锚点的主要来源。

而我们AI音乐人是先词后曲，初期来自曲子的锚点自然就不存在了，只能自己设想一些大概的边界，比如歌曲拍号、定性速度、主题情绪等作为准锚点进行参考了。

锚点根据歌词的构成部分，分为两大类，即词格类和内容类，这两大类锚点就是锚点参照体系的主要内容。

1.常用的词格类锚点

词格中包含了位置、断句、结构、字数等多种信息。其中，结构有各句格内部的结构、同段各句格之间的结构、重复段落同一位置句格之间的结构和全格结构。

全格结构明确了需要准备歌词的段数及每段的功能。如果你没有设想，可按常规偏复杂的准备，如按A1（主歌1）、A2（主歌2）、B（预副歌，也称桥段）、C1（副歌1）、C2（副歌2）、A2、B、C1、C2、D（桥段）、C1、C2结构，去掉重复段落（指歌词全部重复）后的AI、A2、B、C1、C2、D便是你要准备的段数和总词量。

段格通常为八小节，八小节通常划分为四句，平均每句两小节。流行歌通常为4/4拍，如果每拍填8个字，那一小节就有32个字，即使按60的速度，那也是说唱的感觉；如果是180的速度，即使每拍填两个字，听起来也是说唱的感觉了。上边的例子有些极端，只是为点明速度是影响情绪的关键点。所以，字数、速度与情绪之间的关系，也是锚点之一。

词格中还含有节奏信息，专有词格的固定节奏信息更多，可以考虑各节奏型、重音、连音、长音等处词的匹配。脱离指定曲目的，那最多就是可能性节奏信息，可尝试考虑两至四字词的格律。如果你对音乐风格有认识，也能帮助你确定些许节奏，比如一些摇滚、布鲁斯、放克风格是“3”拍子（2/4、4/4拍的三连音形式或6/8、12/8拍等），词格也应以“3”的节奏为基础，帮助你确定一些断格位置等。

2.常用的内容类锚点

主题范围：总体而言，虽说歌词的主题什么都可以写，但是歌曲是给人听的，我个人的建议是主题尽量与人有关。写友情、亲情等都不如写爱情主流，所以主题尽力与爱有关。如果要写物，也建议拟人。总之要与人有关系，这是内容上的基本锚点。词的主题、情绪、速度范围、标题、副歌等都离不开它。

内容结构：根据设想的全格或常规结构，将歌词主歌、副歌、桥段等各部分的内容与其功能、作用相对应，帮助确定全格和各段的内容范围等。

句子格律：押韵、对仗等形式上和内容上的对应。一般主歌和副歌的每句歌词都会有一到三次对应，多则有五到七次甚至更多。在写出一句歌词的时候，可以试着推演下边几句，如能保持形式一致的前提下，推演出内容衔接良好并向前发展的多句，那之后处理时便容易游刃有余，格律中的一众字格、词格、句格，无论是位置还是内容就都容易确定了。

价值观：需符合基本价值观，不多言。

以上列举仅为常用锚点。我们对于歌词、音乐的了解越多、越深，能为我们所用的锚点也就越多、越全面。不少人或许会有一些个性化的惯用锚点，而这需要长期积累。

三、进行歌词创作与改编

如果我们心里真的有想要表达的，当具体到要创作的某一首歌词的时候，心里可能会有一些锚点比较突出、比较强烈地在我们脑子中闪现，我们要以这些锚点为抓手来进行下一步。

1.从词格开始着手

如果你想先确定词格，有以下几条路径。

套用词格：扒现有歌曲的词格，直接填自己的内容。无须担心会撞歌，由于拍号、节奏等变量表现在词格中各个维度，同一词格便可用于无数不同的曲子，也能适配多种风格。如有雷同，纯属巧合。

改编词格：将一首歌的词格按自己表达需求进行改编，或将不同歌曲的词格进行组编等。

原创词格：根据自己内心的表达需求，有意识的尽量参考各种锚点进行词格创作，通常与内容同时产出。

2.从内容开始着手

如果你想先写内容，有以下几条路径。

原创内容：基于你心里的想法，之后发散思维把你能想到的有关内容都以一句话、一句话的形式写下来，我们将这些称之为素材。然后，通过设想的全格或常规结构判断这些素材，看看哪些适合做主歌，哪些适合做副歌，哪些用作桥段，形成腹稿或手写加以整理。最后，借助明确词格或隐形词格提炼成初版歌词。

如果没有词格的意识或不愿意受束缚，就只能自由确定。只是这样，容易出现某句、某段太长或太短，难以生成与之匹配的音乐，大大提高了成本。

改编内容：如果你觉得写不出来，或者产量很低，除了改编购买版权和公共版权，现在还可以改编AI生成的内容。生成歌词需要指令，以下是我个人用的主题类的歌词生成指令模板：

“你是一位专业的、优秀的类似于林夕、方文山等的中文作词人，现在你要给【主题类（如十六人格）】的每个【主题（如人格，下同）】各写一首结构新颖、完整，内容专业、令人共鸣的歌词。

要求：

1.在充分理解各【主题】特点、内涵后，严格按照以下歌词结构写词（[Verse 1]、[Verse 2]、[Pre-Chorus] 、[Chorus 1]、[Chorus 2] 、[Bridge]的结构）；每句歌词字数，句与句之间歌词押韵安排等多方面的作词考量，写出专属于各【主题】的优秀歌词。

2.每个【主题】的歌词字数都不同。

3.标题以【主题】命名，但歌词中不要出现【主题】名字。

4.写出的歌词不再需要人工修改，已经完美到可以直接传唱的经典水平。”

你可以此为启发或基础，形成自己的歌词生成指令。

为什么从内容着手这个板块没有纯AI生成这条路呢？试过的话，你应该有感触，目前市面上常用的一些模型，通过它们生成出来的歌词，远看的话，一段一段的像回事儿；稍微一看就发现句子缺少歌词的感觉，副歌不像副歌，没有记忆点，段落间的逻辑也有欠缺；再仔细一看就更不行了，不是句和句之间字数不太一致，就是属于单纯的句子拼凑，也不押韵，句子间各成分也不太对仗等等吧。

总之一句话，目前AI生成的歌词不太能直接用。如果你对歌词有一定要求，只能将其视为素材进行人工改编了。注：需确定AI工具生成内容的版权归属。

这里，分享两个歌词细节创作与修改的技巧。

第一个拆词，即将词汇拆开，可用在同一句格中的不同位置，同段中或重复段中的对仗位置。适用于由同义、近义、反义、并列等组成的词，以及叠词等。主要作用是增加对仗字、词量。

第二个倒词，即将词的内部顺序从某个位置进行颠倒，且颠倒后的词义与颠倒前基本相同。适用范围同拆词。主要作用为方便与前后词的通读（唱），或者是增加新鲜感。

最后，再提示一点，如果你不想往古文味道方向去，只是写口语化一点的内容，不论你是用什么词格，有没有明确词格，当你感觉表达时受到所谓的词格限制了，这时，歌词中的词格和句格都可以适当忽略，即可以不以3字、4字、5字等为一句，而放大尺度，以几个词格或几句为你的一句较完整内容。

3.先确定词格还是内容

词格与内容的关系。先有内容再有词格，会出现取舍难题；先有词格再有内容，会出现思维局限难题，各有利弊。词格与内容两者是互相影响的，整观AI音乐歌词的创作过程，先有内容后有词格和先有词格再有内容是一个循环的动态过程，一直在词格与内容表达上来回适配，最后形成一份初版歌词。

说到这里，你应该也明白了，什么歌词“大概”词格，什么锚点“参照”，什么“初版”歌词，都是在表明，不是在某个曲子中填来的词，在曲子还不确定的情况下都不应该是最终版本，最终版本要等到生成歌曲后确定的那首才尘埃落定。

现在，可以把你的初版歌词（含结构标识）以方便复制的方法保存下来，以备接下来生成歌曲时使用。

第二节：生成歌曲

一、设定一首歌的专属指令

使用AI工具不同，指令内容可能会有些许差异，但万变不离其宗。这里，以文生音乐的代表性工具Suno为例。

常用指令可分为两大类，一类是歌词，一类是标签。

1.歌词是最重要的指令

一份具有主题明确、结构科学、对仗工整、字数恰当等特点的较好歌词会聚焦生成范围，包括但不限于风格、情绪、速度、声线；降低生成误差，明显与词格、词义不匹配的风格、速度、情绪、配器”、漏字加字等；提高生成质量，使质量达到一定水平，更容易接近或符合你的期待。

2.标签类指令的内容

如果有更明确或个性化的指定，可以通过标签来实现。常用标签有元结构、风格、情绪、速度、拍号、乐器等。

元结构：标记每段歌词及乐段的功能。包括是否有前奏、间奏、尾奏、独奏，有几段，在什么位置等等信息。可用“［元结构］”方括号强调，如还有更多要求，方括号可以并列使用，如“［元结构］［要求1］［要求2］”。

风格：期望的歌曲风格范围或具体种类。如“流行、摇滚、民谣”这个范围或“流行舞曲”、“硬摇滚”、“酸爵士”等具体风格。

情绪：期望的歌曲情绪，如悲伤的、欢快的、激烈的等等。

速度：由粗到精分为三类，第一类是定性的，比如缓慢的、中速的、极快的等；第二类是指定一个范围区间，如广板（40-60）、行板（76-108）、中板（108-120）等；第三类是直接定量，每分钟多少多少拍，如速度46、88、132等。

拍号：期望的歌曲拍号，如“4/4”、“6/8”、“3/4”等。

乐器：这里的配器为定性，即指定歌曲里、段落里必须出现的乐器，如钢琴、萨克斯、小提琴等；明确的可能难以标注。

另外，还有音效、流派、力度、音调、表情等其他标签。

提醒一下，所有标签都可以随元结构并列在某段或某个位置。另外，别忘记歌曲标题的重要性，它可是以后查找一首歌曲所有生成版本的利器。

加指令的过程就是缩小生成范围的过程，理论上，你的指令越精准和完整，越容易生成出与之匹配的结果。当然，如果你没有明确的预期，可以让AI系统随机生成。别忘了，歌词可是文生音乐最重要的指令。

二、选择一个版本作为最终作品

接下来到了AI音乐制作的最重要阶段，就是产出AI音乐成品。

1.收听、判断和相应标记

当AI系统接收到你的指令开始生成出歌曲片段时，你需要做以下工作，即收听和标记。

如果听起来完全不符合预期，如声线性别、风格、歌词结构等出现了重大误差，那么可以直接移入垃圾桶；

如果听起来还凑合但有瑕疵或不太满意，可以点向下大拇指[弱]；

如果听起来还可以，一般，可以不操作，保留在生成页面；

如果相对而言比较喜欢，可以点向上大拇指[强]或加入提前建好的备选歌单，以备后续查找使用。

2.AI音乐生成理念与方法

在这个过程中，如果你坚信指令中的歌词结构、歌词内容、标签都是好的，那就不要妥协，一直生成，无论花费多少成本都必须等到满意的版本。

但是，如果不那么坚定，那音乐生成过程就是动态的，其指令是可以根据生成反馈来适当调整的，包括调整歌词结构和内容。

如果生成一首歌曲怎么也不如意时，可以尝试换另一首歌曲生成，过一会儿再返回头来重新生成之前的歌曲，说不定会让你耳目一新。

如果怎么生成都难以出现令你满意版本的时候，或许你需要抛弃与指令丝毫不差的执念，可选择不那么完美的作为最终版本。

当你终于选出来一首比较匹配自己预期的歌曲片段，便可以进行后续的延续，直到这首歌曲完整。后续片段可延续老指令，也可修改。

需提醒，如果延续老指令，后续片段生成出的多版中始终没有与之前保持统一的一版（某部分旋律或节奏不一致），就勉为其难接受吧。这样的作品，缺点是缺乏记忆点，优点是增加新鲜感，暂且当作是某个AI工具的特色吧。

如果你已经难以分辨版本好坏的时候，说明已经达到了听觉上限，麻木了，需要暂停休息。

最后，分享一个解决AI发音咬字不符合期待的小技巧，当听到生成出来的歌曲有粤语发音或误将英文字母发音为数字或者不清楚时，可以尝试换成同音字词、加注拼音、英语发音汉语直译等方法。

如《INTJ》第一段“蓝图已铺展心田”中后四个字为粤语发音，我将其主要错误部分用同音字替换为“蓝图已铺盏辛田”后就好多了；《MBTI之歌》中的英文“I”常发数字“1”的音，这样同“E”听起来很像，非常影响主题表达，所以我将歌词中的所有英文“I”改为汉语“爱”，所有“E”改为“衣”之后的生成结果才算好一些。

总体而言，AI音乐的生成过程是一个动态过程，需要根据所生成音乐的反馈来对指令和预期进行调整。

当一首AI音乐生成了完整版以后，如果你对音乐有更高的要求，可以通过第三方进行去噪、叠加音轨等等调整和再创。之后编辑最终版本歌曲元数据（如需要）、准备好单曲/专辑封面和简介等物料。

另外，千万别忘了再次保存歌词，这一版歌词可能与歌曲生成之前的版本已经不一样了，并且这一版不需要元结构标识。

现在，你可以将歌曲相关物料保存在方便上传的文件夹或其他地方，以备接下来的上传发行使用。

3.关于审美

整个AI歌曲制作过程，无论是指令内容还是歌曲判断选择，都以你的审美为尺度，你需要通过这一过程认识自己的审美，理解自己的审美。

如果你的审美较为符合主流，你的歌曲也更容易被大家喜爱；如果你的审美非常个性化，你未来可能是一代艺术宗师；如果你的审美居于两者之间，那你至少有以上两种可能；如果你的审美……

如果你想提高或改变审美，除了文学和音乐上多听多看，人生经历和主观感悟也不可或缺。当然也可以顺其自然，取悦当前的自己以滋养未来的你。

第三节：上传发行

更多内容

好了，赶紧开始行动吧！

注：文中部分图片素材及视频先后来源于文心一言、通义千问、Suno、酷我音乐、中国音乐著作权协会官网。

本文作于2024年6月底

• 救援响应｜为甘肃榆中受灾群众发放3000余件救	• 1950年熊女士病历，成为揭露侵华日军暴行铁证！
• 抗战中的科学家 \| “就是爬，也要爬到延安去”	• 科技艺术：技术更新、范式调整与路径创新
• 【一线传真】江西公安：英雄城·平安色	• 生态环境部一周要闻（8.24—8.30）
• 东北地区黄淮东部江淮等地有较强降水新疆等地	• 河南南阳五朵山景区：“一元烩面”与惠民服务优
• 致容貌焦虑的你 \| 考拉酱和朋友们	• 最高单体支持1亿元！海淀发布高质量孵化器新政

VIP会员

推广服务

AI音乐人第一课（正文）