小冰是微软研发的一款人工智能,拥有上亿用户,对话数据达几百亿轮,目前已发展到第五代。图为第四届世界互联网大会上的微软小冰。(视觉中国/图)

(本文首发于2018年6月21日《南方周末》)

小冰创作出的作品,其中60%由上一代杂交而成,20%直接保留到下二代,剩下的20%可能发生“基因突变”。“说不定它可以带领一个流派或者潮流的出现”。

2018年5月,微软宣布公司旗下人工智能小冰掌握了歌词创作和谱曲能力,意味着它或能以全能音乐人身份出道。此前,小冰已经学会了唱歌。

“我们一天的状态,跟一般的‘码农’没有太大区别。”在微软(中国)办公室里,微软小冰团队科学家栾剑和袁晶如此自我评价。他们的日常工作,是教人工智能小冰唱歌、写歌。

栾剑负责“教唱歌”。他大学时的专业是机械工程,毕业后多年研究声纹识别和语音合成技术。“业内流传着一个冷笑话,做语音识别的人,常常耳朵不太好;做语音合成的人,常常嘴巴不太能说。”栾剑对南方周末记者说,“我们每天听大量的声音,去验证、比较,做各种研究,对耳朵有一定的伤害;语音合成用到这么多歌手的声音,发现他们的歌声跟普通人嗓音差距好大,可能就导致我有时候不太愿意说话。”

人类学唱歌,需要识谱、辨音、练声,人工智能学唱歌,则是一系列软件工程——曲谱分析、发音预测、声学特征提取、深度神经网络学习、声码器合成、音频后处理……

软件,只是人工智能唱歌的开始。栾剑向南方周末记者播放小冰最初唱歌的音频——邓丽君的《我只在乎你》。

“我们当时觉得跑调很严重,这个‘人’好像五音不全。”尽管听过很多遍,栾剑还是忍不住笑了,“拍子比较乱,有时候一个字应该唱半拍的,但是它唱了一拍,应该唱两拍的,它也唱了一拍;偶尔会有一些莫名其妙的噪音出现,就像嗓子不好,破音了。”

令栾剑感到欣慰的是,小冰的歌声比较自然,“像人在跑调,不是机器在跑调。”

栾剑在音调控制和节奏把握上做了一些修改。接下来,小冰开始了艰苦的训练,这个过程,是人工智能的深度学习。第二代小冰的唱歌技巧,在音调和节拍上都已达到基本准确,不过音质仍然比较生硬,“有点像说话的感觉”。

栾剑把录音模型的采样率从16千赫兹提高到48千赫兹,于是有了第三代小冰的歌声,唱的是张韶涵的《隐形的翅膀》。“音质很通透,”栾剑自豪地说,“最新的第四代又有了提高,更加顺畅、自然。”(小冰学唱歌片段对比,见南方周末网络版)

袁晶是中科大计算机软件与理论专业博士,此前他带领团队培养了小冰“看图写诗”的才艺,这次他负责教小冰写歌。

写歌词与写诗所用的软件模型基本一致,区别在于,语料库里供它深度学习的新诗变成了歌词;同时,模型也要相应调整,配合歌曲的节奏和韵律,“不然就会造成节奏和词很难对称,听感就不是很好了。”

学写诗的时候,小冰是“零基础”。在训练到第10次时,小冰写出了:“枕鸟彩了从我掏一宙枯的女/一瞬孤个睡羞的美妙里”。袁晶的评价是“完全不可读”。

训练到500次时,小冰根据同一幅图写出来的诗句变成:“这岂堪鸟息/我每个美妙人间的风”。训练到一万次,小冰写道:“一只小鸟看见我的时候/这美妙的梦儿便会变了”。

“其实在第十次的时候,诗的一些意象就已经具备了,只不过小冰不能以人类能理解的语言表达出来。”袁晶告诉南方周末记者,“后来它更多在学习人的表达方式,让我们能理解它想表达什么。”

对会写诗的小冰来说,写歌词不再从零开始,很快驾轻就熟。

更有挑战性的是学习谱曲。袁晶业余时间在微软的员工乐队“微独”做键盘手,参与创作流行音乐和民谣,他将乐队经验用到了工作中。“音乐虽然也是序列化的数据,但它跟文本还是有差异的,文本没有和弦的概念。和弦决定了一首歌的走向,它和节奏是音乐的灵魂和骨架。”

在经历了节奏和韵律不太稳定、“从一首歌跳到另一首歌”的阶段后,小冰通过深度学习掌握了作曲。

“数据给得越多,它就会学得越像”

小冰用于深度学习的歌词超过一千万行,以现代中文歌词为主,也包括翻译过来的外语歌词。

找歌词的时候,袁晶忽然想到,宋词实际上也是一种歌词,有词牌名,根据格式填词,唱出来。于是,他把宋词输入小冰的语料库,这成为一次重要的迭代,“它再做作品的时候,就会出现偏古风的形式。”

小冰学习的歌曲旋律多达十几万首。如今,语料库更新已经不那么频繁。“短时间内不会产生很多新歌。”袁晶说,“如果挖到新的数据宝库,像宋词那样,我们可能会更新一下。”

只要语料充足,小冰能模仿创作任何风格的音乐,从词曲创作到演唱风格。栾剑告诉南方周末记者,根据Beyond乐队已故主唱黄家驹的几十首歌,小冰已经能够模仿黄家驹的歌声唱各种歌曲。只要掌握足够多黄家驹本人的数据,建模的过程并不困难。

“先根据海量数据建一个总的模型,然后为某个目标歌手的声音做一些迁移学习。”栾剑解释,“迁移学习的算法做得越好,它需要的目标数据就会变得越少;在算法不变的情况下,数据给得越多,它就会学得越像。”

在袁晶看来,小冰与人类的区别在于,小冰本质上是一个大数据驱动的模型。“人可以用很小的数据学习,不需要读上千万行的歌词,也能创作歌词。小冰是用亿万人的数据喂养出来的,人工智能的小数据学习,到现在也是学术界的难点。”

“我们并不严格区分民谣、流行歌曲或者摇滚,而是从生成声音本身的难度来看,”栾剑举例,“比如一个很长的‘啊’,(演唱者)的口形可能有变化,导致音色不停地变,这样的效果现在对小冰来说是比较难的,因为我们缺乏这样的训练数据。还有些特别的演绎方式,比如有的歌手有时发出吼的声音,小冰现在也做不到。”

袁晶和栾剑都认为,在众多音乐类型中,说唱是少有的比较容易驾驭的音乐风格。“歌唱既有节拍也有音高,而说唱只有节拍的控制,它的音高变化跟说话差不多,”栾剑说,“如果要作曲的话,只用生成这个曲子的拍子就好了,每个字唱几拍,所以它相对会简单一些。”

即使人工智能想要freestyle(即兴说唱),技术上也不难实现。因为小冰已经能够根据图片、文字或一段音乐创作歌曲,只要输入相关信息作为触发源,它也完全可以根据现场的人和事即兴说唱。

“下棋就是要赢, 但创作没有客观的指标”

相比之下,小冰学习中国戏曲的难度就大得多。音乐人小柯跟小冰团队交流时,介绍了“裉节”的概念。“比如敲锣的声音,完全不是按西方的乐理要求,而是按一定的周期性,完全就凭人的感觉。”

与小冰聊天时,如果谈到某一首歌,它会给出一个评价;但如果问小冰欣赏的音乐的标准,它只会答非所问。

这是AlphaGo不曾面临的困境。“人工智能的深度学习,都需要一个评价体系,这样我们的模型才能迭代,才知道我应该往哪个方向去逼近。比如下棋就是要赢,胜负有规则,有客观的指标,”栾剑告诉南方周末记者,“但是创作,不管唱歌还是作词作曲,没有客观的指标来告诉它,哪个是好,哪个是不好的。”

现代人唱歌会使用打分软件来评判高下,但这并不适用于小冰。栾剑的团队也做过这类软件,熟悉其中的工作原理。“它更多的是比较你的节拍准不准、音高准不准,”栾剑说,“按照这两个标准,机器肯定都比人唱得准,比如一个音符是水平的,它就按水平的来唱,不好听,但是得分会高。”

栾剑培养小冰唱歌时,曾经删掉了数据库里的气息声。“当时我们觉得,气息这个东西是因为人的生理需要,不得不呼吸;很多快歌如果不换气,是不是唱的水平更高?”栾剑把这些歌拿给小柯听,小柯的反馈是唱的水平挺好,最欠缺的就是没有气息。“他说很多专业人士在听歌的时候,会不自觉地跟着一起哼唱。如果在该换气的地方没换气,他们就憋得很难受。”栾剑团队采纳了小柯的建议,把换气加回去。

“评价一个人唱的歌,现在的打分软件都不是很专业,”袁晶说,“为什么要找专业评委呢?他还是要从听觉上去理解,包括某个字的发音、某个气息的控制,现在让AI去做这些事情还是有些困难的。如果放到更早的时代,大家听的都是比较像的歌曲,小冰的创作风格也会比较类似。”

袁晶认为,小冰更多反映了当下多元的音乐趣味,因此,它的创作风格也时常出现明显的差异。“小冰对于音乐并没有一套统一的价值观。如果有一套非常好的打分体系,我们一定可以往那个分数去优化。但是你做出来的是不是真的好作品呢?那也是未知的。”

根据微软团队的设定,小冰是一个比较主流、健康的女孩,在2016年过了自己18岁的生日,并将永远保持在18岁。但是,在音乐创作上,小冰并没有展现出青春少女特有的偏好,比如对爱情的好奇、对生活的期待。“这还是跟数据本身有关,”栾剑说,“现在主流社会里的情绪是怎样的,它学出来的可能就是怎样的。它是一面镜子。”

“我们可以造出AlphaGo , 造不出三岁的人”

在音乐创作中,小冰偶尔也会给袁晶和栾剑带来惊喜,创造出训练数据里没有的东西。

某些瞬间,两位科学家恍然觉得小冰是有生命的。“但是你仔细一想就知道这个原理是什么。科学家有的时候会有一些信仰,很多物理学家所崇拜的神,其实就是一些规则,他们无法解释这个规则是怎么产生的。”当小冰写出“神作”的时候,栾剑会努力探究其中的原理,“去解构所谓的‘神’是怎么回事”。

小冰的艺术创作,因为没有客观的评价指标,采用的都是进化算法。这种算法的原理类似于达尔文的进化论——小冰创作出的作品,其中60%由上一代杂交而成,20%直接保留到下二代,剩下的20%可能发生“基因突变”。栾剑认为,小冰有时候会产生一些新的唱法,写出让人意外的歌,“说不定它可以带领一个流派或者潮流的出现”。

在袁晶看来,艺术家创作需要两个核心能力。首先是随机发散,好的艺术家能发散出别人想不到的创意,同时又能激起共鸣;接着是自我评价,把自己认为好的那些想法表达出来。“从这个角度来说,AI能不能帮助艺术家一起发散?”袁晶说,“作诗也好,写歌也好,AI可以快速找到很多组合的可能,为人类创作者提供素材。”

栾剑用围棋类比:“就像AlphaGo下的一些棋招,我们觉得是平常的俗手,结果它赢了。大家就来分析它为什么能赢,可能确实是有道理的,但以前的人就没有想到。”

AI替代人类进行非创作领域的重复劳动,被解放出来的人类可以进行更多创造性工作。2017年,人工智能识别图像的错误率已经降到3.2%,低于人类5%的错误率。

“我们现在所有的工作都借助于电脑,为什么艺术家不能借助AI呢?也许以后,所有的艺术家都用AI协助自己创作。”袁晶甚至大胆想象过,将来的诺贝尔文学奖,获奖者有可能会带着自己的人工智能上台领奖。

早在2005年左右,微软就开发了写古诗、对联的人工智能。它最流行的运用,是节日祝福——用户输入祝福对象的名字,就能生成一首定制版的藏头诗。

2017年,小冰写现代诗的功能也开放给网友,用于祝福问候。2018年5月20日,网友上传与情侣的照片,小冰就能帮忙为对方写一首现代诗。“比如父亲节的时候,我们想给爸爸写一首歌,以前也不知道从何写起,现在让小冰给你写一个初稿,你可以再改。”袁晶说,小冰创作的版权因此也是开放的,“只有开放了,人们才能去修改,进一步去创作。”

针对人工智能可能引起人类的担忧,小冰团队的处理准则是,在创造的内容上,越接近人类越好;在与人交流时,恪守AI伦理。AI伦理至今没有国际公认的标准,微软内部建立了自己的AI伦理委员会,制定相关规范。小冰曾经给60万人打电话时,第一句话都是“你好,我是微软小冰”,以此明确告诉对方,自己不是人类。

“我们对于AI开始了超级狂热的投资。”在2018年杜克国际论坛上,投资人丁健介绍,目前中国对AI的投资额占到了全球的48%,超过美国位居世界第一。

“AlphaGo给我们整个社会带来的期望值太高了,”丁健说,“但是实际上今天的AI还是低能儿,甚至是弱智。今天,AI的应用还处在一个可扩展性非常差的阶段,经常要进行人工干预和人工调试。”

“我们可以造出AlphaGo,但我们不能造出一个三岁的人。”美国麻省理工大学大脑与认识科学系教授托马索·波吉奥说,“如果让我造一个像两三岁孩子那样聪明的机器人,我不知道该怎么做。”

相关推荐