3*24小时crash率等。
二、技术边界
1.通用TTS
在用户预期不苛刻的场景(APP/硬件),能满足商业化需求,比如:语音助手/滴滴/高德/智能音箱/机器人),但如果用户预期非常高的话,是很难满足的,因为还是会有“机器感/机械感”,不能非常自然的模拟人声。
目前行业各家公司的产品效果差不多,都基本能商用。
2. 个性化TTS
在用户预期不苛刻的场景,能“基本”满足商业化需求,但是效果没通用TTS那么好。但如果用户预期非常高的话,暂时是满足不了的。
目前行业内能成熟商用的,主要还是科大讯飞,也有些创业公司在这个领域有所布局,如微量分贝(HEARD)这家致力于海量内容音频化的企业,对声音进行了分门别类的生成和储备,他们瞄准的企业级需求也会更为个性化、品牌化,诸如阿里巴巴旗下的“动物园”品牌(如天猫、闲鱼、盒马、菜鸟等),都会生成诸如“小猪佩奇”这样的角色化TTS 并被商用。
3. 情感TTS
目前业界的情感合成更多了,是因为数据本身变多了、更有节奏了,超过了传统的播音风格,但并不是真正的“喜怒哀乐”等情感合成(想高兴就高兴的这种智能)。
在情感TTS的理论方面,学术界是有储备的,但是,整个行业目前都没怎么做(或者没做好)。是因为情感TTS很依赖“情感意图识别”,“情感特征挖掘”、“情感数据”以及“情感声学技术”等,是个系统工程。
其中第1点,即是和自然语言处理相关,比如:需要知道“什么时侯该高兴或悲伤”;同时,具有情感演绎的语音数据的储备,也非常重要。
三、瓶颈和机会
主要有5个方向的瓶颈(同时也是机会)。
1. 基础技术
(1)TTS技术正处于重大变革:端到端(End-to-End)的TTS建模方法,加上WaveNet 的声码器思想,是未来TTS的发展方向。
端到端TTS,一般指tacotron,tacotron只是Google提出的合并了原先时长模型和声学模型的中段结构,可以接任何TTS前端和TTS后端。
- TTS前端,如:中文分词、注音、词性,都会提升tacotron性能;
- 后端,参数、拼接、wavenet都可以选用。
关于WaveNet技术的商业化:Google今年初将第二代WaveNet技术商业化了,速度比第一代快一万倍。而国内各家公司,基本也仿制出来了(论文算法),但工程化还需要时间,而且成本还是太高,短期内应该没法商用。
关于效果:TTS最终效果好坏,技术只占50%不到,在技术都差不多的情况下,声优质量和数据量最重要。其次是相同部署规模和成本的TTS才能相互比较,即,不能简单的说哪家公司的效果比另一家更好。
- 比如:拿百度/腾讯/阿里/图灵等很多家AI公司的WaveNet v1的效果,一般都能超过讯飞线上的接口,但部署成本高几万倍,且不实时。WaveNet V2商业化以后,虽然能实时,但部署成本至少也比高配拼接TTS高10倍左右。
- 成本,部分和采样率相关,例如:讯飞/百度TTS的采样率都是16k,如果用24k和48k,主观体验至少强50%,但成本会翻倍。也就是说,其他AI公司的24kTTS的MOS,能吊打讯飞/百度的API,但不能说他们的技术就比讯飞/百度强,因为在商业化时,会牺牲效果来降低成本。
(2)如何让离线版效果达到在线版水平?
很多客户希望(奢望)有离线版本,并且效果和在线版本一样好……
现阶段来说,可能真是“臣妾做不到啊”。
2. 数据缺乏
一方面,特别是个性化TTS,需要数据量更大。比如:默认男孩声音,要转成女孩,就比较难。
另一方面,数据的获取(制作)成本和周期,也是各家在初期的竞争着力点,比如:一般来说,一款(套)TTS数据,至少需要先录制2-3万句话,再加上数据标注,通常耗时在3个月以上(且需要主播全力配合)。对于30小时的数据,价格通常在30-50万,而上文提到的微量分贝(HEARD)这家公司,调动了8000+位优质播音人员,在给不同内容配音的同时,也做了大量结构化数据的存储(库存化)。
这样,针对大部分客户的数据需求,并不需要再找主播进行录制,而是直接从仓库调取数据进行解冻即可(数据标注)。通过将这种 “边进行业务边赚取数据”的流程标准化,其获取数据的成本大大降低到行业的五分之一 ,并且一旦有需求,可以在1个月内进行交付。
这家公司在南方搭建的数据标注工场的规模,也是巨大的,包括华为等公司都从其采购语音合成数据。
3. 人才匮乏
不仅没法跟NLP、CV等热门AI人才比,就算跟同样不算热门的ASR比,TTS的人才都还要少一些。
4. 产品化难度
由于技术限制,现阶段不可能有非常完美的TTS效果,所以
尽量选择用户预期不苛刻的场景,或者在产品体验设计时,管理好用户预期(比如:打车软件,郭德纲/林志玲的声音,差不多就行)。
选择“参数法”还是“拼接法”,和公司的技术储备、成本、以及产品目标相关。在垂直领域,现有的TTS技术(参数或者拼接)都可以针对产品做得很好。现在行业还没有太好的效果,很大原因是因为产品经理还没有深入介入,有很多细节的坑要踩(产品设计+工程化实现)——未来应该会有惊艳的产品出现。
体验细节设计,和一般互联网产品很不同,比如
- 文案设计,非常重要。因为在语音交互场景,不能太长,用户没耐心和时间听完的。
- 可以加入背景音乐,掩盖杂音等细节瑕疵。
- 特殊场景,还有特别的需求,比如:远场场景和戴耳机场景相比,还是会有区别的。
- 中英文混合TTS,比如:用户想播首英语歌曲,困难在于:所有中文的发音当中,中文和英文合拍念出来是很难的,为什么呢?因为往往录音的人,录中文是一批人,录英文又是一批人。两种语言结合起来,再用机器学习学出来,声音就会变得非常怪。这方面,小雅音箱曾经花了很大的精力和成本去“死磕”解决。
5. 商业化压力
如果要有足够的市场竞争力,至少需要12个月的时间,2~6人团队(如果有人做过前端相关工作,会节省巨大成本——工作量主要在中文前端NLP部分,比如:分词、注音、词性文本规整化等),几百万资金投入(1个GPU一年十万,支持并发只有几十个)。并且,大公司的先发优势巨大,小公司必须切细分场景。
我个人认为:个性化TTS、情感TTS会在各细分场景得到更大的应用,比如:知识付费、明星IP、智能硬件、车联网、实体/虚拟机器人等。
附:相关资料
1. 相关高校及实验室
语音合成涉及专业领域较广,包含语言学、听觉与发声机理、自然语言分析、深度学习、信号处理等诸多领域,是一门综合性学科。
国际上,英国爱丁堡大学Simon King教授,卡耐基梅隆大学Alan W Black教授, 日本和歌山大学Kawahara教授,谷歌Heiga Zen所在的实验室均为国际顶级实验室。
国内来说,中国学术届也一直走在行业的前列,国际语音合成挑战赛blizzard challenge已经连续10多年冠军在中国。
国内大部分的语音合成人才,均来自于中科大、中科院自动化所、中科院声学所、清华大学、西北工业大学等几家单位,比如:西北工业大学的谢磊老师组,已向语音合成届输送了大量人才,在微软、百度、搜狗、小米、IBM、讯飞、流利说、出门问问、猎户星空、同盾等公司的核心岗位上,都有来自西工大的学生。
2. 参考文章
- 《目前,人工智能语音在说中文时的语气感觉上还比较机械,怎样使人工智能语音的语气更自然一些?》
- 《如何评价谷歌下一代语音合成系统WaveNet?》
- 《TTS(Text-To-Speech)的原理是什么?》
- 《百度Deep Voice作者与Bengio团队探讨五大技术细节,端到端的语音合成还有多远?》
3. 相关产品
讯飞配音app、讯飞朗读助手app、闪电配音等。
4. 有趣视频
《武汉地铁语音播报已逆天,这是要称霸全国的节奏啊》
#专栏作家#
hanniman,人人都是产品经理专栏作家,前腾讯、现创业公司PM;专注于人工智能领域的产品化研究,关注人机交互(特别是语音交互)在手机、机器人、智能汽车、智能家居、AR/VR等前沿场景的可行性和产品体验;擅长对创业团队管理、个人成长提出实战型的建议方案;知乎/简书/微博帐号,均为hanniman。
题图来自 Pixabay,基于 CC0 协议
1.文章《【拼音ai】语音合成TTS | AI产品经理需要知道的AI技术概念》援引自互联网,为网友投稿收集整理,仅供学习和研究使用,内容仅代表作者本人观点,与本网站无关,侵删请点击页脚联系方式。
2.文章《【拼音ai】语音合成TTS | AI产品经理需要知道的AI技术概念》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
相关推荐
- . 现代买票为什么带上携程保险
- . 潮阳怎么去广州南站
- . 湖南马拉河怎么样
- . 烧纸为什么到三岔路口
- . 百色为什么这么热
- . 神州租车怎么样
- . 芜湖方特哪个适合儿童
- . 护肤品保养液是什么类目
- . 早晚的护肤保养有哪些项目
- . 女孩护肤品怎么保养的最好