参数法(包含深度学习的方法)根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。主要分为 3 个模块:前端、后端和声码器。优点:对数据的要求要小点。缺点:质量比拼接法差一些。但是随着深度学习技术(Tacotron、W**eNet 等)的发展,参数法的质量也超过了拼接法,渐渐趋近于人类的音质水平。
拼接法首先,要准备好大量的语音,这些音都是又基本的单位拼接成的(基本单位如音节、音素等),然后从已准备好的声音中,抽取出来合成目标声音。优点:语音合成的质量比较高。缺点:数据量要求很大,数据库里必须有足够全的“音”。一般需要几十个小时的成品语料。企业级商用的需要至少 5 万句,费用成本在几百万元。
语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。