1. 拼接法首先,要准备好大量的语音,这些音都是又基本的单位拼接成的(基本单位如音节、音素等),然后从已准备好的声音中,抽取出来合成目标声音。优点:语音合成的质量比较高。缺点:数据量要求很大,数据库里必须有足够全的“音”。一般需要几十个小时的成品语料。企业级商用的需要至少 5 万句,费用成本在几百万元。2. 参数法(包含深度学习的方法)根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。主要分为 3 个模块:前端、后端和声码器。优点:对数据的要求要小点。缺点:质量比拼接法差一些。但是随着深度学习技术(Tacotron、W**eNet 等)的发展,参数法的质量也超过了拼接法,渐渐趋近于人类的音质水平。
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
初代的人工智能语音,干涩、生硬、机械感格外强。在Deepfake Voice(声音克隆)技术加持下,AI生成的语音如今已经可以近乎完美的复刻真人的声音。传统的语音合成通常使用两种基本技术,即拼接合成和共振峰合成。随后,深度学习和人工智能的出现将TTS(语音合成)技术带到了新的高度,也就促成了我们听到的近乎以假乱真的人工智能语音出现。
初代的人工智能语音,干涩、生硬、机械感格外强。在Deepfake Voice(声音克隆)技术加持下,AI生成的语音如今已经可以近乎完美的复刻真人的声音。传统的语音合成通常使用两种基本技术,即拼接合成和共振峰合成。随后,深度学习和人工智能的出现将TTS(语音合成)技术带到了新的高度,也就促成了我们听到的近乎以假乱真的人工智能语音出现。