精品声音克隆录音要求

-微萌配音

录音文件要求

1、音频文件支持wav/mp3/m4a格式,采样率建议满足24~48kHz,语音数据有效时长满足30分钟以上;

2、将音频数据压缩至zip包内(无目录限制要求);

3、录音应避免出现噪音、混响等问题;

4、录音完成后请联系官方客服:微信 jwzm77,电话 15683973361,提供音频压缩包,技术人员会协助检查音频是否符合要求,若满足要求便可提交训练;

5、训练声音模型限时免费,名额有限,早到早得。



录音前准备

录音设备

通常情况下使用手机系统自带录音软件即可,无需耳机、耳麦。如使用其他录音软件,需设置录制格式为WAV(PCM)、单声道、采样率为48kHz。

环境选择

录音环境的选择主要考虑降低噪音和混响,建议使用10平方米以内的小房间进行录音,有吸音装置的房间是理想环境。可使用价格低廉的吸音棉对房间进行改造,目的是为了改变声波的平面反射为漫反射,降低混响。

噪音控制

室外噪声可以通过关闭门窗部分解决,室内噪声主要来自空调、风扇(含电脑风扇)、日光灯镇流器等。可使用手机录制环境声音并放大音量倾听录音,辨别并关闭噪声源。需要在源头避免噪声,而不是通过降噪软件后期处理。

混响控制

混响是由于声波在墙壁、玻璃上等光滑平面上反射产生,会导致声音浑浊。录制时,不要选择空旷的房间,应尽量选择有吸音设施,或摆放不规则的环境,以降低混响。日常的办公环境、会议室是不可以用来做录音环境的。

录音文案

建议在录音前熟悉文案,并确定好人设及演绎风格。文案内容无特殊限制,可以使用与待合成内容一致。合成内容中如包含英文字母,需要进行单独录制,如NBA,CEO等。

重要

普通的卧室,是相对常见的理想录音环境,录音时可以:

关闭门窗,降低室外噪音;

关闭空调/电扇,阻止室内噪音源;

拉窗帘,降低玻璃的声音反射;

打开柜门、使用衣物床单等覆盖柜面/桌面,降低光滑平面的声音反射;



录制中注意事项

麦克风距离

录制时口部与麦克风保持10~15cm距离,并需要保持位置、距离稳定,防止音量大小不一致。不要让讲话的气流正对麦克风,防止喷麦造成的噪音。

身姿控制

录音时尽量保持姿态稳定,减少不必要的肢体动作,椅子的响声、衣物的摩擦音、鼠标键盘的敲击声都是常见的人为噪声,需要格外注意细节。

发音

录音时需要保持音量大小、语速稳定、注意断句、避免口腔噪音(如口水声)。结合最终使用场景与人设加入适当演绎,避免朗读风格过于严重,并保持整体风格一致。

重要

如口误无需终止录音,可停顿1~2秒后,继续录制即可。文案中所有文字不必追求一字不落地完成,可以接受丢字、填字,保持语句通畅即可。

保障发音清晰准确,让假想听众能够听的清楚更重要。通常情况下,一次性完成全部录音是不可取的,分段、多次录制有利于缓解疲劳,调整状态,是更好的选择,需额外注意多段音频的一致性。




自制录音常见问题

音频分析工具

录音质量的高低除人工倾听判断外,更多细节需要通过专业软件配合,我们推荐使用Adobe Audition(付费)或Audacity(免费),建议从官方网站下载使用。

噪声问题

噪声是人声以外的声音,对最终合成效果影响很大,且很难有效去除,因此需要在录制阶段特别注意。含有噪声的音频具体表现为句间静音部分有持续不断的非人声数据,通过波形图或频谱图放大后如下图所示:

理想的低噪声数据在波形图中表现为平整,在频谱图中表现为无(低)能量信息,如下图所示:

混响问题

混响会导致声音浑浊,听感类似回声,对最终合成效果影响很大,且很难有效去除。录音时请保持每个字的有相对清晰的边界,正常的呼吸音无需特别控制,保持自然即可。

情绪过于平淡

当前算法最终合成效果的情感与录音数据是一致且单一的,如希望最终合成慷慨激昂、富裕感染力的声音,则需要提供相同情感的录音文件。常见的问题是录音人按照固定文案,通过朗读的方式进行录制,缺乏情感表现,另会由于疲惫导致情感逐渐低落,需要特别注意。录音时可以通过不断的心理暗示,提示自己要保持亢奋,按照最终使用场景完成录制。也可以请其他人帮忙监督,或通过回听的方式检验录音效果,防止情绪波动。

音量、语速不一致

此问题主要是拼接多段不同来源的音频导致,因此建议一次性录制完成

音量过大或过小:音量过大,会产生音频截幅现象,会导致声音信息不完整,一定要控制麦克风距离,不能太近太远,发声不能太高太小,录音软件的增益调节适当。