爱数智慧中文童声语音合成数据集是专为儿童语音场景设计的高质量语音数据库,由爱数智慧(AISHU)公司联合语音技术团队研发,该数据集聚焦6-12岁儿童的发音特征,覆盖多语境、多情感的语音样本,旨在为儿童语音合成、智能教育产品(如早教机器人、儿童故事APP)提供基础数据支持,解决童声稀缺、合成自然度不足的行业痛点。
数据结构
子集分类 | 样本量 | 音频时长 | 音频格式 | |
---|---|---|---|---|
训练集(Train) | 50,000句 | 约1200小时 | 儿童故事、课本朗读、日常对话 | WAV (16kHz) |
验证集(Dev) | 5,000句 | 约120小时 | 儿歌歌词、趣味问答 | WAV (16kHz) |
测试集(Test) | 10,000句 | 约240小时 | 多轮对话、情感化指令(如“哇!太棒了!”) | WAV (16kHz) |
配套资源 | 词级时间戳标注、拼音转写、情感标签 | JSON/TXT |
技术指标
-
音频参数
- 采样率:16kHz
- 声道:单声道
- 编码:PCM 16bit
- 信噪比:≥45dB(静音段噪声≤30dB)
-
文本覆盖
场景 需求示例 数据集价值 智能教育产品 儿童绘本朗读、英语跟读纠音 提供自然童声,降低机器合成违和感 儿童娱乐交互 智能玩具对话、AI故事生成 支持情感化语音(如兴奋、失望) 无障碍辅助 视障儿童语音反馈、认知障碍儿童沟通训练 高清晰度发音,适配特殊教育需求
获取与授权
- 申请方式:通过爱数智慧官网(www.aishuxz.com)提交企业/机构资质认证,签署数据使用协议。
- 授权模式:非商业研究免费(需注明来源),商业应用按调用量付费。
- 更新频率:每年新增2-3个主题包(如节日主题、科普内容)。
问题与解答
Q1:数据集是否包含方言童声?
A1:当前版本以普通话童声为主,暂未收录方言,但提供“口音标记”字段(如儿化音、轻声),可辅助模拟地域发音特征,未来计划扩展方言童声模块。Q2:如何评估基于该数据集的合成效果?
A2:建议采用以下指标:- 主观评测:MOS(平均意见分)≥4.2(5分制,测试集基准为4.5)
- 客观评测:CER(字符错误率)≤3%(干净语音环境下)
- 儿童适应性测试:通过幼儿园场景AB测试,80%以上儿童能识别合成语音为