欢迎光临
我们一直在努力

爱数智慧中文童声语音合成数据集

爱数智慧中文童声语音合成数据集是专为儿童语音场景设计的高质量语音数据库,由爱数智慧(AISHU)公司联合语音技术团队研发,该数据集聚焦6-12岁儿童的发音特征,覆盖多语境、多情感的语音样本,旨在为儿童语音合成、智能教育产品(如早教机器人、儿童故事APP)提供基础数据支持,解决童声稀缺、合成自然度不足的行业痛点。

特点 描述 童声专属 采集自真实儿童发音,涵盖男童、女童声线,保留咬字、语调、气息等年龄特征 场景多样性 包含故事朗读、儿歌、对话、指令响应等场景,适配教育、娱乐等垂直领域需求 情感丰富性 覆盖高兴、好奇、撒娇、严肃等情绪,增强合成语音的交互真实感 高标注精度 逐帧标注音素边界、韵律特征,提供音高曲线、能量值等声学参数 技术兼容性 支持主流TTS框架(如FastSpeech、Tacotron),提供标准化预处理脚本和词典

数据结构

子集分类 样本量 音频时长 音频格式
训练集(Train) 50,000句 约1200小时 儿童故事、课本朗读、日常对话 WAV (16kHz)
验证集(Dev) 5,000句 约120小时 儿歌歌词、趣味问答 WAV (16kHz)
测试集(Test) 10,000句 约240小时 多轮对话、情感化指令(如“哇!太棒了!”) WAV (16kHz)
配套资源 词级时间戳标注、拼音转写、情感标签 JSON/TXT

技术指标

  1. 音频参数

    • 采样率:16kHz
    • 声道:单声道
    • 编码:PCM 16bit
    • 信噪比:≥45dB(静音段噪声≤30dB)
  2. 文本覆盖

    场景 需求示例 数据集价值 智能教育产品 儿童绘本朗读、英语跟读纠音 提供自然童声,降低机器合成违和感 儿童娱乐交互 智能玩具对话、AI故事生成 支持情感化语音(如兴奋、失望) 无障碍辅助 视障儿童语音反馈、认知障碍儿童沟通训练 高清晰度发音,适配特殊教育需求

    获取与授权

    • 申请方式:通过爱数智慧官网(www.aishuxz.com)提交企业/机构资质认证,签署数据使用协议。
    • 授权模式:非商业研究免费(需注明来源),商业应用按调用量付费。
    • 更新频率:每年新增2-3个主题包(如节日主题、科普内容)。

    问题与解答

    Q1:数据集是否包含方言童声?
    A1:当前版本以普通话童声为主,暂未收录方言,但提供“口音标记”字段(如儿化音、轻声),可辅助模拟地域发音特征,未来计划扩展方言童声模块。

    Q2:如何评估基于该数据集的合成效果?
    A2:建议采用以下指标:

    爱数智慧中文童声语音合成数据集

    1. 主观评测:MOS(平均意见分)≥4.2(5分制,测试集基准为4.5)
    2. 客观评测:CER(字符错误率)≤3%(干净语音环境下)
    3. 儿童适应性测试:通过幼儿园场景AB测试,80%以上儿童能识别合成语音为
未经允许不得转载:九八云安全 » 爱数智慧中文童声语音合成数据集