数据推荐丨掌途12月数据集重磅上新！！！！

发布时间：2025/12/18

返回列表

掌途12月为开发者与企业带来了全新一批高质量数据集，，涵盖语音识别、、、语音合成、、多模态等核心领域。。。

随着语音大模型在各行业加速落地，，，，本月上新在语音领域提供覆盖多音色、、、、多口音、、、多情感的高质量语音数据，，，夯实模型的泛化能力与稳定性；在多模态领域同步推出高精度跨模态视频数据集，，，，为复杂语义理解与多模态智能应用的规模化部署提供坚实支撑。。。。

语音识别（ASR）数据集

01.多场景多音色语音数据集

该数据集覆盖多样化真实场景，，，是提升模型泛化能力的重要基础数据。。可广泛应用于通用ASR训练、、、、泛场景语音模型构建以及车载语音等产业级应用场景。。。

产品特点

• 数据规模：覆盖5,000名发音人，，，累计约450小时真实语音

• 数据规格：采样率16kHz，，信噪比（SNR）＞25dB

• 多场景采集：涵盖车载、、对话、、朗读等应用场景

• 多环境录制：包含车内、、、办公室、、、、居家等使用环境

• 年龄分布均匀：覆盖儿童、、、少年、、青年、、、、中年、、、、老人，，，各年龄段占比20%，，男女比例1:1

02.高保真多音色语音数据集

该数据集面向对音质与音色一致性要求较高的应用场景，，，，可有效支撑高精度语音生成与个性化声音建模需求，，适用于高保真语音合成、、音色迁移及特定人物声音模拟等任务。。。。

产品特点

• 数据规模：覆盖1000名发音人，，累计约17小时语音数据，，音色一致性高

• 数据规格：采样率44.1kHz及以上，，信噪比（SNR）＞35dB

• 年龄分布均匀：覆盖儿童、、少年、、、青年、、中年、、老人，，，，各年龄段占比20%，，，男女比例1:1

03.多口音英文双工对话数据集

该数据集面向跨口音ASR、、、、多语言语音助手、、、全球化客服、、呼叫中心自动化、、、、会议转写及国际化AI应用等场景，，是提升英语口音识别能力的核心资源。。。

产品特点

• 数据规模：覆盖1700+发音人，，累计超1600小时

• 多口音类型：包含14类英语口音，，，包括澳大利亚、、、、加拿大、、、英国（多地区）、、、、北爱尔兰、、、香港、、印度、、新加坡、、台湾、、、、美国等

• 双工自然对话：双声道录制、、、、真实呈现打断与语音重叠

• 多平台采集：支持手机和电话录制

• 多场景应用：涵盖日常对话、、、商务会议、、、客服、、、、呼叫中心等

数据集（部分）

• 澳大利亚英语日常对话（120h）

• 加拿大英语商务会议对话（85h）

• 印度英语日常对话（225h）

• 美式英语呼叫中心场景对话（130h）

……

（联系我们获取完整数据集列表）

语音合成（TTS）数据集

01.多风格多角色TTS数据集

该数据集面向角色音色构建、、、大模型精调、、、虚拟人配音、、剧情类AI创作、、、、个性化语音克隆等应用场景，，，，数据集依托多部国民经典影视IP，，为多角色音色生成提供坚实基础。。

产品特点

• 新增三大角色：咆哮哥、、、、如来佛祖、、心灵鸡汤

• 角色音色差异化：多角色、、多风格音色，，，IP角色形象高度还原

• 个性化文本设计：内容贴合角色性格特征

• 高质量录音环境：录音棚采集，，音色纯净一致，，，，无噪声干扰

• 专业标注体系：包含文本、、、韵律、、、、与发音标注，，，，强化模型的韵律与语音表现能力

数据集（部分）

• 中文男声角色模仿合成库-咆哮哥风格（2h）

• 中文男声角色模仿合成库-如来佛祖风格（2h）

• 中英混女声合成库-心灵鸡汤风格（1h）

……

（联系我们获取更多经典IP角色数据集）

02.美式英语多情感TTS数据集

该数据集适用于可控情绪语音生成、、虚拟角色表达、、对话式AI创作及智能陪伴等多种应用场景。。。

产品特点

• 情感覆盖全面：支持十余种常见及高起伏情绪，，包括中性、、、、开心、、、生气、、、伤心、、、、震惊、、、害怕、、、、讨厌、、、、失望等

• 多年龄层音色：覆盖年轻、、成熟、、、稳重等不同年龄段女声与男声

• 专业标注体系：提供文本、、发音标注，，提升模型生成质量与可控度

数据集（部分）

• 美国英语男声语音合成库-温柔暖男20-30岁（3h）

• 美国英语男声语音合成库-温柔成熟30-40岁（3h）

• 美国英语女声语音合成库-成熟稳重50-60岁（5h）

……

（联系我们获取完整数据集列表）

多模态数据集

01.人-物交互动作理解数据集

该数据集面向多模态大模型训练、、、、动作识别、、、、人机交互及带货数字人等应用场景，，，帮助模型精准理解人—物之间的动作、、、、姿态与语义关系，，，显著提升理解精度与场景泛化能力。。。。

产品特点

• 数据规模：包含2,000段视频，，视频结合物体多角度特写图

• 真实多场景：覆盖办公室、、、会议室、、停车场、、花园等

• 多光照条件：涵盖正常光、、、、弱光、、逆光等

• 动作+口语解说：每段视频伴有模特对物体的简单解说，，，，贴近真实交互语义

• 视频/图片规格：视频MP4（分辨率1280×720，，，10–15秒）；图片JPG（分辨率3072×4080，，每个物体3张）

02.美学构图训练数据集

该数据集面向美学模型评测、、、、图像生成、、、、影像调优、、设计类 App 及手机影像系统等应用场景，，帮助模型掌握构图规律，，，，提升成片的审美水平与视觉表现力。。

产品特点

• 数据规模：包含7,231组高质量图像

• 专业摄影采集：由摄影师使用单反相机及手机拍摄

• 多构图标签：涵盖三分法、、、、中心构图、、、对角线、、、、三角构图、、水平构图等

• 审美级标注：每张图匹配1–3种构图标签，，，便于模型学习审美规律

• 高分辨率图片：JPG格式，，，分辨率1920×1080及以上

03.中文新闻图文交织数据集

该数据集适用于新闻理解、、、事件抽取、、、、图文对齐、、、、信息检索、、、、内容生成及舆情分析等任务，，，，帮助模型提升对新闻语境、、、、事件逻辑及图文关联的综合理解能力。。

产品特点

• 数据规模：包含100万组，，，新闻图片与文本组合

• 多行业覆盖：涵盖科技、、人文、、、、社会、、、金融、、、、体育、、、、旅游、、、、健康等多个领域

• 专题内容丰富：包括党政时事，，，可持续更新

• 新闻内容结构化：提供事件（event）+ 正文（content）字段

• 权威来源保障：新闻来源严格按照中央网信办白名单筛选，，确保数据可靠性

04.物流场景视觉数据集

该数据集面向智能物流、、、仓储管理、、交通监管、、自动分拣、、、车辆识别及箱体损坏分析等行业场景，，帮助模型快速掌握物流物体识别与场景感知能力。。。

产品特点

• 数据规模：包含80万张高质量图像

• 采集对象多样：50类物流相关对象，，，，覆盖厢式货车、、牵引车、、、三轮车、、、吊车、、、、泡沫箱及其破损状态等

• 多场景采集：运输、、、仓储、、、街景、、装卸等真实应用场景

• 高质量标注：提供类别标签及精确框坐标，，便于模型训练与检测任务

05.文旅与人物视频理解数据集

该数据集覆盖人物、、街景、、、、建筑、、自然地标、、、、特色美食、、、、文化艺术及体育运动等真实场景，，，，结合高质量问答数据，，帮助模型提升理解能力、、时序推理、、构图判断与知识表达能力。。适用于AI文旅解说、、、、智能导览助手、、、、大模型视频理解训练及地方文旅知识库构建等应用场景。。

产品特点

• 高质量视频素材：分辨率≥1080P/2K，，，，格式支持MP4、、、MOV、、AVI等，，视频无水印、、、无空帧、、无损坏

• 问答覆盖多维度：包括空间感知、、、、时序感知、、、、拍摄角度及构图专业问题

• 视频拍摄时长：单段10秒至5分钟

• 大规模可扩展数据资源：

o 文旅视频问答对：5万组，，，由专业团队拍摄，，，围绕文旅场景设计高质量问答

o 通用场景视频理解训练数据：10万组，，，，覆盖动植物、、建筑风景、、、、运动、、、美食等，，，问答设计涵盖类别、、、数量、、、、空间位置、、、、行为动作及时序关系

o 高质量人物视频数据集：100万组，，，，以人物为主体，，，，涵盖中国多领域代表性人物及生活场景中的普通人

o 专业体育运动视频数据集：100TB，，，，覆盖9大类运动，，，，包括田径、、、球类、、、水上、、、、冬季运动、、、、武术与格斗、、、极限运动、、健身体能训练及传统民族体育

o 实体视频数据集：200万组，，，，国内环境、、文化相关实体及对应视频与内容介绍

上一篇：Interspeech 2026 第二届音频编码器能力挑战赛正式启动下一篇：掌途荣获第一财经2025年度回报力企业

企业资讯

语音合成（TTS）数据集

多模态数据集