企业资讯-掌途

掌途8月热门数据集！！！！

发布时间：2025/08/26

返回列表

掌途本月精选多项热门数据集，，，，涵盖语音识别、、、、语音合成与多模态等核心领域。。。。我们始终以高质量、、、真实、、多元的数据资源，，，，助力模型训练与优化，，，，通过持续扩充与更新的数据供给，，，，为打造更高效、、、更智能的 AI 系统提供强劲的数据动能。。

· 9000 小时中文双工数据集 – 对话语音

· 多语种对话平行语料数据集 – 方言&小语种

· 中文自由对话TTS数据集 – 丰富副语言

· 多语种多风格TTS数据集 – 多情感单人Free Talk

· 百类音效数据集 – 人类、、动物、、、环境、、机械

· 多语种多场景OCR数据集

· 海外人像会议视频数据集

· 3D手势数据库

9000小时中文双工数据集

该数据集面向语音识别、、语音合成、、、、语音理解及多轮人机交互系统设计，，，，打造真实、、高质量的中文普通话双工对话语音资源，，，，适用于各类语音模型训练与评估。。。。

中文普通话双工对话数据集（桌面）

产品特色：数据集包含约 2000 名发音人，，，，总时长约 1000 小时，，，覆盖不同年龄层，，，发音人性别平均，，，麦克风录制，，字准率 97% 。。。

数据内容：涵盖日常闲聊、、、家庭生活、、朋友交流、、、商务会议场景

产品编号：King-ASR-956-1

中文普通话双工对话数据集（手机）

产品特色：数据集包含 8000 名发音人，，总时长约 8000 小时，，，，覆盖不同年龄层，，发音人性别平均，，手机录制，，，，字准率 97% 。。

数据内容：涵盖日常闲聊、、、、AI、、新能源场景

产品编号：King-ASR-193

多语种对话平行语料数据集

该数据集可广泛应用于机器翻译、、、、跨语言对话系统、、、语音识别与合成等场景，，，，帮助提升小语种与方言的识别准确性和翻译流畅度。。。

粤语 & 闽南语平行语料库

产品特色：语料库涵盖粤语 650 小时、、、闽南语 110 小时，，方言文本均翻译为普通话文本。。

数据内容：日常闲聊场景，，，，覆盖真实对话语境

产品编号：King-ASR-880-1、、、King-ASR-879-1、、、、King-ASR-443-1、、、、King-ASR-854-2

俄语 / 马来语 / 土耳其语 / 墨西哥西语平行语料库

产品特色：语料库涵盖俄语、、、马来语、、、土耳其语、、、墨西哥西语各 100 小时，，，小语种文本翻译为中文与英文文本。。

数据内容：日常对话与闲聊，，适配跨语言任务

产品编号：King-ASR-272-1、、、、King-ASR-223-1、、、King-ASR-660-1、、、King-ASR-334-1

中文自由对话TTS数据集

该数据集适用于语音合成、、、语音识别、、、对话系统等多种 AI 应用，，，，能够提升儿童和老年人语音的识别效果。。。丰富的发音人、、、多年龄段语音交互、、覆盖自由对话及语气词场景，，，，为模型生成自然流畅、、富有表现力的语音提供高质量训练数据。。

中文自由对话闲聊合成库

产品特色：由 350 位发音人参与录制，，，其中包括 60 位儿童、、、 60 位老人 和 200+ 成年人，，总时长约 350 小时，，采用两人一组形式录制。。

数据内容：日常闲聊对话，，，真实自然

产品编号：King-TTS-331

中文平均音色合成库 – 自由对话 & 语气词

产品特色：由 750 位成年发音人参与录制，，，，总时长约 1000 小时，，，采用两人一组的形式录制，，，每位发音人均单独录制一段长音频，，，保证语音清晰自然。。。。

数据内容：自由对话与多样语气词，，，副语言标注包括啧啧声、、、笑声、、、咳嗽、、、、叹气等。。

产品编号：King-TTS-316

多语种多风格TTS数据集

该数据集可广泛应用于多语种语音合成、、、、语音生成、、情感语音交互及多模态 AI 研究。。数据集覆盖四种语音风格，，，，多语种与场景组合，，，为构建自然、、、、灵活、、风格多样的语音模型提供高质量训练数据。。。。

产品特色：每个单语种包含 1 男 1 女发音人，，，，每人录制 2 小时涵盖4种风格。。。。同时，，每人录制 2 小时多情感自由表达。。语音助手采用单句录制，，，其他风格采用段落式录制，，，兼顾单句与连续语音，，满足多样化训练需求。。。。

数据内容：涵盖4种风格：语音助手、、、、有声书、、、播客、、在线教育；及多情感自由表达，，涵盖5种情绪：高兴、、、、生气、、、、伤心、、、恐惧、、、共情。。。

语种覆盖：阿联酋阿拉伯语、、、沙特阿拉伯语、、、、奥地利德语、、、、瑞士德语、、、、南非英语、、、、澳大利亚英语、、、、加拿大英语、、、、爱尔兰英语、、印度英语、、希伯来语、、、比利时荷兰语、、、新挪威语、、、、吴语（杭州、、、、温州、、、苏州、、、、宁波、、、绍兴）。。。

标注信息：文本 + 情感标注

百类音效数据集

该数据集适用于语音合成、、、、声音场景建模、、、、虚拟环境音效、、游戏及影视音效设计等多种应用场景，，帮助 AI 系统生成更自然、、、、多样化的音效，，提升语音交互的沉浸感与真实感，，，为多模态和多场景 AI 应用提供高质量训练数据。。。。

产品特色：音效总时长 300 小时，，覆盖 4 个一级分类、、、22 个二级分类、、、100 个三级分类，，，，囊括人类声音、、动物声音、、、、环境音、、、机械音等全场景音效。。

数据内容：

一级分类：人类声音（140h）、、、环境声音（70h）、、、动物声音（20h）、、机械声音（70h）；

二级分类：如呼吸系统声、、心跳声、、家养宠物、、风声、、水声、、、、建筑声音、、、爆炸声等；

三级分类：如口如打呼噜声、、叹息声、、、打嗝声、、、、蛙叫、、溪流声、、、、风声、、、汽车鸣笛、、、、键盘打字、、、、烟花等。。。

标注信息：音效类别完整标注，，支持多层级检索与训练

产品编号：King-TTS-280

多语种多场景OCR数据集

该数据集覆盖票据、、、广告牌、、、菜单、、、、手写体等真实应用场景，，支持主流语种高精度文字识别。。。。百万级优质样本，，助力企业和研究团队快速提升模型性能，，，让 OCR 在更多行业场景中表现更智能、、、、更可靠。。。

产品特色：覆盖约 30+ 国家/地区主流语种，，，百万级高质量图像样本，，场景多元，，，数据真实、、大部分样本附有标注结果，，，平均准确率可达 97%，，，可满足多行业实际应用需求。。。

数据内容：自然场景及文档，，，，例如广告牌、、、书籍、、、菜单、、、、收据、、名片、、、、店铺名、、路牌、、、、车票、、、、景点介绍、、证件类等。。

语种覆盖：中文、、、、英文、、、、法语、、、、德语、、、、意大利语、、日语、、、韩语、、、葡萄牙语、、、俄语、、西班牙语、、、、印度语、、越南语等。。

产品编号：King-OCR-007、、King-OCR-009、、、King-OCR-010

海外人像会议视频数据集

该数据集包含的会议场景多样化，，适用于会议场景下的语音识别、、、跨语种音视频对齐、、、人脸识别与情绪识别等多模态 AI 应用开发与训练。。。。

产品特色：采集会议场景，，全部由手机拍摄，，，，每位采集者采集 3 段视频：一段朗读内容、、、、一段Free Talk、、、、一段静默录像。。。

数据内容：涵盖室内与室外多种环境，，，多种语种录制，，，，采集者使用其日常惯用语言进行表达。。。覆盖白人和黄种人群，，，，均为成年人，，，性别比例均衡。。。

产品规模：1500 人，，，，视频分辨率 4k，，，，视频约1min。。

产品编号：King-VD-052

3D手势数据库

该数据库可广泛应用于 XR/AR/VR 交互、、、虚拟人动作捕捉、、、、人机交互、、手势识别 AI 模型训练等场景，，，，为构建沉浸式交互体验和多模态 AI 应用提供核心支撑。。

产品特色：基于 XR 第一人称视角采集的高质量 3D手部关节点（21点）数据，，，涵盖静态手势和动态手势两大类，，，左右手均包含，，，真实还原自然交互过程，，，确保手势动作的精准建模与可扩展性。。。

数据内容：约21类手势，，，，包括 Yes、、、食指/中指/无名指/小拇指依次竖起、、捏合等常见交互手势。。。。

产品规模：100人，，覆盖不同手型尺寸

产品编号：King-IM-080

上一篇：掌途携手人形机器人训练中心成立具身智能数据训练场，，，，深度布局具身智能产业下一篇：掌途携手杭州上城区助力具身智能产业加速落地