企业资讯

首页 关于我们

企业资讯

掌途8月热门数据集!!!!
发布时间:2025/08/26
返回列表

掌途本月精选多项热门数据集,,,,涵盖语音识别、、、、语音合成与多模态等核心领域。。。。我们始终以高质量、、、真实、、多元的数据资源,,,,助力模型训练与优化,,,,通过持续扩充与更新的数据供给,,,,为打造更高效、、、更智能的 AI 系统提供强劲的数据动能。。

 

· 9000 小时中文双工数据集 – 对话语音

· 多语种对话平行语料数据集 – 方言&小语种

· 中文自由对话TTS数据集 – 丰富副语言

· 多语种多风格TTS数据集 – 多情感单人Free Talk

· 百类音效数据集 – 人类、、动物、、、环境、、机械

· 多语种多场景OCR数据集

· 海外人像会议视频数据集

· 3D手势数据库

 

9000小时中文双工数据集

该数据集面向语音识别、、语音合成、、、、语音理解及多轮人机交互系统设计,,,,打造真实、、高质量的中文普通话双工对话语音资源,,,,适用于各类语音模型训练与评估。。。。


 

中文普通话双工对话数据集(桌面)

产品特色:数据集包含约 2000 名发音人,,,,总时长约 1000 小时,,,覆盖不同年龄层,,,发音人性别平均,,,麦克风录制,,字准率 97% 。。。

数据内容:涵盖日常闲聊、、、家庭生活、、朋友交流、、、商务会议场景

产品编号:King-ASR-956-1


 

中文普通话双工对话数据集(手机)

产品特色:数据集包含 8000 名发音人,,总时长约 8000 小时,,,,覆盖不同年龄层,,发音人性别平均,,手机录制,,,,字准率 97% 。。

数据内容:涵盖日常闲聊、、、、AI、、新能源场景

产品编号:King-ASR-193

 

 

多语种对话平行语料数据集

该数据集可广泛应用于机器翻译、、、、跨语言对话系统、、、语音识别与合成等场景,,,,帮助提升小语种与方言的识别准确性和翻译流畅度。。。


 

粤语 & 闽南语平行语料库

产品特色:语料库涵盖粤语 650 小时、、、闽南语 110 小时,,方言文本均翻译为普通话文本。。

数据内容:日常闲聊场景,,,,覆盖真实对话语境

产品编号:King-ASR-880-1、、、King-ASR-879-1、、、、King-ASR-443-1、、、、King-ASR-854-2


 

俄语 / 马来语 / 土耳其语 / 墨西哥西语平行语料库

产品特色:语料库涵盖俄语、、、马来语、、、土耳其语、、、墨西哥西语各 100 小时,,,小语种文本翻译为中文与英文文本。。

数据内容:日常对话与闲聊,,适配跨语言任务

产品编号:King-ASR-272-1、、、、King-ASR-223-1、、、King-ASR-660-1、、、King-ASR-334-1

 

中文自由对话TTS数据集

该数据集适用于语音合成、、、语音识别、、、对话系统等多种 AI 应用,,,,能够提升儿童和老年人语音的识别效果。。。丰富的发音人、、、多年龄段语音交互、、覆盖自由对话及语气词场景,,,,为模型生成自然流畅、、富有表现力的语音提供高质量训练数据。。


 

中文自由对话闲聊合成库

产品特色:由 350 发音人参与录制,,,其中包括 60 位儿童、、、 60 位老人 和 200+ 成年人,,总时长约 350 小时,,采用两人一组形式录制。。

数据内容:日常闲聊对话,,,真实自然

产品编号:King-TTS-331


 

中文平均音色合成库 – 自由对话 & 语气词

产品特色:由 750 位成年发音人参与录制,,,,总时长约 1000 小时,,,采用两人一组的形式录制,,,每位发音人均单独录制一段长音频,,,保证语音清晰自然。。。。

数据内容:自由对话与多样语气词,,,副语言标注包括啧啧声、、、笑声、、、咳嗽、、、、叹气等。。

产品编号:King-TTS-316


 

多语种多风格TTS数据集

该数据集可广泛应用于多语种语音合成、、、、语音生成、、情感语音交互及多模态 AI 研究。。数据集覆盖四种语音风格,,,,多语种与场景组合,,,为构建自然、、、、灵活、、风格多样的语音模型提供高质量训练数据。。。。


 

产品特色:每个单语种包含 1 男 1 女发音人,,,,每人录制 2 小时涵盖4种风格。。。。同时,,每人录制 2 小时多情感自由表达。。语音助手采用单句录制,,,其他风格采用段落式录制,,,兼顾单句与连续语音,,满足多样化训练需求。。。。

数据内容:涵盖4种风格:语音助手、、、、有声书、、、播客、、在线教育;及多情感自由表达,,涵盖5种情绪:高兴、、、、生气、、、、伤心、、、恐惧、、、共情。。。

语种覆盖:阿联酋阿拉伯语、、、沙特阿拉伯语、、、、奥地利德语、、、、瑞士德语、、、、南非英语、、、、澳大利亚英语、、、、加拿大英语、、、、爱尔兰英语、、印度英语、、希伯来语、、、比利时荷兰语、、、新挪威语、、、、吴语(杭州、、、、温州、、、苏州、、、、宁波、、、绍兴)。。。

标注信息:文本 + 情感标注


 

百类音效数据集

该数据集适用于语音合成、、、、声音场景建模、、、、虚拟环境音效、、游戏及影视音效设计等多种应用场景,,帮助 AI 系统生成更自然、、、、多样化的音效,,提升语音交互的沉浸感与真实感,,,为多模态和多场景 AI 应用提供高质量训练数据。。。。

产品特色:音效总时长 300 小时,,覆盖 4 个一级分类、、、22 个二级分类、、、100 个三级分类,,,,囊括人类声音、、动物声音、、、、环境音、、、机械音等全场景音效。。

数据内容:

一级分类:人类声音(140h)、、、环境声音(70h)、、、动物声音(20h)、、机械声音(70h);

二级分类:如呼吸系统声、、心跳声、、家养宠物、、风声、、水声、、、、建筑声音、、、爆炸声等;

三级分类:如口如打呼噜声、、叹息声、、、打嗝声、、、、蛙叫、、溪流声、、、、风声、、、汽车鸣笛、、、、键盘打字、、、、烟花等。。。

标注信息:音效类别完整标注,,支持多层级检索与训练

产品编号:King-TTS-280


 

多语种多场景OCR数据集

该数据集覆盖票据、、、广告牌、、、菜单、、、、手写体等真实应用场景,,支持主流语种高精度文字识别。。。。百万级优质样本,,助力企业和研究团队快速提升模型性能,,,让 OCR 在更多行业场景中表现更智能、、、、更可靠。。。


产品特色:覆盖约 30+ 国家/地区主流语种,,,百万级高质量图像样本,,场景多元,,,数据真实、、大部分样本附有标注结果,,,平均准确率可达 97%,,,可满足多行业实际应用需求。。。

数据内容:自然场景及文档,,,,例如广告牌、、、书籍、、、菜单、、、、收据、、名片、、、、店铺名、、路牌、、、、车票、、、、景点介绍、、证件类等。。

语种覆盖:中文、、、、英文、、、、法语、、、、德语、、、、意大利语、、日语、、、韩语、、、葡萄牙语、、、俄语、、西班牙语、、、、印度语、、越南语等。。

产品编号:King-OCR-007、、King-OCR-009、、、King-OCR-010

 

 

海外人像会议视频数据集

该数据集包含的会议场景多样化,,适用于会议场景下的语音识别、、、跨语种音视频对齐、、、人脸识别与情绪识别等多模态 AI 应用开发与训练。。。。


产品特色:采集会议场景,,全部由手机拍摄,,,,每位采集者采集 3 段视频:一段朗读内容、、、、一段Free Talk、、、、一段静默录像。。。

数据内容:涵盖室内与室外多种环境,,,多种语种录制,,,,采集者使用其日常惯用语言进行表达。。。覆盖白人和黄种人群,,,,均为成年人,,,性别比例均衡。。。

产品规模:1500 人,,,,视频分辨率 4k,,,,视频约1min。。

产品编号:King-VD-052


 

3D手势数据库

该数据库可广泛应用于 XR/AR/VR 交互、、、虚拟人动作捕捉、、、、人机交互、、手势识别 AI 模型训练等场景,,,,为构建沉浸式交互体验和多模态 AI 应用提供核心支撑。。

 

产品特色:基于 XR 第一人称视角采集的高质量 3D手部关节点(21点)数据,,,涵盖静态手势和动态手势两大类,,,左右手均包含,,,真实还原自然交互过程,,,确保手势动作的精准建模与可扩展性。。。

数据内容:约21类手势,,,,包括 Yes、、、食指/中指/无名指/小拇指依次竖起、、捏合等常见交互手势。。。。

产品规模:100人,,覆盖不同手型尺寸

产品编号:King-IM-080

分享到微信朋友圈

打开微信,,,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。。。。

站点地图