企业资讯-掌途

掌途数据集6月上新速递！！

发布时间：2025/06/12

返回列表

掌途本月数据集重磅上新！！数据集覆盖语音识别、、、、语音合成、、、、自然语言处理及多模态四大核心领域，，有效提升训练数据质量，，，，增强模型泛化能力，，，加速构建更智能的AI系统！！！！

核心亮点速览：

✔ 全球多语种正则/逆正则数据集

→覆盖14个语种/地区、、、700人、、、200小时、、17个数据类型

✔ 多语种正则数据集

→支持20+语言、、、26种标签类型、、多语言文本标注

✔ 5000小时中文双工数据集

→6000人真实发音、、、、多场景语音采集

✔ 方言&多语种平行语料库

→含737小时粤语&闽南语日常对话、、、、俄语/马来语/土耳其语/墨西哥西语各100小时日常对话

✔ 经典人物IP语音合成数据集

→四大名著人物特色IP、、、、经典角色声音复刻

✔ 百类音效数据集

→300小时多场景音效、、100个精细化三级分类

✔ 多国OCR数据集

→30种语言覆盖、、5万张数据图像采集

全球多语种正则/逆正则数据集

本次上新的语音及对应正则/逆正则文本数据集，，，可以帮助大幅提升端到端语音识别模型在数字、、、、网址、、、时间等场景下的表现。。。。该数据集既可优化语音识别系统的文本标准化能力，，，也可提高整体识别文本可读性，，，便于后续的语义理解与处理。。。

产品规模：覆盖14个语种/地区，，700人，，，，约200小时，，，，可扩展至上千小时

数据类型：包含17个类型，，，包含基数词、、、小数、、、、序数词、、、、百分比、、、分数、、、单独数字、、、、电话/传真号码、、、数学、、时间表达、、日期表达、、、货币、、、、电子邮件地址、、、网址、、、、单位、、、全球定位系统、、、、特殊符号等

多语种正则数据集

本次上新的正则数据集支持20+语言，，，，约26种标签类型，，，多语言文本数据标注，，，，对于构建跨语言NLP系统至关重要。。。。

标签类型：共4大类，，，包含数字相关、、单位/货币相关、、、、时间相关、、数字字母符号混合

涵盖语种：中文、、粤语（广州&香港）、、西班牙语、、、、意大利语、、、、日语、、、韩语、、、法语、、、德语、、葡萄牙语、、印尼语、、泰语、、、、俄语、、、越南语、、、土耳其语、、、塔加洛语、、罗马尼亚语、、、、印地语、、、、荷兰语、、、、瑞典语、、、、波兰语、、、挪威语、、、、丹麦语等

5000小时中文双工数据集

本次上新的双工数据集共5000小时，，覆盖多终端、、、多场景的真实对话，，，反映用户在不同设备下的真实交互行为。。。该数据集是构建中文对话式AI、、语音助手、、、多模态大模型等应用的理想基础资源。。

产品规模：6000人，，，5000小时

语料类型：日常闲聊/商务会议/AI/新能源

环境要求：普通安静环境

发音人信息：性别均衡

正确率：字准97%

方言&多语种平行语料库

本次上新的平行语料库涵盖了737小时高质量粤语&闽南语日常对话（手机/电话采集），，和俄语/马来语/土耳其语/墨西哥西语各100小时日常对话（手机/电话采集），，目前，，，翻译平行语料建设正朝着更智能、、、更专业的方向发展。。

产品类别：粤语平行语料库-625小时（香港+广东）、、闽南语平行语料库-112小时（漳州+泉州）、、、、俄语/马来语/土耳其语/墨西哥西语各100小时对话

数据类型：对话（日常）

经典人物IP语音合成数据集

本次上新的语音合成数据集涵盖了经典四大名著人物IP语音，，，，打造极具辨识度的角色IP语音库，，，，精准还原人物性格特征，，适配不同应用场景需求。。。。

特色IP：

· 贵族世家公子与才情少女

· 西天取经核心团队成员

· 传奇丸子头少年英雄

百类音效数据集

本次上新的百类音效数据集音效总时长300+小时，，，，包含4大一级分类、、、、22个二级分类、、、100+精细三级分类，，，覆盖环境音、、、拟声音、、、特效音等全场景需求，，显著提升合成语音场景适配性，，，增强语音交互沉浸感。。。

一级分类：人类声音 (140H)、、、、环境声音 (70H)、、、、动物声音(20H)、、机械声音(70H)

二级分类：如呼吸系统声、、心跳声、、家养宠物、、、、风声、、、水声、、、建筑声音、、爆炸声等

三级分类：如口哨声、、、打嗝声、、、、蛙叫、、、溪流声、、、、风声、、、汽车鸣笛等

多国OCR数据集

本次上新的OCR数据集覆盖约30+国家/地区主流语种，，，，百万级高质量图像样本，，，，包含广告牌、、、、菜单、、、、收据/小票、、、说明书等多元场景，，，大部分数据有标注结果，，，，准确率平均可达97%，，可适配更多行业实际应用需求。。。

涵盖语种：中、、、、美、、、、法、、、、德、、意、、、日、、韩、、、葡、、、、俄、、西班牙、、、印度、、越南等

覆盖场景：自然场景类、、文档类、、、、手写、、票据类等

应用场景：多语种文字识别、、、票据识别、、、复杂手写体识别等多场景OCR任务

上一篇：“科创100指数新质生产力调研行”走进掌途下一篇：掌途助力陕西文旅产业数智化发展