掌途本月数据集重磅上新!!数据集覆盖语音识别、、、、语音合成、、、、自然语言处理及多模态四大核心领域,,有效提升训练数据质量,,,,增强模型泛化能力,,,加速构建更智能的AI系统!!!!
核心亮点速览:
✔ 全球多语种正则/逆正则数据集
→覆盖14个语种/地区、、、700人、、、200小时、、17个数据类型
✔ 多语种正则数据集
→支持20+语言、、、26种标签类型、、多语言文本标注
✔ 5000小时中文双工数据集
→6000人真实发音、、、、多场景语音采集
✔ 方言&多语种平行语料库
→含737小时粤语&闽南语日常对话、、、、俄语/马来语/土耳其语/墨西哥西语各100小时日常对话
✔ 经典人物IP语音合成数据集
→四大名著人物特色IP、、、、经典角色声音复刻
✔ 百类音效数据集
→300小时多场景音效、、100个精细化三级分类
✔ 多国OCR数据集
→30种语言覆盖、、5万张数据图像采集
全球多语种正则/逆正则数据集
本次上新的语音及对应正则/逆正则文本数据集,,,可以帮助大幅提升端到端语音识别模型在数字、、、、网址、、、时间等场景下的表现。。。。该数据集既可优化语音识别系统的文本标准化能力,,,也可提高整体识别文本可读性,,,便于后续的语义理解与处理。。。
产品规模:覆盖14个语种/地区,,700人,,,,约200小时,,,,可扩展至上千小时
数据类型:包含17个类型,,,包含基数词、、、小数、、、、序数词、、、、百分比、、、分数、、、单独数字、、、、电话/传真号码、、、数学、、时间表达、、日期表达、、、货币、、、、电子邮件地址、、、网址、、、、单位、、、全球定位系统、、、、特殊符号等
多语种正则数据集
本次上新的正则数据集支持20+语言,,,,约26种标签类型,,,多语言文本数据标注,,,,对于构建跨语言NLP系统至关重要。。。。
标签类型:共4大类,,,包含数字相关、、单位/货币相关、、、、时间相关、、数字字母符号混合
涵盖语种:中文、、粤语(广州&香港)、、西班牙语、、、、意大利语、、、、日语、、、韩语、、、法语、、、德语、、葡萄牙语、、印尼语、、泰语、、、、俄语、、、越南语、、、土耳其语、、、塔加洛语、、罗马尼亚语、、、、印地语、、、、荷兰语、、、、瑞典语、、、、波兰语、、、挪威语、、、、丹麦语等
5000小时中文双工数据集
本次上新的双工数据集共5000小时,,覆盖多终端、、、多场景的真实对话,,,反映用户在不同设备下的真实交互行为。。。该数据集是构建中文对话式AI、、语音助手、、、多模态大模型等应用的理想基础资源。。
产品规模:6000人,,,5000小时
语料类型:日常闲聊/商务会议/AI/新能源
环境要求:普通安静环境
发音人信息:性别均衡
正确率:字准97%
方言&多语种平行语料库
本次上新的平行语料库涵盖了737小时高质量粤语&闽南语日常对话(手机/电话采集),,和俄语/马来语/土耳其语/墨西哥西语各100小时日常对话(手机/电话采集),,目前,,,翻译平行语料建设正朝着更智能、、、更专业的方向发展。。
产品类别:粤语平行语料库-625小时(香港+广东)、、闽南语平行语料库-112小时(漳州+泉州)、、、、俄语/马来语/土耳其语/墨西哥西语各100小时对话
数据类型:对话(日常)
经典人物IP语音合成数据集
本次上新的语音合成数据集涵盖了经典四大名著人物IP语音,,,,打造极具辨识度的角色IP语音库,,,,精准还原人物性格特征,,适配不同应用场景需求。。。。
特色IP:
· 贵族世家公子与才情少女
· 西天取经核心团队成员
· 传奇丸子头少年英雄
百类音效数据集
本次上新的百类音效数据集音效总时长300+小时,,,,包含4大一级分类、、、、22个二级分类 、、、100+精细三级分类,,,覆盖环境音、、、拟声音、、、特效音等全场景需求,,显著提升合成语音场景适配性,,,增强语音交互沉浸感。。。
一级分类:人类声音 (140H)、、、、环境声音 (70H)、、、、动物声音(20H)、、机械声音(70H)
二级分类:如呼吸系统声、、心跳声、、家养宠物、、、、风声、、、水声、、、建筑声音、、爆炸声等
三级分类:如口哨声、、、打嗝声、、、、蛙叫、、、溪流声、、、、风声、、、汽车鸣笛等
多国OCR数据集
本次上新的OCR数据集覆盖约30+国家/地区主流语种,,,,百万级高质量图像样本,,,,包含广告牌、、、、菜单、、、、收据/小票、、、说明书等多元场景,,,大部分数据有标注结果,,,,准确率平均可达97%,,可适配更多行业实际应用需求。。。
涵盖语种:中、、、、美、、、、法、、、、德、、意、、、日、、韩、、、葡、、、、俄、、西班牙、、、印度、、越南等
覆盖场景:自然场景类、、文档类、、、、手写、、票据类等
应用场景:多语种文字识别、、、票据识别、、、复杂手写体识别等多场景OCR任务