最好看的新闻,最实用的信息
05月11日 15.1°C-17.6°C
澳元 : 人民币=4.79
纽卡素
今日澳洲app下载
登录 注册

携手英伟达:Mozilla发布新版Common Voice Dataset

2021-07-31 来源: cnBeta 原文链接 评论0条

携手英伟达:Mozilla发布新版Common Voice Dataset - 1

(来自:Mozilla)

随着新版公共语音数据集的发布,可知 Common Voice 语料库已拥有超过 13000 小时的众包语音数据。

与上一版相比,其新增了 4622 小时的内容,并且迎来了对 16 种语言的支持,包括:

巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克语、阿塞拜疆语、以及豪萨语。

目前 Common Voice 已经收集了 76 种语言的公共语音数据库,以及超过 18.2 万份独特的声音,贡献者社区在过去六个月内迎来了 25% 的增长。

携手英伟达:Mozilla发布新版Common Voice Dataset - 2

(传送门:NVIDIA)

语音时长 13905 小时,较上一版本增加了 4622 小时。排名前五的语言分别为英语(2630 小时)、基尼亚卢旺达语(2260 小时)、德语(1040 小时)、加泰罗尼亚语(920 小时)、以及世界语(840 小时)。

增长百分比最高的是泰语(从 12 小时到 250 小时、增长近 20 倍),卢干达语(从 8 小时到 80 小时、增长 9 倍),世界语(从 100 小时到 840 小时、增长超 7 倍),泰米尔语(从 24 小时到 220 小时、增长超 8 倍)。

感兴趣的朋友,可移步至 Common Voice 官网(传送门),为这个公共语音数据集贡献自己的一份力量。或者前往GitHub存储库,获取特定的元数据集和使用说明。

最后,作为 Mozilla 与 NVIDIA 的一个合作项目,相关训练模型也可通过Nvidia NeMo免费获得,后者是该公司打造的用于构建语音识别和对话模型的工具包。

转载声明:本文为转载发布,仅代表原作者或原平台态度,不代表我方观点。今日澳洲仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络content@sydneytoday.com。
今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(0)
暂无评论


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

电话: (02) 8999 8797

联系邮箱: info@sydneytoday.com 商业合作: business@sydneytoday.com网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:news@sydneytoday.com

友情链接: 华人找房 到家 今日支付Umall今日优选