您的位置:首页 > 财经 >

Mozilla开源语音数据集已拥有超两万小时内容,新增支持粤语、闽南语

时间:2023-01-25 16:57:22     来源:IT之家    阅读量:6533   

本周早些时候,Mozilla宣布,其通用语音数据集现在包含超过20,000小时的内容,世界各地的任何人都可以用来改进他们的语音识别软件,几乎是一年前的两倍。

Mozilla开源语音数据集已拥有超两万小时内容,新增支持粤语、闽南语

本站了解到,最新的英文数据集为71 GB,支持的语言比以往任何时候都多,包括提格雷语,闽南语,梅多马里语,孟加拉语,托基波纳语和粤语。

根据Mozilla的说法,公共语音项目允许任何人向该项目贡献自己的声音,从而使虚拟助理能够理解更多的口音此外,通用语音项目是开源的,这确保了大型技术公司无法垄断它,并为小型开发者和公司提供了构建有竞争力的产品和服务的机会

Mozilla在最新数据集版本中指出的亮点如下:

六种新语言:提格雷语,闽南语,梅多马里语,孟加拉语,托基波纳语和粤语。

27种语言拥有至少100小时的语音数据,包括孟加拉语,泰语,巴斯克语和弗里斯兰语。

9种语言拥有至少500小时的语音数据,包括基尼亚卢旺达语,加泰罗尼亚语和斯瓦希里语。

9种语言中至少45%的性别标签为女性,包括马拉地语,迪维希语和卢甘达语。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精彩阅读