内含超 100 万小时多语种录音,MLCommons 推出大型音频数据集
2025-02-11 08:11:38人工智能 IT之家 溯波(实习)
这一名为 the Unsupervised People's Speech 的数据集资源来自 Archive.org,整体规模超 48 TB,大部分内容属于美式英语。
最新 2 月 10 日消息,AI 工程联盟 MLCommons 当地时间 1 月 30 日宣布 the Unsupervised People's Speech 数据集,这一数据集包含超过 100 万小时的音频内容,有望为 AI 在音频领域的下一步发展奠定基础。
Unsupervised People's Speech 数据集的资源来自 Archive.org,由 MLCommons 和 HuggingFace 联合创建,未进行数据推理和预处理。
这一数据集整体规模超 48 TB。虽然 Unsupervised People's Speech 的内容以美式英语为主,但仍涵盖数十种语言;其中大多数音频的长度在 1 到 10 分钟之间,仅有 14 个超过了 100 小时。
赞一个! ()
相关文章
- OpenAI 周活跃用户达 4 亿,高管称用户“口口相传”发现
- Figure AI 人形机器人多模态能力升级:“听懂”语音指令
- 李开复 AI 公司零一万物被曝多处变动:计划拆分数字人业
- Spotify 启动 AI 配音有声书服务,29 种语言可供选择
- OpenAI GPT-4.5 有望下周发布,GPT-5 被曝将与 o3 大一
- 英伟达推出 Signs 平台:AI 突破美式手语学习,助力连接无
- 传字节大模型团队架构调整,知情人士称吴永辉和朱文佳都
- 清华系团队 DeepSeek 版多模态生物医药大模型 BioMedG
- DeepSeek 还在发力:官宣下周陆续开源 5 个代码库,毫无保
- 报告称 DeepSeek App 上线一个月下载量破亿:几乎没花钱