从视频一键提取某个声音:Meta 发布 SAM Audio,多模态音频分离新突破
最新 12 月 17 日消息,Meta 今日发布了首个统一的多模态音频分离模型 —— SAM Audio。

Meta 表示 SAM Audio 是一个“最先进的统一模型”,通过使用自然的、多模态的提示,使音频处理变得简单,能够轻松地从复杂的音频混合中分离出任何声音 —— 无论是通过文本、视觉提示还是时间段标记。这种直观的方法模拟了人们自然与声音互动的方式,使音频分离更加易于使用和实用。

SAM Audio 的核心是感知编码器视听(PE-AV),这是一个帮助实现先进性能的技术引擎。PE-AV 基于 Meta 今年早些时候分享的开源感知编码器模型构建,它使人们能够创建更先进的计算机视觉系统,以协助日常任务,包括声音检测。

Meta 官方把 PE-AV 类比为“耳朵”,帮助 SAM Audio 这个“大脑”完成音频分割任务。比如,一段乐队演出的视频录像,只需点击一下吉他,就能分离出吉他音频。
SAM Audio 还可以通过文本提示来分离音频,例如从户外拍摄的视频中过滤掉嘈杂的交通噪音。此外,跨度提示功能可以帮助人们一次性解决音频问题,例如在整个播客录音中过滤掉狗叫声的噪音。
SAM Audio 提出了三种音频分割方法,可以单独使用或任意组合以达到所需的效果:
文本提示:输入“狗吠”或“人声演唱”以提取特定的声音。
视觉提示:在视频中点击说话的人或发声的物体,以分离其音频。
时间片段提示:这是行业首创的方法,允许用户标记目标音频出现的时间段,类似《赛博朋克 2077》里的超梦。
Meta 还发布了 SAM Audio-Bench,这是首个真实场景下的音频分离基准测试;以及 SAM Audio Judge,这是首个用于音频分离的自动评估模型。

Meta 今日发布了第二个模型 —— Perception Encoder Audiovisual,是 SAM Audio 成果的核心引擎。它支持核心组件,如主要的字幕生成模型和 SAM Audio Judge。该模型基于 Meta 于四月发布的开源模型 Meta Perception Encoder 构建,PE-AV 将计算机视觉能力扩展到了音频领域。

最新附 SAM Audio 访问地址如下:
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio
《从视频一键提取某个声音:Meta 发布 SAM Audio,多模态音频分离新突破》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
频繁口腔溃疡 可能是用了含SLS的牙膏!99%的人不知道
快科技12月17日消息,日常生活中,有人总是频繁口腔溃疡,即便没有吃辣上火,而诱发原因可能就是使用了含有SLS的牙膏。SLS中文名月桂醇硫酸酯钠,是一种表面活性剂,能让牙膏在刷牙的过程中产... -
全球首个!情感交互人形机器人“爱湫”将发布:龙蜥外形设计
快科技12月17日消息,四川具身人形机器人宣布,将推出全球首款主打情感交互的人形机器人“爱湫-AIQ”。该机器人外形设计灵感源自西南地区特有保护物种龙蜥,在形态上兼具亲和力与独... -
睡多浪费:张朝阳四小时睡眠法被炮轰 中国科学院院士回应!
快科技12月17日消息,近日张朝阳又一次分享了自己的4小时睡眠法,认为睡多就是浪费,而这个言论被行业专家狠批。中国科学院院士,精神医学与睡眠医学家陆林近日接受采访时表示,很多人认为睡眠... -
我国侵入式脑机接口临床试验新进展!从二维到三维物理世界重大转变
快科技12月17日消息,据央视新闻报道,今日,中国科学院脑科学与智能技术卓越创新中心发布该中心与国内科研机构及医疗单位合作开展的第二例侵入式脑机接口临床试验取得的新进展。本次临床试验... -
求求了!别只知道吃榨菜 它的“真身”更好吃
一到冬天,川渝的这道冬季限定菜就会被端上了饭桌。看到是不是有种似曾相识的感觉?其实,它就是我们常吃的榨菜原身——青菜头。图源:某社交平台即便如今的生活非常便利,一年...

















