AI Open Space пишет:

🎧 Meta представила SAM Audio — модель для разделения звука

Meta анонсировала SAM Audio — первую универсальную многомодальную модель для сегментации звука по текстовым, визуальным и временным запросам.

Модель использует Perception Encoder Audiovisual (PE-AV) — технологию, анализирующую связь видео и звука во времени. Это позволяет выделять звуки по клику на объект в видео, по описанию (например, «лающий пёс») или по временному промежутку. В основе архитектура diffusion transformer с обработкой аудиосмеси и мультимодальных подсказок. Доступны SAM Audio-Bench — бенчмарк на реальных данных — и SAM Audio Judge, оценивающий качество разделения без эталонных дорожек.

Модель работает быстрее реального времени (RTF ≈ 0.7) и уже доступна в Segment Anything Playground.

#audio_ai #meta #sam_audio #speech_separation #multimodal #ai_research

еще контент в этом сообществе