К слову, о недавно вышедшей gpt-realtime-2 - она действительно круто работает. Сейчас работаю над поддержкой LiveAPI в AG2 - с ним вы можете коммуницировать с агентом голосом всего в пару строк + получаете всю мощь инструментов, сабагентов, Skills и прочих встроенных фишек AG2

Я даже немного подтянул произношение английского, пока дебажил эту интеграцию😂 - это мой сценарий, я прошу модель поправлять мое произношение

import asyncio

from autogen.beta.live import ( LiveAgent, SoundDevicePlayer, SoundDeviceRecorder, openai, )

agent = LiveAgent( name="assistant", prompt="You are a helpful voice assistant.", config=openai.RealTimeConfig("gpt-realtime-2"), )

async def main() -> None: async with ( agent.run() as context, SoundDevicePlayer(context=context), SoundDeviceRecorder(context=context), ): print("Starting...") await asyncio.Future()

if name == "main": asyncio.run(main())

Релиз 0.13 будет уже вот-вот, так что на днях сможете тоже поиграться с голосовыми агентами, если интересно. Вообще, релиз обещает быть жирным - там и LiveAgents, и Agents Workflow, и A2A, и MCP. Так получается, что все закрыли свои таски +- одновременно😂 Так что релиз застрял на этапе ревью

Еще есть что доделать, но это, в основном, всякие мелочи и нюансы. Пока поддерживает OpenAI и Gemini Live API (не знаю, у кого они еще есть), но параллельно с этим я делаю еще и API для STT + TTS кейсов - а там уже выбор пошире - будет коллаба с 11 Labs и Seedance. А у нас в России можно попробовать прикрутить Сберовский GigaChat как STT - я слышал, он хорошо работает с русским

В общем, если вы ищете агентный фреймворк, который отлично поддерживает еще и Live сценарии - то такое у нас тоже вот-вот будет🌚

#Agents