Калифорнийские коллеги задались вопросом - действительно ли т.н Audio LLM слушают аудио, или скорее распознают в текст, и потом читают? Для этого собрали противоречивый датасет - например явно молдой человек говорит о том, как тяжело быть старым, человек с интонацией вверх говорит что у него сейчас интонация идет вниз, мужчина говорит что он женщина, собеседние номер 2 говорит что он собеседник номер 4 итп. Дальше кормят этим все основные опенсорсные и коммерческие аудио ллм-ки и задают каверзные вопросы. И меряют реальную точность ответов и точность относительно ответов на основе текста. Ну то есть в первом примере если модель сказала что собеседник молодой - это плюс в Ground Truth Accuracy, а если что старый - в Adversarial Label Agreement. Ну и ожидаемо получили для всех моделей ALA » GT На этом не остановились, нашди способ дотюнить Audio Flamingo нормально проходить этот бенчмарк. #speech #llm #ai