Провёл испытания локальных БЯМ(LLM)

Провёл испытания локальных БЯМ(LLM) Статья: https://nikitayev.livejournal.com/145916.html

Результаты можно посмотреть на Яндекс Диске (https://disk.yandex.ru/d/iP_f37VTFKm_rA):

Список участников: Athene 70b DeepSeek Coder V2 Instruct DeepSeek-V2.5 Dracarys2-72B-Instruct Hermes-3-Llama-3.1-70B LLama-3.1-405b-Instruct Mistral Large Instruct 2407 Qwen2.5-72B-Instruct Qwen2.5-Coder-7B-Instruct

Все модели запускались на домашнем компьютере: Компьютер описан в статье: https://nikitayev.livejournal.com/142025.html

Запрос был такой (на русском языке):

Напиши полностью код программы на Python 3.11 для Windows, использующую OpenCV, которая выполнит алгоритм: 1. Программа должна загрузить видеофайл, имя которого получает из параметра строки запуска 2. вычислить смещение позиции движущегося объекта в горизонтальной плоскости между кадрами применив алгоритм ORB. Создать и применить алгоритм отсева значений в точках не относящихся к движущемуся объекту. Предпочитать те точки, которые движутся быстрее остальных и скорости у которых отличаются не более, чем на 1 пиксель/кадр и количество таких похожих по скорости точек должно быть не менее, чем 3 штуки. 3. построить изображение, составленное из вертикальных отрезков из каждого кадра с шириной полученной на предыдущем шаге. Необходимо учитывать знак смещения. Если положительный - то сначала применяем горизонтальное отражение к изображению. В обоих случаях отрезок составляем с началом в центре кадра, а конец - вправо на размер ранее вычисленного смещения. 4. сохранить сформированную фотографию объединённых отрезков И такой результат смогла получить лишь одна модель — Athene 70B, с чем я её и поздравляю. Проблема только в том, что несмотря на то, что даже в рейтинге Chat Bot Arena Hard она занимает почётное место рядом с Chat GPT-4o У неё очень маленькое окно контекста — всего 8КБ. Т.е., её можно использовать разве что для генерации отдельных функций. Далее, можно расположить те модели, которые после решения синтаксических проблем показали хоть что-то более-менее адекватное, похожее на задумку. Второе место можно отдать Dracarys2-72B-Instruct с результатом после фиксинга кода при помощи Chat GPT-4o. Остальные LLM полностью провалили тест. Некоторые выдали чёрные прямоугольники, либо просто одну картинку с геометрическими фигурами, но в основном это не тянет даже на зачёт. При этом, Dracarys2-72B-Instruct была моделью всего 4 bit квантования. И это: This variant is a finetune of Qwen2.5-72B-Instruct

repost

44

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь