Программист, блоггер · 08.10
Провёл испытания локальных БЯМ(LLM)
Провёл испытания локальных БЯМ(LLM) Статья: https://nikitayev.livejournal.com/145916.html
Результаты можно посмотреть на Яндекс Диске (https://disk.yandex.ru/d/iP_f37VTFKm_rA):
Список участников: Athene 70b DeepSeek Coder V2 Instruct DeepSeek-V2.5 Dracarys2-72B-Instruct Hermes-3-Llama-3.1-70B LLama-3.1-405b-Instruct Mistral Large Instruct 2407 Qwen2.5-72B-Instruct Qwen2.5-Coder-7B-Instruct
Все модели запускались на домашнем компьютере: Компьютер описан в статье: https://nikitayev.livejournal.com/142025.html
Запрос был такой (на русском языке):
Напиши полностью код программы на Python 3.11 для Windows, использующую OpenCV, которая выполнит алгоритм: 1. Программа должна загрузить видеофайл, имя которого получает из параметра строки запуска 2. вычислить смещение позиции движущегося объекта в горизонтальной плоскости между кадрами применив алгоритм ORB. Создать и применить алгоритм отсева значений в точках не относящихся к движущемуся объекту. Предпочитать те точки, которые движутся быстрее остальных и скорости у которых отличаются не более, чем на 1 пиксель/кадр и количество таких похожих по скорости точек должно быть не менее, чем 3 штуки. 3. построить изображение, составленное из вертикальных отрезков из каждого кадра с шириной полученной на предыдущем шаге. Необходимо учитывать знак смещения. Если положительный - то сначала применяем горизонтальное отражение к изображению. В обоих случаях отрезок составляем с началом в центре кадра, а конец - вправо на размер ранее вычисленного смещения. 4. сохранить сформированную фотографию объединённых отрезков И такой результат смогла получить лишь одна модель — Athene 70B, с чем я её и поздравляю. Проблема только в том, что несмотря на то, что даже в рейтинге Chat Bot Arena Hard она занимает почётное место рядом с Chat GPT-4o У неё очень маленькое окно контекста — всего 8КБ. Т.е., её можно использовать разве что для генерации отдельных функций. Далее, можно расположить те модели, которые после решения синтаксических проблем показали хоть что-то более-менее адекватное, похожее на задумку. Второе место можно отдать Dracarys2-72B-Instruct с результатом после фиксинга кода при помощи Chat GPT-4o. Остальные LLM полностью провалили тест. Некоторые выдали чёрные прямоугольники, либо просто одну картинку с геометрическими фигурами, но в основном это не тянет даже на зачёт. При этом, Dracarys2-72B-Instruct была моделью всего 4 bit квантования. И это: This variant is a finetune of Qwen2.5-72B-Instruct
еще контент автора
еще контент автора
Программист, блоггер · 08.10
войдите, чтобы увидеть
и подписаться на интересных профи