Запустил 2 копии ollama, каждую на своём GPU. Рерайт будет почти в 2 раза быстрее. Единственный недостаток: места занимать будут в два раза больше: 2 докер контейнера, 2 модели... Можно натравить 2 копии на одну модель, но тогда могут быть проблемы с доступностью модели у второго GPU. Но можно проверить, вдруг теория не верна?

С первого раза всё не заработало. Докер не увидел GPU. Для этого нужно установить прослойку от Nividia.

#Добавляем репозиторий NVIDIA

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg

curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

#Устанавливаем

sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit

#Настраиваем nvidia-container-runtime как runtime по умолчанию

sudo nvidia-ctk runtime configure --runtime=docker --set-as-default

#Перезапускаем Docker

sudo systemctl restart docker

Хотел сделать одно ^^^, а получилось другое. Извините :)

Но сразу не заработало. Ну и потом тоже. Не зря не люблю докер. (НО! У других-то как-то работает!..)

Сделал по методу KISS: 2 сервиса. — Наконец-то понял почему у рабочего Xeon и "прода" такая медленная скорость передачи данных между собой. Виновата сетевая карта realtek.

[У меня сегодня пост из рода "Да вот так будет праивльно! А нееет..."]

Так вот подключился к нему по другому маршруту: через wifi->роутер->прод. Ничего не изменилось. Вот такой вот у меня прод :(

Чуть не потерял домен...

Завёлся в тен-чат. +1 социальная сеть... Но, надеюсь, она будет полезна т.к. ориентируется не на одноклассников, а на бизнес людей.

#docker #nvidia