Запустил 2 копии ollama, каждую на своём GPU. Рерайт будет почти в 2 раза быстрее. Единственный недостаток: места занимать будут в два раза больше: 2 докер контейнера, 2 модели... Можно натравить 2 копии на одну модель, но тогда могут быть проблемы с доступностью модели у второго GPU. Но можно проверить, вдруг теория не верна?
С первого раза всё не заработало. Докер не увидел GPU. Для этого нужно установить прослойку от Nividia.
#Добавляем репозиторий NVIDIAcurl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
#Устанавливаемsudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
#Настраиваем nvidia-container-runtime как runtime по умолчаниюsudo nvidia-ctk runtime configure --runtime=docker --set-as-default
#Перезапускаем Dockersudo systemctl restart docker
Хотел сделать одно ^^^, а получилось другое. Извините :)
Но сразу не заработало. Ну и потом тоже. Не зря не люблю докер. (НО! У других-то как-то работает!..)
Сделал по методу KISS: 2 сервиса. — Наконец-то понял почему у рабочего Xeon и "прода" такая медленная скорость передачи данных между собой. Виновата сетевая карта realtek.
[У меня сегодня пост из рода "Да вот так будет праивльно! А нееет..."]
Так вот подключился к нему по другому маршруту: через wifi->роутер->прод. Ничего не изменилось. Вот такой вот у меня прод :(
—
Чуть не потерял домен...
—
Завёлся в тен-чат. +1 социальная сеть... Но, надеюсь, она будет полезна т.к. ориентируется не на одноклассников, а на бизнес людей.