软件教程单机多卡

DeepSeek-单机多卡折腾记

2025-04-23

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

在前面的文章中，我们已经探讨了从单机到集群，从windows到linux的各种环境设置，但还没有涉及到

在前面的文章中，我们已经探讨了从单机到集群，从windows到linux的各种环境设置，但还没有涉及到单机多卡的问题。本文将详细介绍在单机多卡环境中遇到的问题和解决方法。

本次使用的环境是配备4张Tesla V100显卡的系统。

1.只能使用1张卡

我们使用官方脚本安装了ollama，并通过systemctl方式启动，使用的是deepseek-r1:32b模型。启动后发现只使用了22G的显存，实际上只使用了一张卡，其他卡未被利用。

DeepSeek-单机多卡折腾记要使用4张卡，需要调整配置，或者运行更大的模型。如果模型大小超过了单张卡的GPU显存限制，系统会自动将任务分配到所有显卡上，无需进行特殊配置。

vi /etc/systemd/system/ollama.service#增加下面2个参数Environment="CUDA_VISIBLE_DEVICES=0,1,2,3"Environment="OLLAMA_SCHED_SPREAD=1"#重新加载ollamasystemctl daemon-reloadsystemctl restart ollama#然后重启模型ollama run deepseek-r1:32b

登录后复制

DeepSeek-单机多卡折腾记 2.模型自动退出

模型启动后，如果自动退出（默认时间为5分钟），但当你提问时，模型会自动重新启动（这会导致响应速度降低）。

#日志中可能会出现类似以下的记录"new model will fit in available VRAM, loading" model=/usr/share/ollama/.ollama/models/blobs/sha256-4cd576d9aa16961244012223abf01445567b061f1814b57dfef699e4cf8df339 library=cuda parallel=4 required="49.9 GiB"

登录后复制

#设置为-1则永不退出，也可以设置其他具体时间，比如1小时#参考刚才的步骤，重启服务即可常驻Environment="OLLAMA_KEEP_ALIVE=-1"

登录后复制

3.单机运行多模型

在机器上下载了多个模型后，运行其中一个模型后，再启动另一个模型。

root@localhost:~# ollama lsNAME                                 ID              SIZE     MODIFIED     deepseek-r1:32b                      38056bbcbb2d    19 GB    3 hours ago     deepseek-r1:32b-qwen-distill-fp16    141ef25faf00    65 GB    19 hours ago    deepseek-r1:70b                      0c1615a8ca32    42 GB    20 hours ago

登录后复制

DeepSeek-单机多卡折腾记 4.Open WebUI 提问拉起模型

在部署ollama后，它会自动开机启动；随后部署了容器化的Open WebUI（也配置了开机自启动）。重启机器（模型未启动）后，通过Open WebUI访问模型并提问，模型会自动启动，并在启动完成后自动回答问题（需要等待模型启动的时间）。

来源：互联网

上一篇 基于DeepSeek如何赋能运维场景的探讨 下一篇 【实测有点东西】使用IMA知识库投喂影刀RPA开发文档后让DeepSeek帮忙写代码

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

DeepSeek-单机多卡折腾记

摘要

相关文章推荐