纯技术干货无营销内容。三套方案按需自取。一、Ollama — 本地跑开源大模型最主流1.1 介绍Ollama 是目前最流行的本地大模型运行工具支持 Llama、Qwen、DeepSeek、Gemma 等开源模型。一个命令拉起无需 GPU 也能跑小参数模型。1.2 安装Step 1下载安装包下载地址https://ollama.com/downloadWindows 版直接下载.exe安装程序双击运行即可。安装路径默认C:\Users\用户名\.ollama。Step 2验证安装ollama--versionStep 3拉取模型# 小参数版无需独显CPU 可跑ollama pull deepseek-r1:1.5b ollama pull qwen2.5:3b# 中等参数建议有独显6GB 以上显存ollama pull deepseek-r1:7b ollama pull llama3.2:3b# 大参数需要 12GB 显存ollama pull deepseek-r1:14b ollama pull qwen2.5:14bStep 4运行ollama run deepseek-r1:1.5b# 直接进入对话exit 退出Step 5API 服务进阶Ollama 默认在localhost:11434提供 REST APIcurl http://localhost:11434/api/generate-d{ model: deepseek-r1:7b, prompt: 用 Python 写一个快速排序 }1.3 常用命令ollama list# 查看已下载模型ollamaps# 查看正在运行的模型ollamarmdeepseek-r1:7b# 删除模型ollama run deepseek-r1:7b--verbose# 调试模式运行1.4 显存不足7B 模型最低要求 6GB 显存FP16开启 4-bit 量化后 4GB 可跑ollama pull deepseek-r1:7b-q4_K_M# 量化版显存占用减半二、LM Studio — 小白友好的本地 AI GUI2.1 介绍LM Studio 提供图形界面支持拖拽导入 GGUF 模型文件适合不想敲命令的用户。支持聊天、API 服务、多模型切换。2.2 安装Step 1下载官网https://lmstudio.ai/download选择 Windows 版本.exe或.zip双击安装。Step 2下载模型内置模型下载器搜索deepseek-ai/DeepSeek-R1-GGUF选择量化版本如Q4_K_M下载。也可以从 Hugging Face 下载 GGUF 文件拖入 LM Studio 左侧面板。Step 3运行加载模型 → 点击 “Chat”左侧边栏选模型调节参数Temperature、Max Tokens、Context Length直接对话Step 4开启本地 API# 在 LM Studio 中# 1. 点击左侧 Local Server# 2. 选择模型# 3. 点击 Start Server# 默认地址http://localhost:1234/v1/chat/completions支持 OpenAI 兼容接口代码调用方式fromopenaiimportOpenAI clientOpenAI(base_urlhttp://localhost:1234/v1,api_keylm-studio# 任意字符串)responseclient.chat.completions.create(modeldeepseek-r1-7b,messages[{role:user,content:解释一下什么是 Transformer 架构}])print(response.choices[0].message.content)三、DeepSeek — 国产最强开源模型API 调用3.1 介绍DeepSeek R1 是 2025-2026 年最热门的国产大模型数学、代码能力对标 GPT-o1但成本极低API 价格约为 GPT-4 的 1/30。支持本地部署和 API 调用两种方式。3.2 方式一API 调用最简单注册https://platform.deepseek.com 注册账号充值最低 0.1 美元起。获取 API Key控制台 → API Keys → 创建 Key妥善保存。Python 调用示例pip install openaifromopenaiimportOpenAI clientOpenAI(api_keysk-xxxxxxxxxxxxxxxxxxxxxxxx,# 替换为你的 Keybase_urlhttps://api.deepseek.com)responseclient.chat.completions.create(modeldeepseek-chat,# 对话模型# modeldeepseek-reasoner, # R1 推理模型messages[{role:system,content:你是一个资深后端工程师},{role:user,content:用 Go 语言写一个并发 HTTP 服务器}],temperature0.7,max_tokens2048)print(response.choices[0].message.content)API 价格参考2026年6月模型输入输出deepseek-chat$0.001/1K tokens$0.003/1K tokensdeepseek-reasoner (R1)$0.002/1K tokens$0.01/1K tokens3.3 方式二本地部署Ollama / vLLMOllama 方式ollama pull deepseek-r1:7b ollama run deepseek-r1:7bvLLM 方式高并发生产部署pipinstallvllm python-mvllm.entrypoints.openai.api_server\--modeldeepseek-ai/DeepSeek-R1-Distill-Qwen-7B\--served-model-name deepseek-r1\--host0.0.0.0\--port8000四、显存 / 内存需求速查模型量化显存需求内存需求推荐场景deepseek-r1:1.5bFP163GB4GBCPU 临时测试deepseek-r1:7bQ4_K_M4-6GB8GB日常对话deepseek-r1:14bQ4_K_M8-10GB16GB编程/推理deepseek-r1:32bQ4_K_M18-20GB32GB高质量输出qwen2.5:14bQ4_K_M8-10GB16GB中文任务RTX 3060 (12GB) 可流畅跑 7BRTX 4070 (12GB) 可跑 14BRTX 4090 (24GB) 可跑 32B。五、常见问题QOllama 下载模型太慢# 使用镜像站setOLLAMA_HOSThttps://.example.com/ollama# 换成国内镜像# 或者手动下载后导入ollama create deepseek-r1:7b-f./ModelfileQLM Studio 和 Ollama 哪个好想要命令行、可编程 → Ollama想要图形界面、懒人操作 → LM StudioQDeepSeek API 和本地部署怎么选个人日常使用、调试 → API 方式成本低、响应快隐私敏感数据、离线环境 → 本地 Ollama/vLLMQ模型选择哪个编程/推理DeepSeek R1 系列中文对话/写作Qwen2.5 系列多语言通用Llama 3.2