Qwen 3.6 27B:本地开发理想之选,性能强劲可本地微调!
Qwen 3.6 27B本地开发理想之选2026 年 6 月 29 日相关内容登上了 Hacker News 首页。过去对本地模型不满意的 Piotr Migdał试用 Qwen 3.6 后被震撼认为它是首个真正具备通用智能的本地模型。Qwen 3.6 有混合专家模型 Qwen 3.6 35B A3B 和密集型 Qwen 3.6 27B 两种版本后者速度稍慢但性能更强Piotr Migdał 强烈推荐。之后他将分享使用感受并介绍运行方法。使用时电脑发热Piotr Migdał 用连接手机的 热成像相机 拍照。Qwen 3.6 在 Hacker News 获大量关注Qwen 3.6 27B 被评价为“小身材大能量”Piotr Migdał 认为评价实至名归。初步测试Simon Willison 用“骑自行车的企鹅”测试可查看 Qwen 3.6 35B A3B 和 Qwen 3.6 27B 相关内容Piotr Migdał 采用受限写作测试。一年前此类表现只有 GPT - 4.5 能做到参考 vibe translating Quantum Flytrap。Piotr Migdał 让其写关于祖克舞和量子物理的 8 行诗对话记录在此其思考合理量子术语运用和押韵处理佳。Piotr Migdał 在 OpenCode 中让它用 pnpm 创建六边形扫雷游戏成功一次完成并创建规范 Node 包而 Qwen 3.6 35B A3B 速度快但只生成 index.html 文件。实际应用量子力学创意写作或扫雷游戏克隆非日常工作但 Qwen 3.6 27B 在常规任务表现出色。Piotr Migdał 朋友 Maciej Cielecki 在 AI Tinkerers Warsaw 提出提示运行几分钟生成页面虽按前沿模型标准不出众但能完成实际工作页面显示、响应和默认设置都不错。使用 llama.cpp 在本地运行 Qwen 3.6现在运行本地模型更易在命令行输入几行代码即可。Piotr Migdał 推荐 llama.cpp认为无需 Ollama基于道德原因不建议使用。先到 Hugging Face 获取合适量化模型如 unsloth 或 bartowski 等提供的版本默认模型用 BF16 精度常见 8 位量化省一半空间且不影响质量降低精度模型变小但质量下降参考 27B 模型的比较 和 35B A3B 模型的比较。选择 unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0运行命令如下llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080各参数作用-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 从 Hugging Face 下载模型-m ~/models/Qwen3.6-27B-Q8_0.gguf 指定本地模型路径draft-mtp 提高速度-ngl 999 将层放 GPU 运行-fa on 开启闪存注意力机制-c 65536 设置上下文大小--port 8080 固定端口。打开 http://127.0.0.1:8080 可对话。同样服务器可用于 Vibe Coding选择代理取决于个人喜好如 OpenCode、Pi、Hermes。对于 OpenCode在 ~/.config/opencode/opencode.jsonc 中添加如下内容{$schema: https://opencode.ai/config.json, provider: {llama: {name: llama.cpp (local), npm: ai-sdk/openai-compatible, options: {baseURL: http://127.0.0.1:8080/v1, apiKey: local}, models: {qwen3.6-27b: {name: Qwen3.6-27B Q8 MTP}}}}, model: llama/qwen3.6-27b}若只在终端聊天用 llama-cli 代替 llama-serverllama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536性能测试Piotr Migdał 在配备 128 GB 内存的 Macbook Max M5 上测试测试代码在此对比不同情况并与其他模型比较模型每秒令牌数内存使用Qwen3.6-35B-A3B · 8 位 - MLX85 tok/s37 GB RAMQwen3.6-35B-A3B · 8 位 - llama.cpp93 tok/s44 GB RAMQwen3.6-35B-A3B · 8 位 - llama.cpp MTP105 tok/s45 GB RAMQwen3.6-27B · 8 位 - MLX17 tok/s28 GB RAMQwen3.6-27B · 8 位 - llama.cpp18 tok/s41 GB RAMQwen3.6-27B · 8 位 - llama.cpp MTP32 tok/s42 GB RAMDeepSeek-V4-Flash · Q2–Q4 - llama.cpp33 tok/s103 GB RAM每秒 30 个令牌速度不错处于典型前沿模型 API 性能范围llama.cpp 比 mlx - lm 快能利用 95% GPU 资源。Qwen 3.6 两版本在苹果硅芯片共享内存 48 GB 内可运行消费级英伟达 RTX 显卡需更激进量化但推理快。gfosco 在 Hacker News 评论在 5090 显卡上以 Q6_K 量化和 Q4_0 KV 配置运行123k 上下文下通过 LM Studio 稳定达每秒 50 个令牌显存使用约 28/32 GB。Piotr Migdał 虽 35B A3B 速度是 27B 的 3 倍但更喜欢 27B看重代码质量。与以往顶尖模型的对比基准测试更客观了解模型性能Artificial Analysis 评分如下模型得分大致时间相当的模型Gemma 4 31B29≈ 2024 年末o1 / Claude 3.5 SonnetQwen3.6-35B-A3B32≈ 2025 年初o3 / Claude 4 SonnetQwen3.6-27B37≈ 2025 年中GPT - 5 / Claude Sonnet 4.5DeepSeek-V4-Flash40≈ 2025 年末GPT - 5.2 / Claude Opus 4.5这些笔记 有更多基准测试结论相似。加入 Gemma 4 31B 对比基准测试和网上评价更倾向 Qwen 3.6 27B。8 位量化影响不大DwarfStar4 对 DeepSeek V4 Flash 采用 2 - 4 位量化性能不如完整模型Piotr Migdał 认为 Qwen 3.6 27B 与 DwarfStar4 相当长上下文项目 DS4 可能更有优势。未来展望Piotr Migdał 认为运行自己的模型时代来临受专有前沿模型现状推动Claude Fable 5 下架其他前沿模型靠补贴维持。本地部署模型可微调企业可用其处理敏感数据个人可用于离线项目或保护隐私。随着 前沿水平的开源权重 GLM 5.2 发布新时代来临虽 Qwen 3.6 是垫脚石但 GLM 5.2 也能本地运行公司预算可承受。Piotr Migdał 坚信未来有更智能且能在本地设备运行的模型当前模型融合原始智能和事实知识未来可能分离。可在 Hacker News、LinkedIn 或 X 上参与讨论。相关文章反重力感觉沉重Claude Skills 则轻盈比较 Google Antigravity 和 Claude Code 在 AI 辅助工作流表现说明自定义 Claude Skills 可能更好。Piotr Migdał 2025 年 12 月 16 日 HNCompileBenchAI 能编译 22 年前的代码吗测试 19 个大语言模型处理软件工程任务能力如编译旧代码和交叉编译。Piotr Grabowski 2025 年 9 月 17 日 沙盒化 AI 生成代码为何我们从 WebR 转向 AWS Lambda讲述 AI 图表生成器从 WebR 迁移到 AWS Lambda 的权衡案例。Piotr Migdał Przemysław Hejman 2025 年 8 月 7 日 更多文章