本次测试针对以下九个模型进行了统一条件下的对比评测Gemma-4-31B-IT-UncensoredSuperGemma4-26B-UncensoredGemma 4 - 26B A4B x Claude Opus 4.6Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2Qwen3-Coder-Next — Opus 4.6 Reasoning DistilledSuperGemma4-26B-Abliterated-MultimodalGemma-4-31B-IT-Claude-OpusQwen3.6-35B-A3B-UncensoredQwen3.6-27B我下载的都是Q4_K_M量化版2).电脑硬件参数硬件类型型号/规格显卡NVIDIA GeForce RTX 4090内存64GB DDR5CPUIntel Core i9-13900K测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度评估九个模型在实际使用场景中的综合表现。2. 测试方法与统一设置为保证横向比较公平本次评测使用了完全一致的测试方式和参数设置。2.1 统一参数temperature0.0top_p1.0每题采样次数1不使用 LLM 裁判逻辑题采用 exact match 评分代码题采用程序执行与测试通过率评分2.2 测试集规模GSM8K20 题BBH20 题HumanEval10 题MBPP10 题2.3 评分公式逻辑分 (GSM8K BBH) / 2代码分 (HumanEval MBPP) / 2总分 (逻辑分 代码分) / 23. 总体结果汇总排名模型逻辑分代码分总分平均时延执行失败率1Gemma-4-31B-IT-Uncensored0.95001.00000.975017.64s0.002Qwen3.6-27B0.95000.85000.9000149.94s0.153Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v20.85001.00000.925038.25s0.004SuperGemma4-26B-Uncensored0.87500.95000.91254.90s0.054Qwen3.6-35B-A3B-Uncensored0.87500.95000.9125100.35s0.056Gemma-4-31B-IT-Claude-Opus0.85000.90000.875069.27s0.107Gemma 4 - 26B A4B x Claude Opus 4.60.77500.95000.862518.49s0.058Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled0.60001.00000.800058.25s0.009SuperGemma4-26B-Abliterated-Multimodal0.72500.50000.61258.04s0.504. 单模型详细测试结果4.1 Gemma-4-31B-IT-Uncensored4.1.1 分项成绩测试项正确 / 通过情况得分平均时延执行失败率GSM8K19 / 200.9521.24s-BBH19 / 200.9529.62s-HumanEval10 / 101.0015.36s0.00MBPP10 / 101.004.35s0.004.1.2 表现分析以0.9750 总分断层登顶是八个模型中综合实力最强的。逻辑能力极强GSM8K 和 BBH 均达到 0.95。BBH 0.95 远超第二名 SuperGemma4 的 0.80。代码能力满分HumanEval 和 MBPP 全部通过。执行失败率为 0稳定性最佳之一。速度适中17.64s与 Gemma4-26B 接近。该模型是本次评测中唯一一个在逻辑、代码、稳定性三个维度均无短板的模型。4.1.3 结论Gemma-4-31B-IT-Uncensored 是本次测试中综合实力最强、无明显短板的模型。是当前最值得推荐的全能型首选模型。4.2 Qwen3.6-27B4.2.1 分项成绩测试项正确 / 通过情况得分平均时延执行失败率GSM8K19 / 200.95156.84s-BBH19 / 200.95175.30s-HumanEval9 / 100.90171.08s0.10MBPP8 / 100.8096.54s0.204.2.2 表现分析以0.9000 总分位列第二逻辑能力极强。逻辑能力与 Gemma-4-31B-IT-Uncensored 并列第一GSM8K 和 BBH 均达到 0.95。代码分 0.85HumanEval 0.90、MBPP 0.80代码能力较强但不及满分模型。平均时延高达 149.94s是所有模型中最慢的远超第二慢的 Qwen3.6-35B100.35s。执行失败率 0.15稳定性中等。4.2.3 结论Qwen3.6-27B 是本次测试中逻辑能力最强之一、但速度极慢的模型。适合不在意响应速度、追求逻辑推理质量的场景。4.3 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v24.2.1 分项成绩测试项正确 / 通过情况得分平均时延执行失败率GSM8K20 / 201.0045.08s-BBH14 / 200.7032.16s-HumanEval10 / 101.0043.15s0.00MBPP10 / 101.0032.62s0.004.3.2 表现分析GSM8K 取得满分数学推理能力是九个模型中最强的之一。代码能力满分稳定性优秀。BBH 0.70复杂逻辑推理能力明显增强。平均时延 38.25 秒。4.3.3 结论Qwen3.5-27B 是代码能力极强、数学推理极强、综合表现显著提升的模型最新重测后位列综合第三。4.4 SuperGemma4-26B-Uncensored4.3.1 分项成绩测试项正确 / 通过情况得分平均时延执行失败率GSM8K19 / 200.953.09s-BBH16 / 200.8014.34s-HumanEval10 / 101.001.44s0.00MBPP9 / 100.900.75s0.104.4.2 表现分析总分 0.9125 并列第四逻辑能力仅次于 Gemma-4-31B 和 Qwen3.6-27B。速度是最大亮点平均时延仅 4.90 秒是所有模型中最快的。代码能力很强HumanEval 满分MBPP 仅丢 1 题。存在少量执行失败0.05。4.4.3 结论SuperGemma4-26B-Uncensored 是速度最快 综合并列第四的模型。如果极度看重响应速度它是最佳选择。4.5 Qwen3.6-35B-A3B-Uncensored4.4.1 分项成绩测试项正确 / 通过情况得分平均时延执行失败率GSM8K19 / 200.9592.47s-BBH16 / 200.80143.65s-HumanEval10 / 101.0093.43s0.00MBPP9 / 100.9071.86s0.104.5.2 表现分析总分 0.9125与 SuperGemma4-26B-Uncensored 并列第四。逻辑分 0.875GSM8K 0.95、BBH 0.80逻辑能力很强与 SuperGemma4 持平。代码分 0.95HumanEval 满分MBPP 少失 1 题。执行失败率仅 0.05稳定性良好。平均时延 100.35s是所有模型中第二慢的仅次于 Qwen3.6-27B。4.5.3 结论Qwen3.6-35B-A3B-Uncensored 是一个质量高但速度较慢的模型。综合得分与 SuperGemma4 并列但时延是其 20 倍。适合不在意响应速度、追求输出质量的场景。4.6 Gemma-4-31B-IT-Claude-Opus4.5.1 分项成绩测试项正确 / 通过情况得分平均时延执行失败率GSM8K17 / 200.8585.28s-BBH17 / 200.8578.65s-HumanEval8 / 100.8071.41s0.20MBPP10 / 101.0041.74s0.004.6.2 表现分析总分 0.8750综合第六。逻辑比较稳GSM8K 和 BBH 都到 0.85。代码能力较强MBPP 满分HumanEval 有 0.80。速度偏慢69.27s执行失败率 0.10。4.6.3 结论Gemma-4-31B-IT-Claude-Opus 是一个逻辑稳健、代码较强但速度偏慢的模型。4.7 Gemma 4 - 26B A4B x Claude Opus 4.64.6.1 分项成绩测试项正确 / 通过情况得分平均时延执行失败率GSM8K18 / 200.9018.38s-BBH13 / 200.6520.64s-HumanEval9 / 100.9018.73s0.10MBPP10 / 101.0016.20s0.004.7.2 表现分析综合均衡逻辑和代码都较强。速度适中18.49s。存在一定执行失败率0.05。4.7.3 结论Gemma 4 - 26B A4B x Claude Opus 4.6 是一个均衡且响应较快的模型。4.8 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled4.7.1 分项成绩测试项正确 / 通过情况得分平均时延执行失败率GSM8K18 / 200.9026.57s-BBH6 / 200.3033.21s-HumanEval10 / 101.00129.31s0.00MBPP10 / 101.0043.93s0.004.8.2 表现分析代码能力满分。BBH 仅 0.30逻辑短板明显。稳定性良好。4.8.3 结论Qwen3-Coder-Next 是一个偏代码导向的模型不推荐作为综合主力。4.9 SuperGemma4-26B-Abliterated-Multimodal4.8.1 分项成绩测试项正确 / 通过情况得分平均时延执行失败率GSM8K18 / 200.905.95s-BBH11 / 200.5521.35s-HumanEval1 / 100.102.37s0.90MBPP9 / 100.902.47s0.104.9.2 表现分析HumanEval 几乎全军覆没仅通过 1 题0.10执行失败率高达 90%。经三次评测结果高度一致确认为系统性问题。代码分仅 0.500是九个模型中断层最低的第二低为 Qwen3.6-27B 的 0.850。逻辑能力中规中矩GSM8K 0.90 尚可BBH 0.55 一般。MBPP 得分 0.90说明简单代码任务能处理但复杂函数级代码生成存在严重缺陷。速度较快8.04s但速度无法弥补代码质量的致命缺陷。总执行失败率 0.50是所有模型中最差的远高于第二名的 0.15。4.9.3 结论SuperGemma4-26B-Abliterated-Multimodal 是本次测试中表现最差的模型。HumanEval 代码生成存在系统性缺陷执行失败率极高不推荐在任何需要代码能力的场景中使用。5. 横向对比分析5.1 逻辑能力对比模型GSM8KBBH逻辑分Gemma-4-31B-IT-Uncensored0.950.950.950Qwen3.6-27B0.950.950.950SuperGemma4-26B-Uncensored0.950.800.875Qwen3.6-35B-A3B-Uncensored0.950.800.875Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v21.000.700.850Gemma-4-31B-IT-Claude-Opus0.850.850.850Gemma 4 - 26B A4B x Claude Opus 4.60.900.650.775SuperGemma4-26B-Abliterated-Multimodal0.900.550.725Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled0.900.300.600分析Gemma-4-31B-IT-Uncensored 与 Qwen3.6-27B 并列逻辑第一0.950。SuperGemma4-Uncensored 与 Qwen3.6-35B 并列逻辑第三0.875。Qwen3.5-27B 和 Gemma-4-31B-IT-Claude-Opus 紧随其后0.850。Qwen3-Coder-Next BBH 仅 0.30逻辑短板最明显。5.2 代码能力对比模型HumanEvalMBPP代码分Gemma-4-31B-IT-Uncensored1.001.001.000Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v21.001.001.000Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled1.001.001.000SuperGemma4-26B-Uncensored1.000.900.950Qwen3.6-35B-A3B-Uncensored1.000.900.950Gemma 4 - 26B A4B x Claude Opus 4.60.901.000.950Gemma-4-31B-IT-Claude-Opus0.801.000.900Qwen3.6-27B0.900.800.850SuperGemma4-26B-Abliterated-Multimodal0.100.900.500分析前六个模型代码能力均在 0.95 以上。Gemma-4-31B-IT-Claude-Opus 代码分 0.90略低但依然可用。Qwen3.6-27B 代码分 0.85代码能力较强。abliterated-multimodal 的 HumanEval 仅 0.10代码分 0.500 断层垫底。5.3 速度对比模型平均时延SuperGemma4-26B-Uncensored4.90sSuperGemma4-26B-Abliterated-Multimodal8.04sGemma-4-31B-IT-Uncensored17.64sGemma 4 - 26B A4B x Claude Opus 4.618.49sQwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v238.25sQwen3-Coder-Next — Opus 4.6 Reasoning Distilled58.25sGemma-4-31B-IT-Claude-Opus69.27sQwen3.6-35B-A3B-Uncensored100.35sQwen3.6-27B149.94s分析SuperGemma4-26B-Uncensored 速度最快仅 4.90s。Qwen3.6-27B 速度最慢149.94s是其最大短板。Qwen3.6-35B-A3B-Uncensored 速度第二慢100.35s。abliterated-multimodal 速度排第二8.04s但速度快不能弥补代码质量缺陷。5.4 稳定性对比模型执行失败率Gemma-4-31B-IT-Uncensored0.00Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v20.00Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled0.00SuperGemma4-26B-Uncensored0.05Qwen3.6-35B-A3B-Uncensored0.05Gemma 4 - 26B A4B x Claude Opus 4.60.05Gemma-4-31B-IT-Claude-Opus0.10Qwen3.6-27B0.15SuperGemma4-26B-Abliterated-Multimodal0.50分析abliterated-multimodal 执行失败率 0.50远超其他所有模型稳定性极差。Qwen3.6-27B 执行失败率 0.15稳定性中等。6. 关键结论6.1 综合排名Gemma-4-31B-IT-Uncensored总分 0.9750断层第一逻辑碾压 代码满分 零失败Qwen3.6-27B总分 0.9000综合第二逻辑极强与 Gemma-4-31B 并列第一但速度最慢Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2总分 0.9250综合第三逻辑与代码都接近满分SuperGemma4-26B-Uncensored总分 0.9125综合并列第四但速度最快Qwen3.6-35B-A3B-Uncensored总分 0.9125综合并列第四质量高但速度第二慢Gemma-4-31B-IT-Claude-Opus0.8750Gemma 4 - 26B A4B x Claude Opus 4.60.8625Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled0.8000SuperGemma4-26B-Abliterated-Multimodal0.6125不推荐6.2 场景化推荐追求综合最强、全面无短板推荐Gemma-4-31B-IT-Uncensored原因总分 0.9750断层第一逻辑 0.950BBH 0.95碾压全场代码满分执行失败率为 0速度适中17.64s追求极致速度 综合较强推荐SuperGemma4-26B-Uncensored原因总分并列第四0.9125速度极快4.90s是所有模型中最快的逻辑和代码都很强追求逻辑极强 不在意速度推荐Qwen3.6-27B原因逻辑分 0.950与 Gemma-4-31B-IT-Uncensored 并列第一代码分 0.85代码能力较强但速度最慢149.94s稳定性中等0.15更重视代码生成、数学能力与稳定性推荐Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2原因GSM8K 满分八者中唯一代码项满分执行失败率为 0质量优先、不在意速度推荐Qwen3.6-35B-A3B-Uncensored原因逻辑 0.875、代码 0.95质量很高与 SuperGemma4-26B-Uncensored 同分0.9125但时延 100.35s速度较慢不推荐SuperGemma4-26B-Abliterated-Multimodal原因HumanEval 执行失败率高达 90%代码分仅 0.50总执行失败率 0.50稳定性极差总分 0.6125断层垫底虽然速度较快但代码生成质量不合格不适合任何需要代码能力的场景7. 最终总结本次测试显示九个模型在逻辑、代码、速度、稳定性四个维度上表现差异显著。Gemma-4-31B-IT-Uncensored综合实力断层第一逻辑碾压全场代码满分零失败是当前最值得推荐的全能型首选模型。Qwen3.6-27B综合第二逻辑极强与 Gemma-4-31B 并列第一代码较强但速度最慢149.94s适合不在意速度、追求逻辑推理质量的场景。Qwen3.5-27B综合第三代码满分、数学满分逻辑与速度都有明显提升。SuperGemma4-26B-Uncensored综合并列第四速度极快4.90s适合对交互效率要求极高的场景。Qwen3.6-35B-A3B-Uncensored综合并列第四质量极高但速度是所有模型中第二慢的100.35s适合不在意速度的场景。Gemma-4-31B-IT-Claude-Opus综合第六逻辑稳健、代码较强但速度偏慢。Gemma 4 - 26B A4B x Claude Opus 4.6综合均衡速度较快适合作为通用助手。Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled代码能力强但逻辑短板明显更适合作为偏代码专用模型。SuperGemma4-26B-Abliterated-Multimodal代码生成存在系统性缺陷执行失败率极高不推荐使用。如果从实际落地角度只选一个模型优先推荐Gemma-4-31B-IT-Uncensored如果极度看重速度则SuperGemma4-26B-Uncensored是最佳选择如果追求逻辑极强且不在意速度Qwen3.6-27B是理想选择。上一篇SpringBoot3 LangChain4j Redis 实现大模型多轮对话及工具调用下一篇我的 Claude Code 效率工具全套配置分享本文作者fengzeng本文链接https://www.cnblogs.com/Fzeng/p/19938294版权声明本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。关注我收藏该文30posted 2026-04-27 16:28 fengzeng 阅读(3045) 评论(8) 收藏 举报登录后才能查看或发表评论立即 登录 或者 逛逛 博客园首页【推荐】 凌霞 618 年中大促Halo 与 1Panel 产品全线半价叠加满减【推荐】HarmonyOS 6.1.0 创新特性“悬浮页签沉浸光感”精品文章专题【推荐】科研领域的连接者艾思科蓝一站式科研学术服务数字化平台博客园 © 2004-2026​编辑浙公网安备 33010602011