工厂网络不稳定、数据不能出厂、延迟要求毫秒级——云端 LLM 满足不了这些硬性要求。边缘推理让 Agent 在本地跑模型断网也能工作。为什么工业场景需要边缘推理云端 LLMDeepSeek、GPT-4的限制网络依赖——工厂网络不稳定断网 Agent 瘫痪数据合规——设备数据不允许出厂区延迟——云端往返 2-5 秒实时控制场景不可接受成本——大量设备 × 高频查询 × 按 token 计费 账单爆炸边缘推理的方案在本地跑一个小模型能处理的本地处理处理不了的再上云。Ollama本地模型最简部署# 安装 Ollama curl -fsSL https://ollama.com/install.sh | sh # 拉取模型7B 参数约 4GB ollama pull qwen2.5:7b # 启动服务默认端口 11434 ollama serveOllama 暴露 OpenAI 兼容 API/v1/chat/completionsLangChain4j 直接用OpenAiChatModel对接Bean(edgeModel) public ChatModel edgeModel() { return OpenAiChatModel.builder() .baseUrl(http://localhost:11434/v1) .apiKey(ollama) // Ollama 不需要真实 key .modelName(qwen2.5:7b) .temperature(0.3) .timeout(Duration.ofSeconds(30)) .build(); }ModelRouter边缘优先 云端兜底不是简单的「用本地模型替代云端」而是智能路由用户请求 → ModelRouter ↓ EdgeModelOllama 本地 ↓ 质量检查 → 通过 → 返回边缘结果 ↓ 不通过 / 超时 / 异常 ↓ CloudModelDeepSeek 云端→ 返回云端结果Component public class ModelRouter { public RouterResult chat(String message) { // 1. 先试边缘 try { String reply edgeModel.chat(message); if (isQualityAcceptable(reply)) { return new RouterResult(edge, reply, latency, false); } } catch (Exception e) { // 边缘失败超时、模型未加载等 } // 2. 退化到云端 String reply cloudModel.chat(message); return new RouterResult(cloud, reply, latency, true); } private boolean isQualityAcceptable(String reply) { if (reply null || reply.length() 20) return false; if (reply.contains(我无法) reply.length() 50) return false; return true; } }质量检查是关键——太简单的回复、明显的拒绝回复都触发云端兜底。模型选型模型参数量显存需求工业诊断能力适合场景qwen2.5:7b7B4GB中等通用对话、简单诊断qwen2.5:14b14B8GB良好复杂诊断、知识检索deepseek-v2:16b16B10GB良好代码生成、推理llama3.1:8b8B5GB一般英文优先场景推荐工业场景用qwen2.5:7b起步。中文能力强7B 在消费级 GPURTX 3060 12GB或 Mac M 系列上流畅运行。配置开关# application.yml edge: enabled: true # 关闭则回退到纯云端 ollama: base-url: http://localhost:11434/v1 model: qwen2.5:7bedge.enabledfalse时所有边缘组件不加载零侵入。边缘 vs 云端的权衡维度边缘Ollama云端DeepSeek延迟0.5-2s2-5s断网可用✅❌数据隔离✅ 不出厂区❌ 需联网推理质量7B 中等 / 14B 良好顶级成本硬件一次性投入按 token 持续计费维护需管理本地模型版本零维护最佳实践边缘处理 80% 的简单查询告警、数据、一般对话云端处理 20% 的复杂诊断。API 接口# 边缘优先路由 POST /api/edge/chat {message: CNC-001 有什么告警} # 返回 { source: edge, # 或 cloud fallback: false, # 是否触发了云端兜底 latencyMs: 1200, reply: CNC-001 当前有2条告警... } # 路由统计 GET /api/edge/stats # 返回 { edgeHits: 45, cloudFallbacks: 8, edgeErrors: 2 }工业边缘部署的四个硬性要求断网运行——网络断了 Agent 不能停数据不出厂——设备遥测数据必须在本地处理冷启动快——模型加载不能超过 30 秒资源受限——边缘设备可能只有 8-16GB 内存Ollama 7B 模型满足以上全部要求。如果边缘设备资源更充裕工控机 GPU可以上 14B 甚至 32B 模型。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】