第16章:Ollama服务化架构——从本地工具到团队服务
1. 项目背景业务场景经过基础篇15章的学习,小胖所在的团队已经把Ollama用得很熟了——个人AI工作台运行良好,Python客户端封装扎实,RAG知识库检索准确。但这些都运行在小胖自己的开发机上。周一早会上,测试团队的老王说:"小胖,你那AI工具能给我们用吗?我们想看日志分析结果。"运维的老李也说:"我巡检的时候也想用AI帮忙诊断故障。"产品经理补了一句:“能不能搞一个公司级的AI服务,大家都能用?”小胖愣住了——他的Ollama跑在自己笔记本上,端口11434只绑了localhost,别人根本访问不了。更麻烦的是,10个人同时用的时候怎么办?谁先谁后?模型能同时服务多人吗?痛点单机孤岛:Ollama默认只监听localhost,其他同事无法访问。修改OLLAMA_HOST=0.0.0.0虽然能暴露端口,但等于把Ollama裸奔在内网,任何人都能删除模型。缺乏服务化能力:没有鉴权、没有限流、没有审计日志。一旦暴露到内网,就是一台"谁都能用的裸机"。删模型、拉新模型、霸占GPU——全无约束。并发争抢:多人同时发请求,模型GPU资源被争抢,有的人等3秒,有的人等30秒——体验极差。无统一入口:需要反向代理、API网关、统一鉴权层、统一日志——这些基础设施散落在不同团队的知识库里,没有人把它们串起来。