文章目录一、前言二、操作步骤1.下载安装LM Studio2.下载AI模型3.下载安装GenericAgent4.windows系统深度学习环境配置5.windows系统python开源项目环境配置6.本地AI模型开放自己的API7.配置GenericAgent的访问本地AI模型的API一、前言假设我们有一台windows的电脑想要免费使用本地的AI Agent该如何做呢首先我们要知道我们需要一个本地的AI模型作为API服务然后我们需要一个Agent的外壳这个外壳去请求本地的API。这样我们就拥有了本地Agent的能力。一个比较简易的方案就是使用LM Studio部署本地AI模型使用GenericAgent作为agent的外壳我自己电脑是4060Ti的显卡显存16G内存32G这个配置运行本地Agent基本上没什么大问题。如果你没有这样的配置只要你有独立显卡并且显存不是低于8G那种也是有可能可以部署本地agent的但是因为显存小就会导致AI模型要进行CPU卸载这样导致速度就很慢而且也运行不了比较好的AI模型但也许可以帮你完成一些简单的任务你可以试试。虽然这篇文章是并不是特定面向程序员的但由于本地AI模型依赖CUDA和pytorch等深度学习环境实际上还是有点难度的。此外agent的外壳你也不一定要选择GenericAgent有很多Agent的外壳都可以只要它能连上你本地的API都可以但其他的Agent比较复杂。注意本地Agent能力较弱部署后立刻命令它将“使用任何删除或者移动命令以及危险操作都需要询问”写入永久记忆并且下达命令的时候严格限制可操作的文件范围避免AI误删文件尤其是不要让它做一些涉及到文件清理等危险行为。二、操作步骤1.下载安装LM Studiohttps://www.lm-studio.me/2.下载AI模型它这里如果你选择Best match排序的话它会从上到下给你排序出它觉得最匹配你的电脑的AI模型。所以一般来说你选择第一个AI模型就行了但是你要注意的是右边有个“Full GPU Offload Possible”这个意思就是说这个AI模型可以在你的GPU上完整运行所以你点右边的Download就可以开始下载了但是你在下载之前你最好按照下面的方式改一下模型下载位置因为它默认下载位置是在c盘你不改下载位置到D盘或者E盘这对于你的C盘压力很大因为一般好一点的AI模型都有接近8个G的大小。注如果你点了另外一些模型发现右边不是“Full GPU Offload Possible”而是“Partial GPU Offload Possible”这个意思就是这个AI模型无法完整地在你的GPU上运行一个AI模型它可能由很多组件组成每个组件如果都放进你的GPU里面运行就代表它完整地在你的GPU上运行但是每个组件都要占用你的GPU显存如果你的显存不够一种方案就是把一些组件转移到CPU上运行但这样的代价就是组件与组件之间的通信与在GPU和CPU之间来回传输信息这样势必是很慢的。所以不要去安装带有“Partial GPU Offload Possible”的模型除非你觉得慢点也没事你就是想体验一下那个模型到底有多强你可以试试。我只是提前告诉你如果你要保证与AI交流的速度够快要选择能够完整放在GPU上运行的AI模型。3.下载安装GenericAgenthttps://github.com/lsdefine/GenericAgent4.windows系统深度学习环境配置参考https://blog.csdn.net/shimingwang/article/details/155912711 你可以暂时跳过第4节的VS安装因为C编译环境不是必要的5.windows系统python开源项目环境配置参考https://blog.csdn.net/shimingwang/article/details/1559142416.本地AI模型开放自己的API7.配置GenericAgent的访问本地AI模型的API在你的GenericAgent里面新建一个mykey.py然后# GenericAgent — mykey.py 本地 LLM 配置# 指向本地 http://127.0.0.1:1234 (OpenAI 兼容接口)# ── 本地 LLM 配置LM Studio / Ollama / vLLM / llama.cpp 等──native_oai_config{name:local-llm,# 显示名 mixin 引用名apikey:sk-no-key-required,# 本地服务一般不校验 keyapibase:http://127.0.0.1:1234/v1,# ← 本地 API 地址model:google/gemma-4-12b-qat,# ← 改成你本地跑的模型名api_mode:chat_completions,max_retries:3,connect_timeout:10,read_timeout:120,}# ── Mixin 故障转移这里只配了一个但结构留着方便以后加──mixin_config{llm_nos:[local-llm],max_retries:10,base_delay:0.5,}配置完之后在你的conda环境里面运行python launch.pyw 就会弹出一个聊天窗口你就可以让你的agent干活了注GenericAgent好像有桌面版但是我没试过桌面版因为桌面版可能改不了API地址https://github.com/lsdefine/GenericAgent/releases/tag/desktop-portable-v0.1.3