周末折腾记把 Strix Halo 变成私人知识库助手这个周末没出门窝在家里折腾那台刚入手的搭载 AMD Strix Halo 芯片的笔记本。买它的时候就是冲着端侧 AI 算力去的想着终于能在本地舒服地跑大模型了。以前用旧本子跑个 7B 模型都得小心翼翼生怕风扇起飞或者电量尿崩但这次我想玩点不一样的不只是跑个对话 Demo而是真正搭建一个能随时问答内部资料的私人知识库助手。整个过程既有“真香”时刻也踩了不少坑索性把这套基于Ryzen AI Radeon GPU的实战方案整理出来给同样喜欢 DIY 的极客朋友们参考。为什么选 Strix Halo 做本地知识库搭建本地知识库RAG的核心痛点通常有两个显存不够大和推理速度慢。传统轻薄本受限于显存带宽加载个稍微大点的嵌入模型Embedding Model或者检索模型就卡成 PPT。Strix Halo 架构最让我惊喜的是它的统一内存架构。系统内存可以直接被 Radeon GPU 高效调用这意味着只要机器配了 32GB 甚至 64GB 内存就能轻松加载参数量更大的模型彻底打破显存瓶颈。实测中这种高带宽特性让 Token 生成速度在 7B 模型上能稳定在 45-50 tokens/s即便是 14B 模型也能跑到 28 tokens/s 左右完全满足了实时检索问答的流畅度需求。更重要的是所有数据都在本地闭环处理不用担心把公司的代码片段或私人文档上传到云端带来的隐私泄露风险。工具选型Ollama 还是 LM Studio工欲善其事必先利其器。在 Strix Halo 上部署本地大模型目前主流方案是Ollama和LM Studio。对于搭建知识库这种需要长期运行后端服务的场景我的建议是双修但侧重不同。Ollama适合做后台服务。它轻量、稳定非常适合被其他程序调用。安装极其简单在终端执行官方脚本即可。新版 Ollama 能自动识别 Strix Halo 的 GPU 资源无需手动配置复杂的环境变量。# 安装 Ollama (Linux/Mac) curl -fsSL https://ollama.com/install.sh | sh # Windows 用户直接下载安装包即可 # 拉取并运行模型例如擅长代码和逻辑的 Qwen2.5-Coder ollama run qwen2.5-coder:7b启动后它会默认监听127.0.0.1:11434你可以让它一直在后台静默运行作为知识库的推理引擎。LM Studio适合调试和可视化监控。如果你需要频繁切换模型、测试不同的提示词Prompt效果或者想直观地看到 Radeon GPU 的负载情况LM Studio 的图形界面是首选。加载模型时记得在右侧设置中将GPU Offload滑块拉满让所有计算层都交由显卡处理避免模型切片到慢速的系统内存中。在这次实践中我用Ollama作为常驻的后端推理服务而用LM Studio来初步测试不同量化版本模型的效果。实战从文档整理到检索问答搭建知识库的核心流程其实并不复杂文档清洗 - 向量化 - 存储 - 检索增强生成。1. 整理本地文档先把散落在各个文件夹里的技术文档、项目笔记整理到一个目录下。格式尽量统一为 Markdown 或 TXT去掉无关的乱码和特殊符号。这一步虽然枯燥但直接决定了后续检索的质量。2. 选择嵌入模型与向量化这是最关键的一步。我们需要一个能将文本转化为向量的 Embedding 模型。在 Strix Halo 上我选择了nomic-embed-text它在长上下文表现上非常出色且体积适中。利用 Python 脚本配合langchain和chromadb本地向量数据库可以快速完成向量化入库。以下是一个简化的核心代码片段展示了如何调用本地的 Ollama 服务进行嵌入from langchain_community.embeddings import OllamaEmbeddings from langchain_community.vectorstores import Chroma from langchain.text_splitter import RecursiveCharacterTextSplitter import os # 初始化嵌入模型指向本地 Ollama 服务 embeddings OllamaEmbeddings( modelnomic-embed-text, base_urlhttp://127.0.0.1:11434 ) # 读取并切分文档 text_splitter RecursiveCharacterTextSplitter(chunk_size500, chunk_overlap50) docs [] for filename in os.listdir(./docs): with open(f./docs/{filename}, r, encodingutf-8) as f: docs.extend(text_splitter.split_text(f.read())) # 创建向量库并持久化 vector_store Chroma.from_texts(docs, embeddings, persist_directory./db_data) print(向量库构建完成)在 Strix Halo 上运行这段脚本得益于 Radeon GPU 的加速几十万字的技术文档在几分钟内就完成了向量化过程非常丝滑。3. 检索测试与避坑库建好了接下来就是测试检索效果。我写了一个简单的查询脚本输入问题后系统先从向量库召回相关片段再交给 LLM 生成答案。遇到的坑点一开始我直接用了默认的 Context Length结果在处理长文档总结时模型经常“遗忘”前面的关键信息。后来在 LM Studio 中监控发现显存其实还有富余。于是我将 Ollama 的上下文窗口调整到了4096甚至更高Strix Halo 的大内存完全扛得住检索准确率瞬间提升。另一个坑是模型选择。最初为了求快用了 3B 的小模型结果逻辑推理能力太差回答经常胡编乱造。换回Qwen2.5-7B甚至14B量化版后不仅逻辑链条清晰了还能准确引用文档中的具体段落。在 Strix Halo 上跑 14B 模型的速度依然能保持在 25-30 tokens/s完全不影响体验。最终成果随时待命的智能助手经过一下午的折腾一个专属的私人知识库助手终于跑通了。现在我可以直接在终端或者简单的 Web 界面里问它“上周那个项目的 API 变更点有哪些”或者“帮我总结一下这份技术手册里的架构图解”。它不仅能秒级响应而且所有数据都在本地流转不出本机。无论是在高铁上还是断网环境下这个助手都能正常工作。对于开发者来说这种隐私安全、低延迟、高能效的端侧 AI 体验才是真正落地的生产力。这次实践让我深刻体会到Strix Halo 这样的新硬件正在让本地大模型从“玩具”变成“工具”。只要你有一台性能足够的笔记本加上一点动手折腾的乐趣每个人都能拥有自己的私有化 AI 大脑。