Strix Halo 上手指南，用 Ollama 跑通第一个本地模型-拓冰建站

从“能跑”到“好用”：Strix Halo 上的 Ollama 初体验

最近刚入手一台搭载 AMD Strix Halo 芯片的笔记本，作为开发者，我第一时间想到的不是跑分软件，而是终于能在移动设备上“舒服”地跑大模型了。回想以前用旧款 Ryzen AI 7040 或 8040 系列时，本地部署大模型总带着几分小心翼翼：生怕风扇狂转、电量尿崩，或者因为显存不足导致推理卡顿如 PPT。但这次 Strix Halo 的表现确实让人眼前一亮，它把 Radeon GPU 的规模直接拉到了桌面级水平，配合全新的统一内存架构，让本地推理这件事从单纯的“能跑起来”变成了真正的“日常好用”。

这次不聊那些虚头巴脑的理论参数，直接记录我从安装 Ollama 到运行第一个 Llama3 模型的全过程。如果你也正打算在这类新硬件上搭建本地 AI 环境，这篇实战记录或许能帮你避开弯路，最直观地感受端侧 AI 的变化。

零门槛环境搭建：告别复杂配置

在 Strix Halo 平台上部署本地大模型，最大的惊喜就是“无感”。不需要像几年前那样折腾 ROCm 驱动编译，也不用手动配置一堆复杂的环境变量来识别显卡。消费级的生态已经相当成熟，尤其是 Ollama，对 AMD 新架构的支持非常到位。

我的测试环境是 Windows 11，整个过程简单到令人发指。只需访问 Ollama 官网下载安装包，一路默认选项点击“下一步”即可完成安装。对于习惯 Linux 的朋友，官方脚本同样是一行命令搞定：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，打开终端（PowerShell 或 CMD），不需要任何前置检查，直接输入以下命令即可拉取并运行模型：

ollama run llama3

如果是首次运行，Ollama 会自动下载模型文件。这里有个细节值得注意：在旧款设备上，我们往往需要手动指定 GPU 卸载层数或者调整显存分配策略，否则模型容易回退到 CPU 运行，速度骤降。但在 Strix Halo 上，Ollama 后端能自动识别强大的 Radeon 集成显卡，智能地将计算密集型任务分配给 GPU，而让 NPU 处理低功耗的后台待机任务。这种“傻瓜式”的调度逻辑，对新手极其友好。

首字延迟的真实体感：毫秒级的响应

模型下载完成后，对话界面随即开启。这时候最能体现硬件差距的指标就是“首字延迟”（Time to First Token, TTFT）。

在旧款 Ryzen AI 设备上运行同量级的 7B 模型，从按下回车到看到第一个字蹦出来，通常会有 1 秒左右的停顿，如果后台还开着浏览器或 IDE，这个延迟甚至会拉长到 2 秒以上，那种“等待感”会明显打断思路。而在 Strix Halo 上，这种等待几乎消失了。

实测中，Llama3 8B 模型的首字延迟被控制在毫秒级，几乎是话音刚落（或回车刚按），文字就开始流淌。这得益于 Strix Halo 超高的内存带宽。大模型推理对带宽极其敏感，传统的核显受限于双通道内存带宽，数据搬运成了瓶颈。而 Strix Halo 通过高带宽互联技术，让 Radeon GPU 能直接高效访问系统内存池，极大地降低了数据加载延迟。

除了首字快，生成速度也稳得惊人。在持续对话测试中，Token 生成速度稳定在 45-50 tokens/s 之间。这个速度不仅远超人类的阅读速度，甚至可以用来做实时的语音转文字辅助，完全没有那种“挤牙膏”的焦虑感。即便我同时在后台编译代码、前台跑模型，系统也没有出现明显的卡顿，说明 CPU 与 GPU 之间的资源隔离做得相当到位。

进阶玩法：打造静默后台服务

对于大多数开发者来说，交互式对话只是场景之一，更常见的需求是将本地模型作为后台服务，供 VS Code 等编辑器插件调用，实现离线的代码补全或解释功能。

Ollama 默认在启动后会自动运行服务，但为了更稳定地将其作为开发基础设施，我们可以简单配置一下环境变量，确保它监听本地地址并保持后台静默运行。在 PowerShell 中，可以执行以下设置：

# 设置监听地址为本地所有接口 $env:OLLAMA_HOST = "127.0.0.1:11434" # 限制最大同时加载的模型数量，节省显存 $env:OLLAMA_MAX_LOADED_MODELS = "2" # 启动服务（如果未自动启动） ollama serve

配置完成后，Ollama 就会在后台安静地待命。此时，你可以安装 Continue 或 Twinny 等 VS Code 插件，在插件设置中将 API 地址指向http://127.0.0.1:11434。这样一来，每当你在写代码时需要解释一段复杂的递归逻辑，或者生成一个单元测试用例，插件会直接调用本地的 Llama3 模型，响应速度极快且完全离线。

这种工作流的优势在于“零感知”。你不需要每次用时都打开终端敲命令，模型就像本地安装的一个库一样随时待命。而且，由于数据完全在本地闭环，无论是公司的核心代码库，还是个人的私有脚本，都不会泄露到云端，这对于注重隐私和安全的企业开发环境尤为重要。

写在最后

从最初的“尝鲜”到现在的“主力”，Strix Halo 架构确实让端侧 AI 跨过了一个重要的门槛。它不再是一个需要精心呵护的实验品，而是一个能够融入日常开发流程的生产力工具。

对于刚入手这类设备的朋友，我的建议是先从 Ollama 跑通第一个模型开始，感受那种无需配置、即开即用的便捷。当你习惯了本地推理的低延迟和隐私安全感后，你会发现，AI 助手不再是云端遥不可及的服务，而是真正长在你键盘上的能力。接下来，你可以尝试加载更大的 14B 甚至 32B 模型，或者探索 LM Studio 的图形化调优，但无论如何，这台设备已经为你打开了本地大模型世界的大门。