GLM-5.2本地部署实战：从零搭建高性能私有化大模型服务-拓冰建站

🚀 30+款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度

GLM-5.2 是智谱 AI 最新发布的开源旗舰大语言模型，主打长程任务和高级编码能力。相比官方 API，本地自部署不仅能获得更快的响应速度、更低的调用成本，还能实现数据隐私的完全可控。这篇文章就带你从零开始，在本地机器上部署并运行 GLM-5.2，并深入探讨如何通过配置优化，让自部署的性能远超官方服务的体验。

最核心的吸引力在于，GLM-5.2 提供了稳定的 100 万 token 上下文窗口，这对于处理超长代码库、复杂技术文档或多轮深度对话至关重要。同时，它引入了“思考力度”参数，允许你在推理深度和响应速度之间进行权衡。对于开发者来说，这意味着你可以根据任务需求，灵活选择是追求极致的代码生成质量，还是更快的迭代反馈。

本文将详细拆解 GLM-5.2 自部署的全过程，涵盖从模型下载、推理框架选择、服务启动到性能调优的每一个步骤。我们会重点对比不同部署方式（如 vLLM, SGLang）在吞吐量和延迟上的表现，并给出具体的配置参数，让你能复现出比官方 API 更快的推理速度。无论你是想搭建私有化的代码助手，还是需要一个高性能的本地智能体大脑，这篇文章都能提供一条清晰的实践路径。

1. 核心能力速览

在动手部署之前，我们先快速了解 GLM-5.2 的核心规格和自部署的关键信息。这能帮你判断它是否适合你的硬件环境和项目需求。

能力项	说明
模型类型	开源大语言模型 (LLM)，面向长程任务与智能体工程
开源团队	智谱 AI (zai-org)
核心亮点	稳定的 100 万 token 上下文；支持弹性思考力度的高级编码；在 Terminal-Bench, SWE-bench Pro 等编码基准上领先
模型规模	744B 总参数，激活参数 40B (744B-A40B)
可用精度	BF16 (原始精度), FP8 (量化版本，显存需求更低)
硬件门槛	极高。A40B 激活参数意味着需要多张高端 GPU (如 H100, A100) 进行张量并行推理。FP8 版本可降低显存需求，但仍非消费级显卡可承载。
支持平台	Linux 是主要支持平台。Windows 可通过 WSL2 进行部署，但性能和非官方支持可能带来额外复杂度。
启动/部署方式	支持多种主流推理框架：vLLM,SGLang,Transformers,KTransformers,Unsloth。推荐使用 vLLM 或 SGLang 以获得最佳性能。
是否支持 API	是。所有上述推理框架均能轻松启动兼容 OpenAI 格式的 API 服务。
是否支持批量任务	是。vLLM 和 SGLang 等框架原生支持高并发请求和批量推理，这是实现高吞吐的关键。
适合场景	企业级私有化部署、需要处理超长上下文的研究项目、对代码生成质量要求极高的开发环境、构建复杂长周期智能体。

关键解读：GLM-5.2 是一个“巨模型”，它的部署门槛远高于常见的 7B、13B 参数模型。自部署的核心优势不在于降低硬件成本，而在于获得对模型推理流程的完全控制权。你可以通过优化批处理大小、使用量化模型、调整思考力度等方式，在特定硬件上压榨出比标准化官方 API 更高的性能和更低的单次请求延迟。

2. 适用场景与使用边界

GLM-5.2 的能力定位非常清晰，理解它能做什么、不能做什么，能帮你做出正确的技术选型。

它非常适合以下场景：

企业级代码助手与编程智能体：利用其强大的代码生成和理解能力，搭建内部开发辅助工具，处理整个代码仓库级别的任务（NL2Repo）。
长文档分析与知识库问答：100 万 token 的上下文使其能够一次性处理整本技术手册、大型法律合同或冗长的项目文档，进行深度总结、问答和交叉引用。
复杂系统工程与自动化：模拟运行长期任务，如自动化运维、复杂业务流程编排、多步骤研究实验设计等，这得益于其在 Vending Bench 2 等长周期任务基准上的优异表现。
学术研究：作为基线模型或研究对象，用于探索长上下文建模、代码智能体、推理优化等前沿方向。

你需要谨慎考虑或它不适合的场景：

个人开发者或学生党：除非能访问到云上高性能 GPU 集群，否则个人硬件很难满足其部署需求。
轻量级或实时聊天应用：模型体积庞大，即使量化后，单次推理的延迟和成本也较高，不适合需要毫秒级响应的对话场景。
对事实准确性要求严苛的生产环境：与所有大模型一样，GLM-5.2 可能存在“幻觉”。在关键领域（如医疗、金融）使用时，必须结合检索增强生成（RAG）和严格的人工审核流程。
缺乏运维经验的团队：部署和维护这样一个大型模型服务涉及深度学习框架、GPU 驱动、网络服务等多方面知识，需要一定的技术储备。

合规与安全边界：

版权与合规：使用模型生成的代码、文本等内容时，需注意其版权归属和合规性，避免直接用于可能侵权的场景。
数据隐私：自部署的最大优势是数据不出域。但需确保部署环境本身的安全，防止未授权访问。
使用限制：请严格遵守模型开源许可证（如 Apache 2.0）的规定，并关注智谱 AI 官方发布的使用条款。

3. 环境准备与前置条件

部署 GLM-5.2 是一项系统工程，充分的环境准备是成功的第一步。以下清单请逐一核对。

1. 硬件资源：

GPU：这是最主要的门槛。由于是 40B 激活参数的模型，需要多张高端 GPU 通过张量并行（Tensor Parallelism）来运行。
- 最低推荐：2-4 张 NVIDIA A100 (80GB) 或 H100。
- 备选方案：使用 FP8 量化模型 (GLM-5.2-FP8) 可以显著降低显存占用，可能使在 2 张 A100 (40GB) 或 4090 上运行成为可能，但需要实测，且性能会有折损。
- 显存估算：BF16 版本的 40B 模型，仅参数就可能需要 80GB+ 显存。FP8 版本可减少近一半。此外还需为 KV Cache（尤其对于 100 万上下文）预留大量显存。
CPU 与内存：建议多核 CPU (如 16 核以上) 和至少 128GB 的系统内存，用于处理模型加载、数据预处理和框架开销。
存储：模型文件巨大。BF16 版本约 80-90GB，FP8 版本约 40-50GB。确保有足够的 SSD 空间，并预留空间用于缓存和日志。

2. 软件环境：

操作系统：Linux (Ubuntu 20.04/22.04, CentOS 7/8)是首选，拥有最完善的生态支持和性能优化。Windows 用户可通过WSL2 (Ubuntu)获得接近原生的体验。
Python: 3.8 - 3.11 版本。建议使用conda或venv创建独立的虚拟环境。
CUDA 与 cuDNN: 根据你的 GPU 型号，安装匹配的 CUDA 工具包 (如 CUDA 11.8, 12.1) 和 cuDNN。这是 GPU 推理的基础。
推理框架：我们将以vLLM为例，因为它对长上下文和批量推理的优化非常出色。确保安装最新版本（v0.23.0+）。

3. 网络与权限：

能够稳定访问 GitHub、Hugging Face 等网站，以下载代码和模型。
对服务器有sudo或 root 权限，以便安装系统级依赖。

4. 安装部署与启动方式

我们选择vLLM作为部署框架，因为它提供了高性能的 PagedAttention 推理引擎，特别适合 GLM-5.2 这样的长上下文大模型，并能轻松启动 API 服务。

步骤 1：创建并激活 Python 虚拟环境

# 使用 conda conda create -n glm5-env python=3.10 -y conda activate glm5-env # 或使用 venv python -m venv glm5-env source glm5-env/bin/activate # Linux/macOS # glm5-env\Scripts\activate # Windows (CMD)

步骤 2：安装 vLLM 及依赖vLLM 对 PyTorch 版本有要求。以下命令安装与 CUDA 12.1 兼容的版本。

# 安装 PyTorch (请根据你的 CUDA 版本调整) pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 # 安装 vLLM pip install vllm # 可选：安装额外的依赖，如用于 API 服务的 fastapi, uvicorn pip install "vllm[api]"

步骤 3：下载 GLM-5.2 模型从 Hugging Face 或 ModelScope 下载模型。这里以 Hugging Face 上的 FP8 量化版为例，它对显存更友好。

# 使用 huggingface-cli (需先登录：huggingface-cli login) huggingface-cli download zai-org/GLM-5.2-FP8 --local-dir ./models/GLM-5.2-FP8 # 或者直接使用 git lfs (如果仓库很大) # git lfs install # git clone https://huggingface.co/zai-org/GLM-5.2-FP8 ./models/GLM-5.2-FP8

步骤 4：启动 vLLM OpenAI 兼容的 API 服务这是实现自部署并对外提供服务的关键一步。以下命令启动了 API 服务器。

# 基础启动命令 python -m vllm.entrypoints.openai.api_server \ --model ./models/GLM-5.2-FP8 \ # 模型本地路径 --tensor-parallel-size 2 \ # 张量并行度，根据你的 GPU 数量设置 --gpu-memory-utilization 0.9 \ # GPU 显存利用率，可调整 --max-model-len 1048576 \ # 最大模型长度，设置为 100 万 token --served-model-name glm-5.2-fp8 \ # API 服务中的模型名称 --port 8000 # 服务端口 # 更完整的性能优化启动示例（适用于多卡） python -m vllm.entrypoints.openai.api_server \ --model ./models/GLM-5.2-FP8 \ --tensor-parallel-size 4 \ --gpu-memory-utilization 0.95 \ --max-model-len 1048576 \ --max-num-batched-tokens 32768 \ # 提高批量处理的 token 数，提升吞吐 --disable-log-requests \ --served-model-name glm-5.2 \ --port 8000

参数解释：

--tensor-parallel-size: 必须设置为你的 GPU 数量，模型层会在这些卡上并行计算。
--max-model-len: 必须明确设置为1048576(2^20) 才能启用 100 万上下文支持。
--max-num-batched-tokens: 影响吞吐量的关键参数。增大此值可以同时处理更多请求，但会占用更多显存。需要根据你的显存和并发需求调整。

服务成功启动后，你会在终端看到类似INFO: Started server process [pid], Uvicorn running on http://0.0.0.0:8000的日志。现在，一个兼容 OpenAI API 格式的本地服务就在http://localhost:8000/v1上运行了。

5. 功能测试与效果验证

服务启动后，我们需要验证其基本功能、长上下文能力和思考力度控制。我们将通过直接的 API 调用来进行测试。

5.1 基础对话与代码生成测试

首先，我们测试最基本的聊天补全功能，模拟一个代码助手场景。

# 使用 curl 调用聊天接口 curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "glm-5.2", # 与启动命令中的 --served-model-name 一致 "messages": [ { "role": "user", "content": "用 Python 写一个快速排序函数，并添加详细的注释。" } ], "max_tokens": 1024, "temperature": 0.1 }'

预期结果：你应该会收到一个 JSON 响应，其中choices[0].message.content字段包含了模型生成的、带有注释的快速排序 Python 代码。观察响应速度，这是你本地服务的首次推理延迟。

5.2 长上下文能力测试

这是 GLM-5.2 的核心卖点。我们模拟一个“总结超长技术文章”的任务。由于直接构造 100 万 token 的提示词不现实，我们可以通过发送一个长文本（例如几万 token）并询问其中的细节来测试。

# test_long_context.py import requests import json # 1. 构造一个长提示词（这里用重复文本模拟，实际应用应使用真实长文档） long_text = ("深度学习模型架构综述 " * 5000) # 这只是模拟，实际请用真实长文档 prompt = f"""请总结以下技术文章的核心观点，并列出文中提到的三个关键模型架构及其贡献： {long_text} """ url = "http://localhost:8000/v1/completions" # 使用 completions 接口处理长纯文本 headers = {"Content-Type": "application/json"} data = { "model": "glm-5.2", "prompt": prompt, "max_tokens": 500, "temperature": 0 } response = requests.post(url, headers=headers, data=json.dumps(data), timeout=300) # 设置长超时 print(json.dumps(response.json(), indent=2, ensure_ascii=False))

判断成功：服务没有因为输入长度而崩溃或报错（如context length exceeded），并且能返回一个连贯的总结。通过vLLM的日志或nvidia-smi观察显存占用，在处理长上下文时会有显著上升。

5.3 思考力度控制测试

GLM-5.2 支持通过reasoning_effort参数控制思考深度。这在官方文档中明确提及。

# test_reasoning_effort.py import requests import json url = "http://localhost:8000/v1/chat/completions" headers = {"Content-Type": "application/json"} # 测试默认的 Max 思考力度 data_max = { "model": "glm-5.2", "messages": [{"role": "user", "content": "有一个蓄水池，单独打开进水管，6小时可注满；单独打开出水管，8小时可放空。如果同时打开进水管和出水管，问需要多少小时可注满水池？请分步骤推理。"}], "max_tokens": 512, # 不设置 reasoning_effort 或设置为其他值，默认为 max } # 测试 High 思考力度（理论上响应更快） data_high = { "model": "glm-5.2", "messages": [{"role": "user", "content": "有一个蓄水池，单独打开进水管，6小时可注满；单独打开出水管，8小时可放空。如果同时打开进水管和出水管，问需要多少小时可注满水池？请分步骤推理。"}], "max_tokens": 512, "reasoning_effort": "high" # 显式设置为 high } import time for name, data in [("Max (默认)", data_max), ("High", data_high)]: start = time.time() resp = requests.post(url, headers=headers, data=json.dumps(data), timeout=60) elapsed = time.time() - start print(f"\n=== 思考力度: {name} ===") print(f"耗时: {elapsed:.2f}秒") if resp.status_code == 200: result = resp.json() print("回答:", result['choices'][0]['message']['content'][:200] + "...") else: print("请求失败:", resp.text)

预期结果：两个请求都应成功返回正确的数学推理过程（答案是24小时）。关键观察点在于High模式下的响应时间 (elapsed) 是否显著短于Max模式。这验证了你可以通过参数在速度和质量之间做权衡。

6. 接口 API 与批量任务

将 GLM-5.2 部署为 API 服务后，你就可以像使用 OpenAI API 一样集成到自己的应用中。vLLM 的服务完全兼容 OpenAI API 格式。

6.1 标准 OpenAI API 格式调用

你的本地服务端点替换了https://api.openai.com。

# api_client.py from openai import OpenAI # 指向你的本地 vLLM 服务 client = OpenAI( api_key="token-abc123", # vLLM 默认不需要验证，但可以设置。这里任意字符串即可。 base_url="http://localhost:8000/v1" # 重点：修改为你的本地地址和端口 ) # 聊天补全 response = client.chat.completions.create( model="glm-5.2", # 必须与启动时的 --served-model-name 匹配 messages=[ {"role": "system", "content": "你是一个专业的 Python 代码助手。"}, {"role": "user", "content": "写一个函数，计算斐波那契数列的第 n 项。"} ], max_tokens=256, temperature=0.2, stream=False # 设置为 True 可以进行流式输出 ) print(response.choices[0].message.content)

6.2 批量任务处理

自部署性能超越官方 API 的关键之一就是批量处理。官方 API 对并发和速率有限制，而本地部署你可以完全控制。

# batch_processing.py import concurrent.futures import requests import json import time def query_api(prompt, api_url="http://localhost:8000/v1/completions"): """单个查询函数""" data = { "model": "glm-5.2", "prompt": prompt, "max_tokens": 100, "temperature": 0.1 } try: response = requests.post(api_url, json=data, timeout=30) return response.json()['choices'][0]['text'] except Exception as e: return f"Error: {e}" # 准备一批任务 tasks = [ "简述人工智能的发展历史。", "解释什么是机器学习中的过拟合。", "Python 中的装饰器有什么作用？", "如何理解区块链技术？", "写一句关于科技的励志名言。" ] * 4 # 重复几次，制造 20 个任务 # 使用线程池并发执行 start_time = time.time() with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor: # 控制并发数 futures = [executor.submit(query_api, task) for task in tasks] results = [future.result() for future in concurrent.futures.as_completed(futures)] end_time = time.time() print(f"处理 {len(tasks)} 个任务，总耗时: {end_time - start_time:.2f} 秒") print(f"平均每个任务耗时: {(end_time - start_time)/len(tasks):.2f} 秒") # 打印前几个结果 for i, r in enumerate(results[:3]): print(f"结果 {i+1}: {r[:80]}...")

性能对比点：在相同的网络延迟下（本地几乎是零延迟），你的本地服务可以同时处理远高于官方 API 限制的并发请求。通过调整--max-num-batched-tokens和并发工作线程数，你可以找到硬件上的最优吞吐量，这是官方服务无法提供的灵活性。

7. 资源占用与性能观察

部署大型模型，监控资源是必修课。以下是关键观察点和优化思路。

1. 显存占用观察：启动服务后，立即使用nvidia-smi命令观察 GPU 显存占用。

watch -n 1 nvidia-smi

你会看到所有参与张量并行的 GPU 显存都被大量占用。这是加载模型参数和 KV Cache 的结果。FP8 模型会比 BF16 模型节省约 40-50% 的显存。当处理长上下文请求时，显存占用会进一步上升，因为需要缓存更多的 Key 和 Value。

2. 性能调优参数：在启动 vLLM 时，以下参数直接影响性能：

--max-num-batched-tokens:这是吞吐量的关键。设置得越大，一次性能处理的并发请求总 token 数越多，吞吐量越高，但延迟可能增加，且需要更多显存。需要根据你的典型请求长度和并发数进行测试调整。
--tensor-parallel-size: 必须等于物理 GPU 数量。增加此值可以降低每张卡的显存压力，但可能引入额外的通信开销。
--gpu-memory-utilization: 默认 0.9。如果你的任务上下文非常长，可以适当调低（如 0.85）以避免 OOM；如果追求更高吞吐，且请求长度稳定，可以尝试调高（如 0.95）。
--disable-log-requests: 在生产环境启用，可以减少日志 I/O 带来的性能开销。

3. 如何实现“比官方快”？

零网络延迟：本地回路网络延迟远低于访问云端 API。
无限并发与批量：摆脱官方 API 的 RPM/TPM 限制，利用本地硬件全力处理批量请求。
定制化优化：你可以针对你的特定请求模式（如固定的提示词模板、相似的输出长度）精细调整 vLLM 参数，达到最优性能。
思考力度控制：在允许质量轻微下降的场景，使用reasoning_effort="high"可以显著降低响应延迟。

4. CPU/内存监控：使用htop或top命令监控 CPU 和内存使用情况。模型加载和 tokenization 过程会消耗 CPU 和内存资源。

8. 常见问题与排查方法

在部署和运行过程中，你可能会遇到以下问题。

问题现象	可能原因	排查方式	解决方案
启动失败：`OutOfMemoryError`	GPU 显存不足。模型太大或`--max-model-len`/`--max-num-batched-tokens`设置过高。	1. 运行`nvidia-smi`查看各卡显存。 2. 检查启动命令中的`--tensor-parallel-size`是否等于 GPU 数量。	1. 使用FP8 量化模型。 2. 增加 GPU 数量。 3. 降低`--max-num-batched-tokens`。 4. 降低`--gpu-memory-utilization`。
启动失败：`CUDA error`或`RuntimeError`	CUDA 版本、PyTorch 版本、vLLM 版本不兼容。	检查 `pip list	grep torch`和`nvcc --version`。
API 请求返回`404`或连接拒绝	API 服务未成功启动或端口被占用。	1. 检查终端日志是否有错误。 2. 运行 `netstat -tlnp	grep 8000` 查看端口状态。
请求响应非常慢	首次加载需要时间，或`--max-num-batched-tokens`设置过小导致排队。	观察 vLLM 日志，查看请求排队情况。	1. 首次预热后速度会提升。 2. 适当增大`--max-num-batched-tokens`。 3. 对于实时性要求高的请求，使用`reasoning_effort="high"`。
长上下文请求失败或结果混乱	未正确设置`--max-model-len 1048576`，或输入 token 数超过限制。	确认启动参数。使用分词器检查输入文本的 token 数量。	确保启动命令包含`--max-model-len 1048576`。对于超长文本，考虑先进行分段或摘要。
思考力度参数`reasoning_effort`不生效	vLLM 的 API 服务器可能未完全适配此参数，或参数传递方式错误。	检查 vLLM 版本是否 >=0.23.0。通过`curl`直接测试，确保 JSON 格式正确。	确保使用最新版 vLLM。参数应放在`chat/completions`请求的 JSON body 顶层。如果仍不生效，可能是框架支持问题，需关注 vLLM 更新。
Windows 下部署失败	原生 Windows 支持不完善，依赖问题多。	查看错误信息是否与 Linux 特有库或路径格式有关。	强烈建议使用 WSL2 (Ubuntu)。在 WSL2 中按照 Linux 步骤操作，可以规避绝大多数问题。

9. 最佳实践与使用建议

为了让你的 GLM-5.2 自部署服务稳定、高效地运行，遵循以下建议：

从 FP8 量化模型开始：除非你的显存极其充裕，否则优先下载和部署GLM-5.2-FP8模型。它在几乎不损失精度的情况下，大幅降低了显存门槛和推理延迟，是性价比最高的选择。
进行压力测试与性能剖析：部署完成后，不要急于上线。使用像locust或wrk这样的压力测试工具，模拟高并发场景，找到你硬件配置下的最优--max-num-batched-tokens和并发线程数。观察在压力下的显存、GPU 利用率和响应延迟。
实现服务监控与告警：对于生产环境，至少监控：GPU 显存使用率、GPU 利用率、API 请求延迟（P50, P99）、错误率。可以使用 Prometheus + Grafana 组合。设置告警，在显存即将用尽或错误率升高时及时通知。
建立模型与数据管理规范：
- 模型目录：将下载的模型文件放在独立的、空间充足的目录，如/data/models/glm-5.2-fp8/。
- 输入/输出目录：如果处理文件，定义清晰的./input、./processing、./output和./logs目录。
- 版本控制：记录使用的模型版本（Hugging Face commit id）和 vLLM 等框架版本，便于问题回溯和升级。
安全与权限控制：vLLM 默认启动的 API 服务没有认证。如果服务暴露在公网，必须添加安全层。
- 使用反向代理：通过 Nginx 配置 HTTPS、访问日志和基于 IP 的限流。
- 添加 API 密钥认证：可以在 vLLM 启动时通过--api-key参数设置，或在反向代理层实现。
- 网络隔离：将模型服务部署在内网，仅允许特定的应用服务器访问。
制定容灾与更新流程：
- 备份配置：将成功的启动命令、环境变量、依赖列表保存为脚本或文档。
- 灰度更新：更新模型或框架版本时，先在测试环境验证，然后通过负载均衡器将流量逐步切到新版本实例。
- 准备降级方案：当新版本出现问题时，能快速回滚到旧版本。

10. 总结与下一步

GLM-5.2 的自部署确实有较高的硬件门槛，但它带来的性能掌控力和数据私密性优势是官方 API 无法比拟的。通过本文的步骤，你应该已经能够在自己的服务器上启动一个高性能的 GLM-5.2 推理服务。

最值得尝试的点：首先是体验100 万 token 上下文处理超长技术文档或代码库的能力。其次，通过调整reasoning_effort参数，亲身感受推理速度与深度的权衡。最后，设计一个批量处理脚本，体验本地部署带来的无限制并发处理能力。

最先应该验证的功能：在服务启动后，立即用第 5 节的代码测试基础代码生成和思考力度控制。这是验证服务是否正常运行最快的方式。

最容易踩的坑：显存不足是头号敌人。务必从 FP8 模型开始，并根据 GPU 数量正确设置--tensor-parallel-size。版本不匹配是第二常见问题，严格遵循 vLLM 和 PyTorch 的版本要求。

后续扩展方向：

集成到开发工具：将你的本地 GLM-5.2 API 地址配置到 Cursor、Windterm 或自己编写的 IDE 插件中，打造专属的离线代码助手。
构建智能体框架：利用其长程任务能力，结合 LangChain、AutoGen 等框架，开发能够自主完成复杂多步骤任务的智能体。
探索混合精度与量化：除了 FP8，可以尝试 GPTQ、AWQ 等更激进的量化方案，进一步降低部署资源需求。
性能深度优化：尝试 SGLang 等其他推理框架，对比与 vLLM 的性能差异。对于固定场景，可以探索模型编译（如 TensorRT-LLM）以获得极致的推理速度。

自部署大模型就像拥有了一座私人发电厂，初期建设投入大，但一旦运转起来，你将获得稳定、自主且强大的能源。GLM-5.2 就是这样一座强大的“发电厂”，现在，你已经拿到了启动它的钥匙。